在NAB 2024年:视频, Telestream, Phenix, Ateme, V-Nova, Twelve Labs, Norsk, Dolby, and NETINT

Any NAB report 就像盲人和大象的故事:你所经历的就是你所触摸的, 代表整体的一小部分，甚至可能不是一个好的样本. 话虽如此，这是我在节目中触摸到的东西. 其中许多经历都伴随着我拍摄的采访视频.

Videon LiveEdge节点和Max

我参加展览的第一站是 Videon booth to see the LiveEdge Node and Max (Figure 1)，由首席产品官证明 Lionel Bringuier.

Videon LiveEdge Max

Figure 1. Videon的LiveEdge Max的性能是node的两倍以上, 提供信心监控, and like Node, 接受Docker容器.

简而言之，Node和Max是紧凑的边缘实时编码器，其规格如表1所示. Node是现有的产品，而Max是新产品，容量增加了一倍多，还增加了机载信心监视器.

Feature	LiveEdge Node	LiveEdge Max
Inputs	1 × 3G-SDI或HDMI	单或双12G-SDI 4Kp60输入(w/ 16声道音频)或HDMI
Outputs	4Kp30/1080p60	Dual 4Kp60
Codecs	H.264/HEVC	H.264/HEVC
Resolution	最高可达4K P30，常用为1080 p60	高达双4K PS 60
Power	以太网供电(PoE)	以太网供电(PoE+)
信心监测	不在设备上，可以在云端使用	是的，无论是在设备的前面板上还是在云端上
Cloud Management	通过云进行设备和车队管理的API	通过云进行设备和车队管理的API
附加功能	对第三方应用程序的Docker容器支持	增强的处理能力，Docker容器支持

LiveEdge产品包括一个用于单个设备管理的API和一个用于远程监控设备群的云API. 这种双API系统对于涉及多个位置的多个设备的操作特别有用, 比如体育馆或活动场地. 车队管理通过云平台实现, 它不处理媒体，但提供远程设备监督和控制的工具, 提高效率，减少对现场管理的需求.

有许多事件射击游戏的实时转码器，而且大多数都有云平台. LiveEdge设备的独特之处在于它们支持Docker容器, 这使得他们可以将第三方应用程序直接集成到硬件中. Videon has a marketplace 对于此类应用程序，其中包括 DRM from EZDRM, 来自Synamedia的水印, 《百家乐软件app最新版下载》纠错, and 从V-Nova的LCEVC编码. 这允许用户自定义设备功能，以满足特定需求，并通过允许直接在设备上处理简化工作流程.

Telestream优势:人工智能驱动的工作流创建

我的下一站是 Telestream 在Telestream的展台上快速演示人工智能生成的工作流程 Vantage工作流设计器 by John Maniccia销售、工程和支持总监. As you may know, Vantage是工作流驱动的, 因此，用户可以轻松地创建不同的工作流，并根据文件特征创建分支以交付不同的结果. For example, Vantage可以检测文件是1080p还是4K，并根据判断将其分配到不同的编码阶梯.

在过去，您通过拖放来构建工作流，完成的工作流将显示在 Figure 2. 什么是新的是在英语中键入所需的结果，并有Vantage为您建立工作流程的能力. 在图2的右上方，您可以看到生成主面板中显示的工作流的文本.

Figure 2. Vantage将从简单的英语命令构建工作流. (点击图片查看完整尺寸.)

考虑到我们在过去18个月里对生成式人工智能的了解, 这与其说是革命，不如说是进化, 但是，当您不必成为压缩专家就可以创建转码工作流时，它使我们更接近了一步. 对管理人员有利，对压缩专家不利，但不可避免.

仍然有一些缺失的部分，比如你应该如何配置移动vs. 或者如何在各种编解码器和HDR和DRM技术之间进行选择. Still, 这种水平的自动化操作几乎肯定会包括在Vantage或 AWS Elemental MediaConvert 一两年内. 电视直播让我们第一眼看到了这可能是什么样子.

凤凰:低延迟和环环项圈

我最后一次听到 Phenix实时解决方案是否需要参与电子邮件宣传在观看2024年超级碗比赛时进行的低延迟试验. 我拒绝了，但当我遇到 Phenix COO Kyle Bank 在展览上，我忍不住问了一下结果. As shown in Figure 3, 潜伏期数据令人震惊, 派拉蒙+提供了最低的延迟，但仍然比实时时间晚43秒. 报告还发现，这种漂移, 或观众体验到的延迟范围, 从最低的28秒到惊人的134秒. 需要明确的是，这意味着观看同一服务的观众之间的间隔长达134秒.

2024年凤凰城超级碗

Figure 3. 2024年超级碗实时流媒体服务背后的平均实验室

有趣的是，凯尔提到2024年的延迟结果实际上比 2023因此，看起来已识别的服务或其客户并不太关心延迟. 这引发了关于低延迟是否是最佳选择的讨论衣领上的戒指流媒体世界, 这是一个编造出来的问题，用来推销那些似乎没有一个主要服务机构认为是必要的解决方案. 如果你的邻居不会在比赛开始前两分钟为你欢呼，或者在你的智能电视上播放插播，这一点就更重要了.

凯尔礼貌地解释说，婴儿潮一代可能会通过一个屏幕观看一场比赛, 大多数年轻一代都在关注社交媒体. 所以即使你没有和体育迷共用一面墙，但服务速度更快, X上的帖子可以起到类似的剧透作用.

这引发了一场关于赤字的讨论 WebRTC这限制了它们对传统广播的吸引力. 凯尔说凤凰有集成服务器端AD插入并支持自适应比特率 WebRTC-based平台，解决了两个主要缺点. Kyle还提到，凤凰卫视的观众人数多达500人,至少可以服务100万观众，延迟时间低于 .5 seconds.

也就是说，像大多数低延迟平台一样，phoenix主要服务于体育博彩及博彩业, 网络会议平台, 社交媒体应用程序整合了直播内容和有影响力的人，以提高用户参与度. Still, 很高兴看到phoenix——以及类似的服务——正在推进他们的低延迟技术，为更广泛的观众提供服务.

V-Nova PresenZ

我在演出期间的第一站是 Ateme 摊位，在那里我看到了一个示范 MV-HEVCHEVC的扩展，用于编码多视图视频内容，如3D视频. Specifically, MV-HEVC允许多个同步摄像机视图的高效编码, 使用层间预测通过利用视图之间的冗余来改进压缩.

在atme展台上，我看到了MV-HEVC的演示 Apple Vision Pro它令人印象深刻，视频质量非常好. 在耳机里，视频图像在离我几英尺远的地方徘徊. 当我向左和向右转, 视频在180度后被切断, 当我看得太高或太低时，就会到达一个边缘(见左图4).

这是因为MV-HEVC是一种主要为多视点视频内容编码而设计的编码技术, 这通常用于立体3D应用，其中同一场景的不同角度呈现给每只眼睛，以创造一种深度感. 苹果的iPhone 15 Pro和Pro Max可以制作视频 MV-HEVC encoding by 使用两个不同的镜头同时录制两个1080p视频，然后将它们合并到一个文件中.

由于两个不同的源文件，视频似乎有深度, 在Apple Vision Pro上可以实现180度的扩展, 但它并不是完全沉浸式的，因为它没有真正的深度. 这给我们带来了电影观看中所谓的三自由度和六自由度的区别，如图所示 Figure 4. 前者允许我左右移动我的头, and up and down, 这是我在阿特米展位看到的. 我要在V-Nova展台上看到的是 PresenZ format，它提供了6个自由度，让我进入视频.

V-Nova PresenZ

Figure 4. 3个自由度的差别(MV-HEVC)就在左边, 右侧为6个自由度(PresenZ). From here).

Specifically, 在V-Nova的展台上，我戴上了Meta Quest3耳机，发现体验与Ateme演示截然不同. 在我看过的机器人打斗场景中, 当碎片飞向我的头部，战斗人员在我周围翻滚时，我退缩了. 如果我走进房间两步, 我可以看到拐角处，看到以前被墙遮住的东西. 我可以在不超出视频范围的情况下旋转360度，尽可能地上下旋转, 虽然质量有点软, 比如720p视频缩放到1080p. 对于压缩极客来说很明显，但不会分散注意力.

V-Nova's Tristan Salomé 对这些技术进行了详细的说明. 他强调，虽然苹果视觉Pro通过跟踪观众的眼球运动创造了无可挑剔的立体视图, 我在设备上体验到的VR技术不支持改变观看者相对于内容的视角——类似于在标准3D电视上观看. In contrast, 当观众的头朝任何方向移动(向上)时，PresenZ都会做出反应, down, forward, backward, or side to side), 通过更密切地模仿现实生活中的互动，丰富虚拟环境中的沉浸感和存在感.

为PresenZ制作电影包括使用计算机生成图像(CGI)或在主题周围放置多台摄像机捕捉场景. 这些方法有助于创建用户可以在VR设置中与之交互的场景的体积或3D写照. 特里斯坦指出，在创造这些沉浸式体验的过程中，管理大量数据需要大量的计算需求和复杂的编码. 这就是为什么V-Nova acquired PresenZ技术，将其与他们的编解码器LCEVC结合起来.

很难看出像PresenZ这样的技术是如何扩展的，尽管这是所有AR/VR的一个问题. 也不确定是否大多数观众, 谁一直喜欢坐在静态座椅或躺椅上看电影, 会发现更具沉浸感的体验更有吸引力吗. 不过，在我在NAB看到的一切中，PresenZ是最引人注目的.

请注意，有一个即将推出的标准叫做 MPEG-I (对于沉浸式)，它将支持完整的六个自由度. 在那之前, PresenZ可能是最好的选择, and yes, 它与Apple Vision Pro兼容.

十二个实验室:自动深度元数据提取

对许多出版商来说, 元数据是释放存档内容价值的关键, 但是手动创建元数据的成本很高, time-consuming, 最终是不完整的. 但是，如果有一种方法可以自动生成大量的元数据，使您能够使用大量的提示来查找和检索镜头，那会怎么样呢?

That's what Twelve Labs has done. 我和行动主管谈过了， Anthony Giuliani. 他解释说，该公司的技术采用了先进的多模态视频理解模型，可以在不依赖传统元数据(Figure 5).

Twelve Labs

Figure 5. Twelve Labs的人工智能像人类一样理解视频.

Instead, 该系统创建视频嵌入, 类似于大型语言模型中的文本嵌入, 哪些可以促进与视频内容的动态交互. 这项技术允许用户搜索, classify, 并有效地利用视频数据执行其他任务, 补充任何现有的元数据. 不像基于文本的元数据, 该技术利用视频中的各种模式, including sound, speech, OCR, 以及视觉元素, 丰富视频理解过程.

As an example, 朱利安尼让我想象一个场景，主人公必须在红色药丸和蓝色药丸之间做出选择. 如果你看过 The Matrix，你会瞬间闪现到 scene 让基努·里维斯做出选择. 朱利安尼解释说，这表明人类的大脑可以立即回忆起特定的电影时刻，而不需要筛选每一部看过的电影或依赖标记的元数据.

十二实验室的技术通过创建视频嵌入来模仿这种类似人类的回忆, 允许与视频内容进行动态交互. 这使用户能够快速有效地从庞大的视频数据库中提取特定的场景, 类似于人们可能会立即记住并想象出标志性的东西 Matrix scene.

Twelve Labs主要通过API提供这项技术, 使开发人员和企业能够将高级视频理解集成到他们的应用程序中. 定价模式是基于消费的, 按分钟收费的视频索引, 具有在私有云或公共云或本地进行索引的选项. 这种灵活且可扩展的方法允许广泛的用户使用, 从拥有最多10个小时空闲时间的游乐场环境中的个人开发人员到大型企业, 这可能需要大量的, customized usage.

Currently, 该平台为不同的客户提供服务, 包括像NFL这样的大牌, 谁利用这项技术来加强他们的视频内容管理和检索, 特别是对于管理大型档案和后期制作过程. 这项技术的潜在应用是巨大的, 从媒体和娱乐到安全等领域, 这表明我们在如何与视频内容交互和理解视频内容方面取得了重大进展.

Norsk:无代码/低代码媒体工作流

接下来我和 Adrian Roe from id3as/Norsk他们介绍了他们的新产品， Norsk Studio, at NAB. Norsk工作室建立在 2023年5月，Norsk SDK在Streaming Media East发布, 提供允许用户拖动的图形界面, 将预构建的组件拖放并连接到发布工作流中，无需编码.

工作室配备了多个预构建输入, processes, and outputs, 从简单的十行脚本到更复杂的模块, 促进定制的媒体工作流程，可以适应任何项目的特定需求. 客户可以使用Norsk SDK构建新的可重用组件, 各种编程语言支持哪一种. Adrian解释说，大多数客户更喜欢TypeScript，因为它的表现力和熟练开发人员的可用性. Adrian还讨论了Norsk的部署方案, 注意SDK和studio创建的程序都可以在本地或云中运行.

最后，艾德里安告诉我们诺斯克赢得了比赛 IABM BaM award 农产品类别(Figure 6), 它“庆祝那些带来真正商业和创造性利益的杰出技术创新?.”

杜比专业:Hybrik云媒体处理

Dolby Hybrik 云媒体处理设施是否长期以来一直优先考虑将质量控制构建到编码工作流程中. 在NAB，我和 David Trescot, Hybrik co-founder, 谁向我展示了多个与质量管理相关的创新, 其中一些是通过人工智能实现的.

一些最有用的添加与标题有关，这是大多数优质内容的主要内容. For example, 杜比增加了对话增强功能，将对话与背景音乐分开. 然后，对话可以被转录，如果视频没有字幕，Hybrik可以创建它们. Hybrik还可以将转录的字幕与软件包中的实际字幕进行比较，以验证它们是否属于该视频，是否使用正确的语言，并可以验证母版中的所有语言轨迹. 从纯音频混音的角度来看, 一旦对话和背景分开, 你可以将它们重新组合，使对话更加清晰.

Hybrik还为QA功能添加了一个有用的GUI，因此您可以在报告问题的位置直观地检查视频和收听音频(Figure 7). For example, 在时间线的左上角，你可以看到一个值得一看的块度指标的峰值, 以及右上方的黑色检测. For audio, 你可以看到底部中间有一个紧急警报信号，最右边有一个静音检测. Absent the GUI, 你必须下载并在你选择的播放器中播放内容, 这很麻烦. 现在，您可以将播放头直接拖到问题上并评估它.

Figure 7. Hybrik的QA新GUI. 单击该图像以查看其全分辨率.

Interestingly, 玩家背后的技术, 称为百家乐软件不可知群处理(RASP), 是否和玩家本身一样有趣. 原因如下:大多数云基础设施不能播放媒体文件, 尤其是存储在高质量夹层格式(如ProRes)中的文件.

So, 想象一下，如果您在云中有ProRes或类似格式的主控文件，并且必须执行一些QC功能或视觉检查. 您唯一的选择是下载文件或将文件转码为更友好的格式并进行检查, 但你仍然需要一个帧精确的播放器. 如果你对文件进行转码, 您可能需要对整个文件进行转码, 这很贵, 然后你可以存储转码文件, 这会增加你的每月成本，或者删除它，冒着为以后的任务重新创建它的风险.

RASP是一个云媒体操作系统，仅在特定操作需要时，通过将资产转换成小块来简化这些操作. In Figure 7, 在剪辑开始时对块区域进行采样, 操作员会把游戏头拖过来, click Play, RASP会根据需要对所需的视频进行动态转码. 这些操作对用户是透明的, 谁有与本地存储文件类似的体验. RASP是任何涉及存储在云中的媒体的应用程序的自然选择，杜比将以每分钟收费的方式提供RASP.

最后一站:NETINT

我的最后一站是在NETINT展台，向一些以前的同事打招呼. 在那里我看到了公开亮相耳语转录集成到新的NETINT Bitstreams Edge媒体处理应用程序，运行在NETINT Quadra视频服务器安培版上. 该服务器由96核安培Altra CPU和10个NETINT Quadra转码器驱动，售价19美元,000.

展会上有很多产品和服务通过Whisper提供说明文字. 这台服务器的独特之处在于能够支持多达30个同时转码的实时通道，每个通道都有5个HLS或DASH打包配置文件，编码为H.264、HEVC和AV1.

NETINT自2019年以来一直在销售基于asic的转码器, 但Bitstreams Edge是第一款本土服务器软件. NETINT and Ampere 提出解决方案在展会的流媒体峰会上，该视频将于4月底发布. 说明文字显示在 Figure 8 是在演示期间使用新解决方案实时创建的吗.

不要小声说字幕
Figure 8. NETINT演示字幕与Bitstreams Edge/Whisper集成