2024年7月29日
By 1月时特约编辑
专题文章

人工智能与流媒体

让我们面对现实:直到ChatGPT上线, 完全形成的、即时可用的机器学习和人工智能是我们几乎嘲笑的流行语, 仿佛他们的包容就在规格表更多的是出于营销目的，而不是指定任何新的或增强的功能. 当然对某些产品和服务来说是正确的, 真正有用的与流相关的AI/ML功能的种子在2016年甚至更早的时候就被种下了，现在正在整个行业结出壮观的果实流媒体编码，传送，播放，和货币化的生态系统.

本文探讨了这些生态系统中人工智能的现状. 通过理解在评估人工智能解决方案时考虑关键问题, 流媒体专业人士可以做出明智的决定，将人工智能纳入他们的视频处理管道，并为未来做好准备人工智能视频技术的未来.

作为警告, the companies 和 products mentioned here are those that came to my attention during my research; the list is certainly not exhaustive by any means. 我们生态系统中的人工智能是我将关注的一个话题, 所以如果你有产品或服务，你觉得我应该讨论一下, 通过janozer [at] gmail联系我.Com发起一段对话.

让我们从视频预处理开始.

预处理和视频增强

人工智能预处理工具在提高视频质量和降低带宽要求方面取得了重大进展. 这一领域的两家著名公司是Digital Harmonic和VisualOn.

数字谐波的关键帧 (见图1)是一种预处理器，可以提高质量并减少带宽. 该产品在AI集成之前就存在了, 但人工智能在这两种模式下的表现都有所提高. 关键帧声称实现高达80%的比特率降低，没有损失的质量, 用峰值信噪比和平均意见评分(MOS)测量. 它还可以提高视频质量，超越原始来源, 尽管这引发了关于保留创造性意图的问题.

数字谐波关键帧

图1. Digital Harmonic的关键帧预处理器大胆宣称可以节省比特率

关键帧就像一个基于gpu的系统, 位于视频链的编码器之前. 它是编解码器无关的，使其适用于各种编码设置. 然而, 在与高性能编码系统配对时，需要考虑其吞吐量能力.

VisualOn的优化器采用一种不同的方法，通过API直接与编码器集成. 它可以逐帧调整比特率和其他参数，以适应内容的复杂性. VisualOn声称高达70% 没有质量损失的比特率降低，由视频多方法评估融合. 有趣的是, 尽管降低了比特率, VisualOn认为其解决方案可以通过减少编码器的工作负载来提高可伸缩性和吞吐量.

这两种解决方案都展示了在预处理中使用人工智能的潜力，可以显著提高压缩效率和视频质量. 然而, 用户应该仔细考虑创造性意图的含义，并进行彻底的测试，以验证其特定用例中的声明.

视频编码中的AI

有几家公司正在使用人工智能来提高现有编解码器的压缩效率, 哪些可以立即部署到现有玩家身上. 另一类产品, 讨论了下, 正在使用人工智能来创建新的编解码器，这些编解码器需要他们自己的一套兼容设备来播放.

谐波的 EyeQ是第一个用例的典型例子. EyeQ, 在人工智能实施之前就存在了吗, 由于其AI组件，现在拥有更高的压缩效率. Harmonic声称其效率比开源替代品高出50%, 尽管该公司没有具体说明其比较的是哪种编解码器或指标. 最令人信服的证据 EyeQ的有效性在于它被100多个客户采用. EyeQ既可以作为设备，也可以作为云服务.

Visionular，另一家编解码器公司，提供人工智能增强的H.264, HEVC和AV1编解码器(参见图2). 它的人工智能集成旨在提高压缩效率, 声称与相同编解码器的开源实现相比，比特率降低了50%. Visionular的总裁佐伊·刘(Zoe Liu)一直在研究人工智能应用至少从2021年开始进行视频压缩, 强调了公司对这项技术的长期承诺.

visionular

图2. Visionular 提高了 H.264, HEVC，和 AV1 与人工智能.

媒体Excel的动态智能视频自适应技术使用人工智能实时分析和优化编码设置, 在各种编解码器之间实现卓越的视频质量和压缩效率. 通过成千上万小时的HEVC内容培训, DIVA的效率至少提高了20%, 正在努力为H.264和VVC.

编解码器的市场采取不同的方法, 提供包含编码器的集成云平台, 球员, 内容管理系统, 和CDN. 它的人工智能实现在编码过程中使用了VMAF的高级开源版本. 这允许实时内容自适应编码, 目标是围绕用户可选择的VMAF分数的一致质量水平. 编解码器的市场声称比开源替代品效率高30%.

这些公司正在应用人工智能来提高编码的压缩效率. 与此形成鲜明对比的是, Facebook正在使用人工智能来确定如何优先考虑任何特定上传文件的编码质量. 具体地说, Facebook使用机器学习模型来预测观看时间并优化编码策略. 然后，这些模型根据预期观看时间对视频进行优先排序, 选择最佳的编码设置，以最大限度地提高效率和质量. 例如，Facebook使用点赞指标 MVHQ (每GB高质量视频的分钟数)来比较不同编码族(H.264、VP9等.).

除了这些进步，我们还看到了生成式人工智能在编码器操作中的应用. 例如, Telestream的Vantage工作流设计器允许用户使用纯英语命令创建编码工作流. 虽然还处于早期阶段，这种技术暗示着未来的创造转码工作流可能不需要深入的压缩专业知识, 只是一个令人信服的提示，详细说明编码源和交付目标.

我知道像Brightcove这样的公司和许多其他公司已经在AI/ML编码方面取得了长足的进步，并期待着试验他们的技术.

基于ai的编解码器

之前的AI实现是为了增强与当前玩家兼容的现有编解码器. 与此形成鲜明对比的是, 基于人工智能的编解码器利用人工智能来创建全新的编解码器，这需要专门的玩家.

这项技术的一个前沿业务是深刻的呈现该公司声称是世界上唯一一家专注于基于人工智能的编解码器的公司图3). 它正在从零开始开发基于人工智能的编解码器, 大胆宣称它的效率将比VVC高出45%, 预计将于2025年上映. 在回放, 深度渲染将利用快速增长的神经处理单元安装基础, 或转专业. 这些是通用的基于ml的处理设备，开始出现在 2017年的苹果iphone 并包含在所有后续产品与较新的芯片组.

深刻的呈现

图3. 深刻的呈现 正在开发 一个完整的 基于ai 编解码器.

大多数现有的编解码器需要特定于编解码器的芯片或特定于编解码器的GPU或CPU门, 这自然会延缓技术的采用. 例如, 在它最终确定的4年后, VVC硬件播放在手机上仍然不可用，只能在少数智能电视和OTT加密狗上找到. 通过利用通用机器学习硬件，这些硬件在第一个编解码器发布前8年就开始发货了, 深刻的呈现希望加速该技术的普及该技术在移动电话和其他早期采用NPU技术的用户中处于第一阶段.

虽然这是一种基于静止图像的技术， JPEG AI使用ML 提供卓越的压缩效率和紧凑的格式，为人类可视化和计算机视觉任务优化. JPEG AI旨在支持广泛的应用程序, 包括云存储和自动驾驶汽车. 它不向后兼容现有的JPEG标准, 尽管它也可以利用npu来加速播放性能.

一家帮助加速基于人工智能的编解码器设计的公司是InterDigital CompressAI工具包. CompressAI是一个开源的PyTorch库和评估平台，用于端到端压缩研究. 它为编解码器开发人员提供了创建全新的基于AI的编解码器或将AI组件添加到现有编解码器的工具. CompressAI包括预先训练的模型，并允许使用最先进的方法进行苹果对苹果的比较, 包括传统视频压缩标准和学习方法. 同样，Facebook也发展起来了 NeuralCompression, 一个专注于基于神经网络的数据压缩的开源存储库, 提供图像和视频压缩的工具. 这个项目包括熵编码的模型, 图像扭曲, 以及率失真评估, 促进了高效数据压缩方法的进步. 的移动图像、音频和数据的人工智能编码(MPAI) 组织是

也在研究人工智能增强的视频编码. 其MPAI-EVC项目旨在通过改进或用基于人工智能的工具取代传统视频编解码器，从而大幅提高传统视频编解码器的性能, 目标是至少提高25%的性能. 自HEVC以来，人们很难对新的视频编解码器感到兴奋. 2020年推出的三种MPEG编解码器都没有在大规模部署方面取得重大进展, 尽管LCEVC似乎总是处于大规模推出的边缘. 这种延迟与多种因素有关, 包括部署硬件解码器需要多长时间，以及主要关注人类的视频播放.

基于人工智能的编解码器可以通过使用npu而不是专用芯片来打破这种僵局. 此外, 随着视频越来越多地用于自动驾驶汽车的机器播放, 自动化工厂, 安全, 交通, 还有很多其他的应用, 基于人工智能的编解码器可以为这些用例手工制作. 这两个因素都可能使AI编解码器比传统编解码器更快地变得相关.

超分辨率和升级

随着人工智能的出现，超分辨率和升级技术获得了牵引力, 特别是对于增强遗留内容. 这些技术对于拥有大量老电影或电视节目库的媒体公司来说很有价值，这些公司需要升级到现代1080p或4K显示器.

提供此功能的一家公司是 Bitmovin, 至少从2020年就开始研究人工智能超分辨率了, 在其方法中结合专有和开源AI实现. Bitmovin的人工智能驱动的超分辨率与FFmpeg中标准的双三次缩放方法之间的视觉比较显示出清晰度和整体图像质量的差异. 这种类型的增强可以潜在地改善观看者的体验, 特别是对于原本不是高清制作的内容. 其他致力于人工智能升级的公司包括Topaz Labs 人工智能视频增强器和NVIDIA及其 dls (深度学习超级采样)技术.

人工智能自适应比特率流优化

有几种技术使用人工智能来控制钻头在自适应比特率(上)回放期间进行速率切换，以增强观看者的体验. 亚马逊有两种值得注意的方法 SODA(平滑优化动态自适应)控制器和 Bitmovin的愿望上. 两者的目标都是通过基于实时网络条件动态选择下载哪些预编码视频片段来优化视频流, 但它们采用不同的方法，并提供独特的好处. Most importantly, WISH is available for third-party use; so far, SODA isn’t. 正如亚马逊白皮书所描述的那样, SODA利用基于平滑在线凸优化(SOCO)的算法为改进QoE提供了理论保证. 根据论文, SODA在亚马逊Prime视频中的部署已经显示出显著的改进, 减少比特率切换高达88.8%和不断增加的平均流视图荷兰国际集团(ing)持续时间.

WISH旨在通过优化下载视频片段的选择，提供更流畅的观看体验. 它侧重于加权决策来平衡视频质量, 缓冲, 比特率无缝切换.

人工智能在质量评估中的应用

早在2016年，机器学习就以VMAF指标首次出现在质量测量中. 网飞公司稳步推进VMAF 从那时起, 增加了4K和手机型号, 一种非增强增益(NEG)模式来对抗VMAF攻击, 对比度感知多尺度带化指数(CAMBI). 我希望看到的一个升级，迟早会是一个支持hdr的开源版本.

IMAX的ViewerScore是另一个人工智能增强的质量衡量标准，它被产品化以扩展功能. 这项技术，是由 IMAX收购SSIMWAVE有两种产品:StreamAware和StreamSmart. StreamAware 提供实时质量监控和报告，同时 StreamSmart 动态调整编码器设置，以优化带宽使用. 人工智能的整合将ViewerScore与人类感知之间的相关性从90%提高到94%, 考虑到视频质量评估的主观性，这是非常高的. IMAX声称StreamSmart可以在保持感知质量的同时将比特率降低15%或更多. ViewerScore使用0 -100的刻度, 类似于VMAF, 还提供了HDR支持等附加功能, 特定于设备的评估, 以及比较文件的能力不同的帧率.

字幕和辅助功能

人工智能正在彻底改变视频流中的字幕和可访问性, 开放源码和专有解决方案都取得了重大进展. 一个值得注意的例子是Interra系统的接力棒标题，它结合了开源和本土的人工智能技术，以增强字幕能力(参见图4).

无花果保证4. 警棍说明 自然语言处理，提供更好的字幕.

接力棒标题利用自然语言处理(NLP)来提高标题的可读性和理解力. 人工智能将字幕分解成更自然的片段，使观众更容易理解. 这种微妙但有影响力的改进表明，人工智能可以提高视频内容的可访问性，而不仅仅是转录.

此外, 许多公司都在利用Whisper, OpenAI的开源语音-文本技术, 为他们的产品或服务添加说明文字. 例如, NETINT 和 nanocosmos 提供耳语为基础的转录与额外的功能量身定制的平台. 这些举措使所有直播者能够为他们的作品配上标题, 曾经，除了最引人注目的制作，对所有人来说都太昂贵了.

内容分析和用户体验

人工智能正在显著提高视频流媒体的内容分析和用户体验, 使更多的个性化和引人入胜的观众互动. 这个领域的一家公司是媒体酒厂，它使用人工智能来改进内容分割和主题检测. 媒体酒厂的技术可以自动将长篇内容分割成有意义的章节, 使观众更容易浏览和找到他们感兴趣的部分. 例如, 在体育直播中, 人工智能可以识别和标记不同的路段，比如骑自行车, 曲棍球, 或者是大奖赛, 允许观众快速跳转到他们喜欢的部分. 这通过提供更多的控制和定制来改善整体观看体验. IdeaNova的人工智能场景检测自动识别视频内容中的不同场景，实现更高效的导航. 这让用户可以选择特定的场景，而不是依赖于基于时间的导航, 在内容过滤和场景转换改进.

人工智能也被广泛用于内容推荐. 通过分析观看模式和偏好, 人工智能可以向用户推荐相关内容, 提高用户粘性和留存率. 这样的公司网飞公司和亚马逊Prime视频一直在利用人工智能sonalized建议，极大地提高了用户满意度，并将观众牢牢地粘在各自的平台上.

分析

大多数传统的分析软件包都偏重于数据，而缺乏可操作的见解. 流媒体服务正在通过将AI添加到他们的分析包中来解决这个问题. 一个例子是 Bitmovin分析, 哪个提供会话跟踪和分析工具来帮助识别和解决诸如比特率问题之类的问题, 缓冲, 质量下降. 该系统基于机器学习提供可操作的建议, 为所呈现的数据提供上下文.

程序化广告和广告技术中的人工智能

程序化的广告, 它使用人工智能和机器学习来实时自动化广告库存的买卖, 已经成为数字广告的基石. 人工智能在程序化广告的各个方面都发挥着至关重要的作用, 提高效率, 针对, 和性能.

一个关键领域是实时竞价(RTB)。, 人工智能算法分析大量数据，在瞬间做出广告投放的决定. 这样的公司交易台和 MediaMath 使用机器学习优化投标策略, 考虑用户行为等因素, 上下文, 历史表现.

人工智能还增强了程序化广告的创意优化. 平台 Celtra 和 Flashtalking (见图5)使用机器学习根据用户数据和性能指标动态调整广告创意, 提高用户粘性和转化率.

flashtalking

Figure 5. Flashtalking 使动态 ad 创建 定制的 根据 to 您的用户数据.

此外, Moloco的人工智能平台帮助小型流媒体公司利用机器学习优化广告投放，以确保广告的多样性和准确性, 提高观众参与度和留存率. 通过整合第一方数据, Moloco根据个人喜好定制广告, 在印度板球超级联赛期间，它与jiocincinema的合作就证明了这一点, 当它在不同语言和地区管理数千个广告活动时, 显著提高广告相关性，最大化广告收益.

人类在哪里参与，公司喜欢吗手术是否利用人工智能来简化工作流程和加强决策. 人工智能助手, 艾德琳, 演示了生成式人工智能如何自动生成提案并加速销售任务. 例如, 销售代表可以通过语音留言向艾德琳提出要求, 指定详细信息，如广告客户, 预算, 目标CPM, 以及竞选日期. 然后，AI生成一个完整的建议，包括适当的库存选择和定价.

结论

我们已经看到人工智能如何改变行业的各个方面, 比如编码, 质量评估, 广告技术, 和货币化. 流媒体 就如何评估人工智能对各种技术的贡献提供了一些建议. 在此基础上，我想补充一些由 Rajan Narayanan，首席执行官媒体Excel. 在最近的一次谈话中, 他讨论了媒体Excel在将人工智能添加到产品之前考虑的五点. 三个是可操作的:评估计算开销的成本, 对总拥有成本的影响, 以及对延迟的影响.

最后两点具有战略意义，可以为您是否决定添加内容提供很好的指导可以从根本上改变内容外观的功能.

最后一点是系统级操作风险, 纳拉亚南是这样描述的:“任何时候你考虑在系统层面实施人工智能，并在系统层面管理不同的组件, 你应该问, 这个系统是完全可预测的吗? 是否会有可能造成灾难性后果的失败案例?’”

这是一个提醒, 人类当然不是绝对正确的, 只要你想用一个很大程度上自治的系统来取代它们, 您最好确保供应商已经考虑过最关键和潜在故障点的含义. 这将是管理者在未来几年越来越频繁地考虑的问题.

否则, 正如我在本文开头所强调的, 评估整个产品或服务是至关重要的, 不仅仅是它的人工智能组件, 以确保它满足您所需的ROI或提供可衡量的收益. 随着人工智能不断发展并更深入地融入视频处理工作流程, 牢记这些因素将有助于你做出明智的决定，并有效地利用人工智能的潜力.