云网融合趋势下，视觉云如何颠覆媒体体验？

XZ鲜枣课堂

最新更新时间：2021-09-06 21:31

阅读数：

21世纪是视频媒体的时代。和视频相关的应用，逐渐成为我们工作和生活不可或缺的组成部分。

除了传统视频业务之外，最近几年，随着新兴技术的不断出现，越来越多的新型视觉体验服务来到我们的身边，例如4K/8K超高清视频、VR/AR沉浸式体验、AI人脸识别、AI自动换脸等等。

毫无疑问，我们的视觉体验，正在朝平台多样化、内容丰富化、交互智能化、沉浸式互动的方向发展。

更丰富多样的业务，意味着对系统及网络性能有更苛刻的要求。视频相关的核心处理流程，例如解码、推理、渲染和编码，都是“吃配置”的大户。如果视频处理平台缺乏灵活性、扩展性，不具备支撑高工作负荷的能力，将无法进行高效的视觉业务服务交付。

简单来说，性能不够，就会影响用户的业务体验，进而影响企业业务的进一步拓展。

于是，越来越多的企业，将自己的用户视觉体验业务迁移到云端，借助云平台，为业务提供充足动力和安全保障。视觉云，也就随之诞生了。

视觉云，包含一套面向远程消费内容和服务的功能，这些功能围绕高效提供直播型和文件型视觉体验，以及可将智能添加到视频内容中和利用机器学习及其它人工智能方面（例如物体识别）的应用。

我们常见的视觉云业务，包括媒体处理与交付、媒体分析、沉浸式媒体、云图形、云游戏、云VR/AR等。

那么，在目前云网深度融合的趋势下，视觉体验服务商该如何构建最适合自己的平台架构？面对媒体转型带来的巨大流量增长，服务商又该如何应对压力和挑战？如何进一步提升平台架构的效能，降低无效成本？

2020年10月12-16日，英特尔在线上举办的“5G云网融合线上论坛”。其中的“视觉云，变革媒体体验”分论坛，来自行业的4位顶级专家，分享了各自企业在上述问题方面的心得体会和实践经验。

Part 1

英特尔网络平台事业部市场开拓总监李进文表示，视觉云业务各自有不同的特性，开发部门各自有不同的考虑点，所以，没有一刀切的解决方案。

李进文首先对视觉云各个典型服务的发展趋势进行了预测。

他认为，视觉云中最关键的应用媒体分析，将达到130亿美金的市场。超高清IP视频流将在2025年达到接近整体IP视频流的21%，这意味着4K、8K超高清内容将会成为趋势。增长幅度最快的是直播业务，拥有15倍的爆发性增长表现。近些年崛起的VR/AR业务也将创造950亿美金的市场，这同样是超高清IP视频流持续增长的原因之一。

面对机遇和挑战，拥有一个强大的平台刻不容缓。采用基于数据中心的基础设施架构来传输存储和处理，是必然的选择。

这类型的计算体系结构使大规模的视频交互变得更容易，且具有明显的成本优势，可以应对视觉云不断变化的需求。

提供视觉云服务需要广泛的软硬件架构，针对不同的应用快速提供创新服务，还需要一个广泛的生态系统提供完善的端到端解决方案。这些都是英特尔的强项，英特尔拥有广泛的软硬件平台和生态系统加速视觉云服务商的开发和创新。

李进文所在的视觉基础设施部门，可以提供完整的软硬件解决方案。在最底层，英特尔提供了广泛硬件，比如通用的英特尔®至强®可扩展处理器， Intel® Server GPU、FPGA、网卡等。软件方面，英特尔的策略是优先软件，目的在于提供完整的解决方案来加速客户的开发周期。

两个月前，英特尔发布了用于数据中心的独立图形处理单元，Intel® Server GPU，它最适合用于高密度的手游、云游和媒体传流，支持广泛的编解码功能，可以提供低成本高性价比的解决方案，同时也降低了安卓云游戏行业的入门门槛，从而使更多的游戏企业趁着5G的浪潮迈入云游戏行业。

李进文表示，广泛的视觉体验正在云端和边缘爆发性增长，企业和服务提供商需要更具有可伸缩性的基础架构，以及一系列软硬件和开源工具。基于英特尔的解决方案，是平衡的产品组合，提供更佳的体验和TCO。

Part 2

来自北京华兴宏视技术发展有限公司的技术总监武宇文，重点分享了华兴宏视基于英特尔硬件架构的视频AI分析系统——PONTUS。

该系统将视频编码技术和视频AI分析技术相结合，能够实现多路高清视频的实时智能分析，对视频内容中出现的异常事件进行实时的分析报警以及场景的保存。

系统的AI能力是通过调用英特尔openVINO^TM软件平台来实现的。底层硬件采用英特尔的Scalable高性能处理器以及VCAC-A高性能视频AI卡。软件能力能够提供视频图片的编解码与AI Inference同步进行，每秒提供5~10帧的视频AI实时分析，能够确保视频中不遗失关键信息。同时平台还支持视频流以及离线文件的接入实时分析。

在应用案例方面，武宇文重点介绍了铁塔高点视频监控（垃圾检测、渣土车检测）、实时视频车牌自动识别和视频智能分析。

以铁塔高点视频监控为例。基于铁塔顶端的高清摄像设备，可以部署高点监控系统，实现“危险场景的视频实时鉴别”，实现本地分析，实时响应。采用边缘处理的方式，不仅可以提升响应速度，还可以大幅节省带宽。

通过对问题内容的实时抓取，系统可以实现实时的报警功能，快速控制危险情况。例如非法排放、森林防火、秸秆焚烧、河道检测、管道检测、海防监控等。

非法作业车辆监测

这一方案将非常有利于生态环境综合治理及国土资源安全保护。

Part 3

前面我们提到，超高清VR直播目前正处于业务快速增长的状态。越来越多的VR应用场景出现，大量超高清VR内容的生产，进一步刺激VR产业的发展。

不过，超高清VR直播目前也存在一些问题。例如运营商网络流量费用高，终端下行带宽有限，限制了终端设备能够接收到的VR视频的码率，进而影响用户体验。再例如，终端设备的硬件解码能力有限，不同设备之间的解码能力参差不齐，即便是将高质量的码流传输到了终端，也不一定能够实现完美的解码和渲染，等等。

对于这些问题，来自北京博雅睿视科技有限公司的研发经理魏建超表示，需要从VR直播的各个环节考虑，紧密配合，提供端到端的解决方案，才能真正提高用户的体验。这些环节包括：VR视频的采集、拼接，到后期的制作，网络传输，以及终端的解码渲染等。

博雅睿视的端到端解决方案，输入部分支持视频文件用于VR点播的需求，支持广电接口SDI，支持VR相机接入，配备拼接服务器用于实时拼接，预览和后处理。这样的话，可以支持更多的应用场景，并从源端保证视频的质量。

另外，VR视频的映射格式方面，方案采用CubeMap立方体映射格式，取代传统的ERP经纬图映射格式，从源端节省VR视频的数据量。

转码服务器基于英特尔的SVT技术，利用SVT-HEVC高并行化编码器，进行独立的编码，为基于FoV的VR视频传输提供了支持。

分发服务器，可以最大限度的利用现存网络的基础设施，实现用户基于FoV的内容拉流，大大降低下行的流量。终端用户根据视角拉取对应的segments，下行带宽和解码压力都大大降低。

总结起来，高效的视频映射格式加上基于视角的传输，就得到了带宽的节省和用户体验的提升。

Part 4

最后，来自腾讯多媒体实验室的高级工程师许桂森重点介绍了腾讯云的SVT-AVS3编码器。

AVS3是AVS工作组制定的我国拥有自主知识产权的第三代音视频编解码技术标准，也是中国音视频产业核心技术标准。该标准重点面向8K及5G产业应用，技术先进，专利清晰，受到行业的广泛关注。

根据参考软件的测试表明，AVS3视频基准档次的性能比上一代标准AVS2和HEVC提升了约30%。通过加入AI技术，主打智能编码，AVS3的编码效率将比国际最新的视频编码标准H.266/VVC提升20%。该标准的全面普及，将引领未来5年到10年8K超高清和VR视频产业的发展，进而领跑国际市场。

SVT-AVS3超高清视频实时软件编解码系统，基于AVS3视频编码标准和英特尔SVT（可扩展视频技术）实现，能够提供性能、延迟和视频质量之间的完美平衡。

腾讯SVT-AVS3的编码框架，是基于英特尔SVT编码框架经过发展优化而来的。框架主要分为几大块，第一部分是图像预处理相关的模块，第二部分是用原始像素进行Motion Estimation的模块，第三部分是码率控制相关的模块，第四部分是MD和重建模块，第五部分是环路滤波模块。

SVT-AVS3的编码框架

SVT-AVS3编码器支持视频预分析处理，通过对编码流程各个模块的充分解耦，在多核处理器中可以实现更好的帧级或段级的高度并行编码。在并行化处理的基础上，SVT-AVS3通过对编码算法的参数化处理，实现了编码过程中速度与质量权衡过程中的无缝切换。在更高效利用处理器与内存资源的同时，更好地实现了速度与质量的权衡。

在编码时，SVT-AVS3还支持对图像块级的分类分析。在使用低复杂度编码逻辑时，通过引入极少量视觉效果，在大幅提升编码速度的同时，可以保证图像主观上的视觉质量。这一点恰好能够满足现在短视频快速增长对编码速度及用户体验的要求。

许桂森表示，SVT-AVS3目前已经适用于视频点播和实时编码/转码应用。腾讯多媒体实验室深度优化SVT架构的 AVS3 编码器，大幅提升 SVT-AVS3 的编码效率，现已集成到腾讯云，将其它标准码流转换成AVS3码流，为相关服务提供支撑。

结语

根据数据显示，2022年，预计全球82%的网络流量将是视频流。毫无疑问，这背后蕴藏着巨大的市场价值和商业机会。

英特尔推出的多种支持视觉云的解决方案，包括全套可扩展硬件、软件以及经优化的软硬件组成的精选解决方案，能够帮助云服务提供商、通信服务商及企业满足不断变化的需求。

推荐帖子

XZ鲜枣课堂

最新精华更多

云网融合趋势下，视觉云如何颠覆媒体体验？

最新有关XZ鲜枣课堂的文章