下一代视频编码标准：VVC、AVS3

最编程 2024-04-15 21:49:11

...

文 / 马思伟

整理 / LiveVideoStack

大家好，我是来自北京大学的马思伟。本次我将从以下四个方面为大家分享有关最新一代VVC与AVS3视频编码标准的进展及关键技术特色等内容，希望可以为大家带来有价值的帮助。

网络异常，图片无法展示

1. 视频编码标准发展历程

网络异常，图片无法展示

上图展示了视频编码国际标准的发展历程，我们可以看到目前主要是以VVC、AV1与AVS3为主流发展趋势。

1.1 视频编码标准的定义

网络异常，图片无法展示

我们可以看到上图展示的视频编码流程，视频数据输入至编码系统首先会进行预处理工作，预处理后进行编码。编码完成后的数据会传输至解码模块并在完成解码之后进行预处理，最后输出目标视频。这里需要注意的是我们对视频编码标准的定义是对其中解码部分的定义，也就是定义码流的语法语义和解析解码过程。我们需要在制定标准的过程中通过技术筛选择优选择技术加入标准中从而避免解码过程的冗杂与低效，降低解码过程的复杂程度。也就是说可以在编码流程等其他环节完成的工作就不应当被加入解码流程中，如滤波等作为后处理可提高主客观性能水平。标准制定是一个技术协调统一优化的过程，无论是国际标准的制定还是我们以学术为目的的讨论都会引入一种技术竞争机制，选择最好的技术放入标准之中。

1.2 高效压缩标准的意义

网络异常，图片无法展示

那么现在我们需要更加高效地压缩标准吗？答案是毋庸置疑的。按照提升规律，编码效率每提升50%以上就会成为新一代标准，如早前的H.261、HAV1等其性能基本持平所以我们将其称为第一代，而像AVS和H.264等比前一代提升50%就可称其为第二代，至于AVS2、H.265等相对于第二代的提升达到50%我们就将其称为第三代。现在我们正在探索的AV3/VVC/H.266则为最新一代的压缩标准。我们需要更高效压缩标准原因可以通过Jevons悖论来解释：业界对节约煤炭研究不会降低煤炭需求，反而会因为提升了煤炭使用效率而加大对煤炭的需求。我们将这个理论过渡到压缩标准上来说，虽然我们尝试通过更好的压缩标准提高压缩效率降低带宽压力，实际上压缩效率的提高会进一步刺激视频用的需求不断增长，整体来看就是更高效的压缩标准推动了视频行业的持续发展。

1.3 多位度视频发展方向

网络异常，图片无法展示

我相信在未来4K/8K超高清、全景视频等先进视频应用会得到进一步发展。随着视频应用的不断演进，更高效的视频编码解决方案也会不断被提出。图中展示的全景视频、3D面部捕捉等都会帮助我们进一步提升视频应用的用户体验。我相信视频行业会得到长足发展，现在的标准在未来也会被更佳先进的标准所取代。

2. VVC国际标准进展情况

网络异常，图片无法展示

大家现在听到VVC、266新一代国际标准这些名词等都已不再新鲜，实际上对于新一代标准的讨论已多达12次会议，其中有包括快手在内的许多中国公司参与VVC标准的制定。追溯中国参与确立国际视频编码标准，最早可以追溯至1996年MPEG中国代表团参与MPEG标准的制定工作。虽然在1996年之前中国对国际标准制定的影响力有限，但在1996年之后有许多中国高校参与其中，有力促进了我国相关行业的发展。看到这么多中国企业参与其中我倍感荣幸，虽然我们在探索AVS，但同时我们也鼓励广大同仁参与国际标准的制订工作。

2.1 VTM关键技术

网络异常，图片无法展示

上图展示了VTM的诸多关键技术，其中蓝色与红色高亮的技术所带来的性能提升非常显著。当然我们对关键技术的考量离不开后端配套设施的跟进，我们在科学制定标准是一定需要在复杂度与性能间实现良好平衡，依靠技术的力量控制二者使其达到理想情况。我们使用的VTM2.0软件并将其性能提升用Random access量化，可以看到BDR-Y的性能提升为23%。将其结合图中左侧表格中的工具所带来的性能提升十分可观。这里需要注意的是，虽然表格中未高亮部分的工具所带来的性能提升在1%以下，但由于这些技术的编解码复杂度波动比较小，可显著降低复杂度，后期选择合适技术时我们也能考虑这些在复杂度上表现较好的工具。

2.2 新特色：从信号处理到深度学习

网络异常，图片无法展示

大家知道最近深度学习成为行业热门，人工智能开始为各行各业带来显著优化，深度学习同样也可以被用于优化视频编码。传统的视频编码主要基于信号处理实现预测、变换等，而现在我们更多采用统计分析、深度学习、神经网络等技术使视频编码登上一个全新的阶段。神经网络可以在编码领域大秀拳脚，同样标准制定也受其影响。大家可以从右侧的表单中看到现在许多企业与高校在参与标准制定过程中将神经网络纳入考量范围。

1）神经网络与预测编码

网络异常，图片无法展示

我们可以借助神经网络实现帧率预测、划分等重要工作，神经网络用与预测编码主要需要包括输出层在内的四层网络传统方法主要借助滤波器基于信号处理实现优化；而神经网络则是将节点数、相邻像素数等指标输入神经网络从而重构原始信号使其称为符合编码要求的信号，通过反复的训练寻求最优指标并确定为参数，在此之后这个训练完成的网络就可被用于帧率预测。除了帧率预测，神经网络也可以实现滤波等功能，但由于这一部分的研究仍需要进一步完善，后续还需配套硬件的跟进才能实现理想效果。从标准制定的角度来看，我们需要跟多的时间优化完善神经网络才能使其符合写入标准的严格要求。

2）神经网络与划分模式决策

网络异常，图片无法展示

谈到使用神经网络实现划分，我们需要明确不同划分模式需要哪些技术调整。这里我们的目标是基于四叉树与六叉树实现64x64的划分。具体步骤为首先提取整体划分深度特征来预测划分程度，也就是判断采用128×128进行预测还是64×64进行预测。如果选择128x128作为预测那么其深层次的预测准确度会大打折扣，而32x32的预测与128x128之间相差太远同样造成预测不准确，因此我们选择基于64×64进行深度划分预测，我们希望这种选择可以有效降低网络预测有偏差时对性能的影响。第二张图右侧列表展示的相关性能指标提升。

3. AVS标准回顾及应用情况

网络异常，图片无法展示

AVS标准的确立最早可以追溯至2002年的DVD专利事件，正是因为此事件推动了AVS标准的产生。经过几十年的发展AVS对推动技术创新、规范专利政策、推动行业生态建设做出了卓越贡献。从开始的盗版横行到现在的各种专利联盟日趋规范音视频产业年产值达到数万亿，人们对技术与产业价值的追求是全行业永恒的话题。无论是AVS标准还是国际标准，其目的都是推动技术创新的积聚与经济价值的最大化。

网络异常，图片无法展示

AVS的管理模式在其被提出时就有相关规范，主要由技术研发、包括专利池与专利授权在内的知识产权管理、产业联盟三部分组成。这种模式在十几年前具有非凡的创新意义，即使在今天看来也是十分先进的理念。现在AVS上百位工作组会员与产业联盟成员为整个标准提供有力支撑，帮助其持续优化发展。

上图展示的AVS在过去十六年经历的发展过程，从2002年AVS确立到2003年第一代标准AVS1基本完成，再到随后中国高清电视广播使用AVS标准，2012年启动AVS2标准的制定，2015年完成AVS2标准的制订，2016年AVS被批准为国家标准并成为广电行业标准，最近的2018年3月份AVS3正式启动。

从AVS的标准历程中我们可以看到，可以说在过去十六年AVS的发展取得了很好的成绩。

落实在应用上，*电视台已在2018年10月启动了基于AVS2标准的4K超高清频道的播出。并且全国各地相继有地方电视台开通4K电视频道，进一步加快了技术转化为市场效益。

如果我们对比AVS2与HEVC便不难发现，无论是在主观质量还是用户体验上AVS2都略胜一些。

在编码其优化方面，上图展示的实验结果来自于我的学生优化的AVS2编码器，商用AVS编码器的性能还要高于上述结果。右上图我们可以看到AVS2的各项性能指标与其他标准下的编码性能对比可以说是不相上下， AVS2与x265相同性能条件下AVS2编码速度快一倍。

AVS标准在软硬件复杂度上的性能指标较为优秀，这也使其受到全行业的大力推广。上图展示的AVS2 4K广播应用的发展历程，可以看到全行业都对AVS2抱有强烈的兴趣并积极参与推广建设，这极大提高了AVS2的普及速度与应用范围。

4. AVS新一代标准关键技术

4.1 概述

2017年12月份我们启动了新一代标准AVS3的确立工作，2018年3月份开始第一次提案征集。预计在未来的2019年3月份发布第一版AVS3，其主要在编解码复杂度控制上做出显著优化并预计带来30% 的性能提升；2021年发布第二版，达到相对于第一版50%的效率提升并实现其在8K、VR、流媒体视频等领域的应用；最终我们希望实现的是在第二版基础上高达一倍的性能提升。从技术角度来看，我们的思路主要分为传统与智能两部分，传统部分仍然为块划分、运动预测、变换、滤波等传统策略，而在智能部分我们会划时代地使用基于神经网络的工具实现滤波、率失真优化等功能。

上图展示的是过去一段时间AVS3的会议进展与关键技术情况，到目前为止我们实现了相对于AVS2 10%的性能提升。

4.2 最新进展

现在AVS3标准的框架主要基于传统部分建立，其中有包含扩展四叉树、二叉树划分在内的块划分，包含仿射运动预测、自适应运动矢量精度、基于历史信息的运动矢量预测与大跨度预测编码在内的预测，包括基于位置的帧间残差与帧内预测多核在内的变换还有基于神经网络的滤波。

1）预测划分

我们现在所有的标准都是基于块划分实现的，随着标准的不断迭代，划分的效率也不断提升。其本质在于通过更高效的划分降低预测误差。这里我们努力实现的为自适应运动预测与复杂视频的内容高效处理，经过预测之后的图像内容有些平滑过渡有些带有边缘或纹理；若对其统一进行某一种变换效率势必会降低，我们期待通过自适应算法将进一步提升整个过程的效率，自适应的前提是我们需要将变换量化并考虑自身滤波对视频图像内容特性的适应。随着技术的演变，块划分方案的不断迭代意味着划分方案的不断改进，如正在进行的采用MTT实现的多种树型划分，其本质为使用更精细的划分方案解决更复杂的图像内容从而实现理想的效果。

AVS-M4409的划分过程基本上基于VCC的三叉树划分，同时包括了二叉树与四叉树。

而AVS-M4472则是二叉树层递归划分。除此之外AVS-M4472的编码单元CU、预测单元PU、变换单元TU大小一致。

接下来发展到了AVS-M4477则采用了衍生预测模式，使用非对称二分和对称四分模式，并且在四叉树或二叉树的叶子结点上不可递归，使用RDO决策变换形状，实现良好性能更高效率的划分。

上一篇： Unity - 演示 ✨ 访问 "KDDI "语音识别 SDK（完成）

下一篇：亚马逊买家秀视频有哪些要求

推荐阅读

下一代视频编码标准：VVC、AVS3

音视频前沿：下一代 AV1 视频标准是一种什么样的存在？

视频编码标准 H.264/AVC、H.265/HEVC、VP8/VP9、AV1 的基本原理、优缺点以及应用场景

AVC编码与H.264视频压缩标准详解

字节跳动的创新编码技术将视频缩小13%，超越H.266最新压缩标准。

阿里云视频云发布实时高清VVC编码器Ali266，真正开启VVC商用之路

中国AVS超高清编码标准体系与生态建设（附部分视频）