编码组（负责人：马思伟）-视频与视觉技术国家工程研究中心

位置 : 首页 > 研究组

编码组（负责人：马思伟）

视频与视觉技术国家工程研究中心

传统视频编码

四叉树-二叉树优化组合划分预测编码

下一代国际视频编码标准研究组JVET在编码单元划分结构上由HEVC的四叉树结构更新为四叉树-二叉树组合划分结构。四叉树-二叉树组合划分结构对一个图像区域首先采用四叉树的划分，然后对四叉树划分后的子块继续采用二叉树的划分。四叉树-二叉树的划分结构用递归的二叉树划分替换HEVC中固定的预测单元划分形状，使得编码单元的划分可以更好地适应图像内容。四叉树-二叉树的划分结构由于在选择最优划分形状时迭代次数过多，使得编码复杂度相较于HEVC增加一倍。针对于此，我们提出了更加高效的四叉树-二叉树划分算法，包括解码端划分参数导出算法和联合分类器优化决策算法，可以在性能损失不大的前提下获得一倍的编码时间加速

自适应运动矢量精度预测编码

运动补偿是当前国际主流视频编码标准的核心模块，而基于块地运动补偿方法的核心就是运动矢量——用于指定当前块与预测块之间的相对运动偏差。H.264/HEVC中的运动矢量均采用1/4的精度，即运动偏差可以精细到1/4分像素级别。根据我们的研究发现，运动矢量精度对编码性能主要有两方面地影响：一方面更高地运动矢量精度意味着运动补偿可以精细到更高地分像素级别，因此可以取得更好地预测效果；但另一方面，更高精度地运动矢量也意味着自身需要更多地比特去编码。为了在预测效果和运动矢量自身编码比特之间达到一个好地权衡，我们提出了自适应的运动矢量精度技术，该方法致力于根据图像的纹理内容和运动大小，来估算出不同运动矢量精度下的率失真代价，为每帧选择最优的运动矢量精度

基于局部运动场的运动补偿方法

预测编码面临的主要一个困难就是块划分与物体形状之间的不一致性。针对于此，我们提出了基于局部信息的自适应预测补偿算法。在解码端获得运动矢量指向的预测块后，对预测块进行图像分割。对于图像分割后的两个区域，我们首先基于局部纹理信息来寻找到归属于同一个问题的区域和对应的相邻块；然后，再根据相邻块的运动矢量来作为该区域的运动矢量进行运动补偿。一般来讲，两个区域中，会有一个属于前景部分而另一个属于背景区域。对于归属于前景的部分，其运动信息基本等同于整个块的运动信息。因此，可认为前景部分的运动矢量等于整个块的运动矢量。对于属于背景的区域，其运动信息一般与邻块相同，更准地讲，是有很大的可能性与邻块中的一个或多个块具有相同的运动场。因此，分割后的背景部分可以使用邻块的运动矢量进行预测。通过这样的方式，我们就可以在每个块仍然只传递一个运动矢量的情况下实现自适应地区域分割及预测

多参数运动模型

由于实际视频序列中的运动并不局限于单一的平移运动模式，还有旋转、缩放、投影等更加复杂的运动。针对各种各样的运动模型，对于具有复杂运动的局部块，通过块匹配的方法使用不同的运动模型在参考帧中找到最相似的块。因此我们提出了多参数运动模型，更来描述非线性运动：

其中(x, y)表示一个坐标点，(MVx, MVy)表示(x, y)位置的运动矢量，(a, b, c, d, e, f, g, h)表示投影参数。如果g=h=0, 投影变换退化为六参数仿射变换

基于时间低秩测度的背景参考图像生成

基于时间低秩测度的背景参考图像生成技术利用背景图像在时间轴上的低秩测度，提取若干背景块，对这些背景块进行高质量编码，最后用这些高质量重建后的块构成背景参考图像，用于后续图像的编码。首先，在编码当前帧时，利用时间低秩测度检测若干背景块。对于当前帧的某一块，使用时间上的高相似度来表征时间低秩测度，即利用当前块与前几帧对应块的均方误差来衡量时间低秩测度。若该均方误差小于某一阈值，则认为当前块为背景块，否则认为当前块为非背景块。在这些检测出的背景块中，通过一个基于稳定性排序的过程来选择出若干个最优背景块，进行高质量编码。其次，基于全局编码性能最优化来决定背景块的编码参数，主要为量化参数。由于这些块最终用于构成背景参考帧，而背景参考帧将长时间保持在参考帧缓冲区中，它的量化失真会严重影响到后续帧编码预测的好坏。因而，在进行当前帧的率失真优化编码时，不仅需要考虑当前帧的编码性能最优化，还需考虑全局编码性能的最优化。对检测出的背景块进行高质量编码时，为了避免编码码率波动太大，还需要调整后续背景块的编码参数。最后，当前帧编码完成后，当前背景帧的相应块将使用当前帧背景块的重建块进行更新，并立即用于后续帧的预测编码中。由于检测背景块需要用到一些解码端无法获得的信息，因而当前帧的每个块只需传递一个标志位给解码端来指示当前块是否属于背景块。这样，解码端仅增加极少的复杂度就可以获知当前块是否属于背景块，而编码端增加的码率代价也非常少

方向自适应变换

Karhunen-Loève Transform（KLT）是理论上最优的变换，但是KLT要求对原始信号进行训练，并且对图像块进行不可分离的变换，其超高的计算复杂度并不适用于现有的实时编解码器。DCT变换是平均意义上对KLT变换的最佳近似，因此现有标准中多采用可分离的二维DCT变换来替代，即水平变换和垂直变换。虽然DCT变换极大地降低了计算复杂度，但是也失去了对图像内容的自适应性。对于复杂的纹理，DCT变换并不能很好地达到能量聚集。例如，当图像块具有很强的斜角边缘，通常沿边缘方向的残差变化较小而垂直边缘方向的残差变化较大，传统的水平垂直变换不能有效地处理这种图像模式。因此我们提出了方向自适应编码方法，利用边缘检测获得方向信息，从而训练适应边缘方向的自适应变换。如图(a)所示，通过边缘检测获得当前变换块的边缘，根据边缘方向确定变换中的主扫描方向。如图(b)所示，假设变换块大小为NxN，首先沿着斜线方向进行2N-1次1维DCT变换，因为沿着边缘方向扫描的系数个数不同，变换核的大小从1x1到NxN不等；其次，如图(c)所示，将第一次变换后的系数按照列向量排列，按照行进行第二次1维DCT变换；最后，如图(d)所示，将变换后系数按照zigzag顺序扫描，得到最终的变换系数。

基于混合拉普拉斯的低复杂度率失真量化

率失真量化(RDOQ)技术是视频编码中的一种关键技术，其的应用显著提升了HEVC的编码性能。由于RDOQ算法是按照当前块的系数扫描顺序搜索整个变换块的所有系数，并基于率失真决策来确定每个变换块中对应位置的最优量化系数，最后再通过对比当前块与全零块时的率失真代价，最终确定该TU的量化系数值。该过程的计算复杂度较高且不利于并行。为了解决该问题，提出了一种基于混合拉普拉斯模型的低复杂度的RDOQ优化算法。HEVC引入了多种变换块类型，包括4x4 到32x32的DCT以及4x4 DST和变换跳过块。单一参数的拉普拉斯模型难以对HEVC中变换系数进行准确建模，因此我们设计了一种混合拉普拉斯系数分布模型。根据变换块类型，在单一拉普拉斯模型的基础上引入了每种块类型的权重因子。并根据帧间相似性特性，通过对已经编码的若干帧的系数分布特性的学习来预测当前块的系数分布，对权重因子和拉普拉斯模型参数进行更新。根据该混合拉普拉斯模型，对当前整个变换块进行比特估计，并结合失真模型，将RDOQ循环搜索每个系数最优值的过程简化为求解当前块的最优量化系数值的集合，该集合使得当前块的率失真代价最小。在保证率失真性能的前提下，大大节省了变换量化时间，提升了编码效率。

基于非局部结构相似性的滤波

首先，非均匀滤波对整帧图像按照相似块匹配的原则进行处理，以块为单位在每一个块周围开辟搜索窗口进行相似块的匹配搜索，构建当前块的相似结构组；其次，对结构组进行奇异值分解滤波，保留变换域上含有最大能量的前几个系数，再进行结构组的重建以及图像的加权重建；最后，在编码端通过率失真优化技术选择最优的滤波方式来保证编码效率。

智能编码

基于深度学习的视频压缩：

借助于深度学习的强大表示能力增强视频编码器的特定环节，提升视频编码器的压缩性能。通过大量视频数据的学习，深度神经网络能够补偿视频编码器中的环路滤波、运动补偿等损失，获得压缩性能的明显提升。

基于生成对抗网络的视觉质量增强：

生成对抗网络是一种高效的生成模型，能够生成具有优秀视觉质量的图像。我们使用生成对抗网络实现了压缩图像与视频的视觉质量增强，能够有效地减少有损压缩带来的质量退化，在相同的码率下显著地提升图像、视频的主观质量。

基于深度学习的图像压缩算法：

深度学习具备强大的非线性变换的能力，与传统的基于线性变换的图像压缩算法相比，深度神经网络能够更好的刻画像素之间的相关性，提升图像压缩算法的性能。已有的研究结果显示，深度学习能够获得优于传统图像压缩算法的编码性能。

基于深度学习的跨媒体智能：

视频，图像，文字是我们最常见的三种媒体格式，如何在这三者之间做保留信息的格式转换是一个很有意义的研究课题。其中包括，图像描述，视频描述，基于描述的图像和视频生成等研究方向。我们结合现有的相关技术，探索如何在多种媒体之间更好地转换，并研究在转换中的信息保持。

基于视频分析的视频编码：视频内容与视频特征的联合编码

传统视频编码的目标是在相同码率下最大化视频视觉质量。然而，随着大数据时代的到来，视频内容的分析属性显得格外重要，因此我们提出将视频内容与视频特征联合编码的框架，编码的视频特征可以用来在解码端支持高效检索分析任务，也可以进一步提高视频内容的压缩效率。

全局方差约束的稀疏表示以及在图像率失真编码中的应用

传统稀疏表示的目标是在系数满足0范数约束的条件下最小化重构误差。然而，在图像编码应用中，率失真优化起到很重要的作用。传统稀疏表示没有考虑码率估计，单纯的0范数约束很难准确估计实际编码效率。我们提出在稀疏表示中加入码率估计项，通过系数全局方差来近似码率。因此整个优化目标可以表述为在0范数约束下最小化重构误差与估计码率的总代价，该优化问题可以通过ADMM算法有效求解。通过与最新的字典学习以及稀疏分解算法进行对比，我们提出的方法可以显著提高编码效率。我们还在实际的图像集压缩应用中检验了该方法的有效性。

基于稀疏结构相似性的视觉编码研究

我们研究了基于图像稀疏结构相似性的图像质量评价，该方法在自然图像质量评价以及高动态范围图像的色调映射质量评价中都得到了很好的评价效果，结果显示提出方法可以更加准确的逼近人眼主观观测效果。同时我们将该评价方法运用于图像编码中，指导图像编码时的码率分配问题，使得更多码率被分配到人眼主观反应明显的区域，从而显著提高了编码后图像的主观视觉质量。

基于基元熵的视觉信息估计方法研究

我们研究了稀疏表示中字典基元的统计特性，与香农信息熵理论结合起来，从而产生了基元熵的概念。我们发现基元熵可以很好地刻画图像的信息量，用于衡量一幅图像中所包含的视觉信息的多少。区别于基于像素的香农信息熵，基于图像结构的基元熵具有更好的语义表达能力。基于基元熵的方法在最小可察觉失真估计、图像质量评价等问题中也得到了很好的实验结果。

VR/AR/MR技术及系统

快速编解码优化

新一代视频编码标准相比上一代标准在编码效率显著提升的同时编码复杂度成倍提升，通过对代码进行SIMD指令优化和多线程并行调度可成倍提升编解码的速度。与此同时，探索快速编码算法，如帧内模式粗选、自适应预测块划分、编码单元划分深度预测与提前终止、快速SAO、ALF决策等，以降低编码复杂度从而实现实时编码。

基于GPU的模块加速与块大小决策

新一代编码标准中更加灵活的四叉树递归的块划分方式，在改善压缩效率的同时使编码器的复杂度成倍增加。通过利用GPU完成运动估计、帧内预测模式粗选等易于并行的模块，大大减少CPU端的计算复杂度以提升编码速度。与此同时，利用GPU的帧内模式粗选信息和运动估计信息，剔除选中可能性较低的划分块类型，进而成倍提升编码速度。

全景视频拼接

全景视频需要4K以上分辨率才能获得可接受的观看质量，这使得其传输占用大量的网络带宽。针对全景视频的特性、用户注意模型以及用户观看视点运动趋势，研究视频的自适应切片方法及自适应块级、Tile级码率分配方法，在不引起用户明显失真感受的前提下大大节省全景视频传输码率。

基于HTTP的自适应流媒体传输算法

针对基于HTTP的自适应流媒体传输协议，设计了一种自适应传输算法。将视频片段下载过程描述成一个马尔科夫过程，针对该马尔科夫过程设计PID的ABR算法。

沉浸式视频传输框架–IVSF

针对沉浸式视频的特点，基于软件自定义网络，设计了一个针对全景视频、点云视频和光场视频的传输框架。该传输框架包含应用层、控制层和网络层三层，其主要利用了沉浸式视频的位置特性，主要解决了沉浸式视频传输数据量大、实时性高的问题，提升了带宽利用率和用户主观体验。

深度图估计、修复及三维重建

通过光学设备采集到的深度图像，由于吸收、反射、黑暗的表面或是景深的限制，图像中往往包含着许多测量值丢失的黑洞。因此对于已获得的原始深度图，我们首先需要检测黑洞的位置，进而充分利用深度图像及对应纹理图像中的先验信息对深度信息缺失区域进行填补及修复。在得到已修复的深度图像后，我们可以结合纹理图像对图片中的场景进行重建。此外我们也可以将已修复的深度图像应用到视点合成、目标跟踪、姿态检测、图像分割等诸多领域。

点云编码

研究基于率失真优化的自适应颜色扫描方式：在MP3DG-PCC参考软件中,针对目前单一颜色映射方式，我们加入多种映射方式，将三维点云颜色信息映射到二维，然后在现有的点云数据上，训练得到JPEG参数Q和拉格朗日乘子的关系模型，利用拉格朗日优化方法，筛选出最优模式，从而大幅提升点云编码性能。

基于主方向权重的傅里叶图变换：为了降低图变换的复杂度，同时让参与变化的点云更加紧凑，我们首先尝试分类的方、法，将点云处理为多个子点云，对于每一个子点云，结合欧氏距离以及局部主方向特征，对于点云构图，得到变换系数，对于点云属性信息进行变换，编码。

研究组网站

http://vcl.idm.pku.edu.cn/

视频与视觉技术国家工程研究中心NATIONAL ENGINEERING RESEARCH CENTER OF VISUAL TECHNOLOGY