北京大学博雅特聘教授,北京大学计算机学院党委副书记,视频与视觉技术国家工程研究中心(National Engineering Research Center for Visual Technology, NERCVT)副主任。主要研究方向为视频编码与处理。已在视频编码领域国际权威期刊和会议上发表论文300余篇,谷歌学术被引用超11000次,获得40余项国内外授权专利。主持承担多项国家自然科学基金、科技部、863计划、973计划、国家重点研发计划等项目。
音频视频编码技术与标准(AVS, H.26x)
AVS标准由中国AVS工作组发起,已成为IEEE认可的数字音频/视频压缩和传输的国际标准系列。AVS-3是AVS-2之外的新一代视频编码标准。在AVS-3标准化的第一阶段,已经研究并采用了许多有效的工具,与AVS2相比,编码性能提高了约30%,同时,解码时间大幅缩短。特别是对于4K序列,与HEVC相比,编码性能提高了30%。起草了AVS3的Main Profile和High Profile。研究了多项基于混合编码框架的波形编码技术,包括自适应渐进运动矢量分辨率选择,基于多区域分割的运动补偿,混合全零软量化块检测,基于混合拉普拉斯分布的低复杂率失真优化量化,基于非局部结构的环路滤波方法等。在国际最新的VVC/H.266视频编码标准中,已被采纳了许多技术提案,包括硬件友好的帧间/帧内编码方案,存储缩减和简化,降低延迟,自适应环路滤波器的高级语法设计,基于概率决策的块划分等。
智能视频编码
近年来,图像和视频编码技术突飞猛进。然而,由于图像和视频采集设备的普及,图像和视频数据的增长速度远远超过压缩比的提高。随着深度学习的发展,尝试使用深度学习来提升视频编码效率。近年来,深度卷积神经网络(CNN)使神经网络重新兴起,并在人工智能和信号处理领域取得了巨大成功,它也为图像和视频压缩提供了一种新颖而有前途的解决方案。更具体地说,研究和讨论了利用深度学习和传统编码框架的前沿视频编码技术,这些技术大大提高了最先进的视频编码性能,包括基于CNN的双向预测运动补偿,环内滤波的内容感知CNN,利用HEVC的深帧率上变频增强CTU级帧间预测,基于CNN的快速QTBT划分决策等。
图像视频处理
随着数字媒体服务的爆炸,对压缩图像/视频以便于存储和传输的需求日益增加,这可能会降低其质量,尤其是在低比特率下。流行的有损压缩标准(例如JPEG和HEVC)采用基于块的压缩架构,并独立地量化每个块以减少变换系数的量。有损图像压缩通常会引入不希望的压缩伪影,如阻塞、振铃和模糊效果,尤其是在低码率编码场景中。尽管已经提出了许多算法来减少这些压缩伪影,但大多数算法都基于图像局部平滑度先验,这通常会导致具有不同结构(例如边缘和纹理)的区域周围的过度平滑,从而导致用户体验不佳。具体工作包括面向感知的增强图像解码,平衡保真度和质量的混合框架等。
图像质量评估
对比度失真对图像的感知质量有显著影响,这可能在各种图像处理过程中产生。提出了一种基于信息和外观属性的混合特征的对比度失真图像无参考图像质量评估(IQA)算法。从信息属性方面,利用基本信息特征来量化图像的可见部分和进一步包含图像的不可见部分的扩展信息特征的信息。从外观方面,我们提出了一种有效的感知对比度和色彩指数来捕捉直接的视觉变化。利用混合信息属性和外观属性特征,利用支持向量回归(SVR)学习IQA模型,以预测对比度失真图像的质量。在CCID2014和TID2013数据库上的大量实验结果进一步证明了所提出方法的优越性能和鲁棒性。
跨媒体智能技术
研究在跨不同媒体格式(如视频、图像、文本和音频)进行转换时如何更好地保留语义信息的问题。具体而言,我们在各种跨媒体分析和生成任务中进行了研究,包括图像/视频字幕、基于音频/文本的图像生成、姿势引导的人类动作视频生成等。具体工作包括姿势引导的人类动作视频生成,图像捕获的自关键n步训练等。
系统开发
将算法转化为实际工程项目,包括863项目,产学研合作及与多家企业合作的项目。具体项目包括编解码器系统优化,点云压缩系统,虚拟、论证、混合现实(VAMR)系统等。