6月,在北京大学理科2号楼一间办公室内见到了北京大学信息科学技术学院教授马思伟,并相约这次邮件采访。作为国产编解码器AVS视频组的组长,马思伟畅谈了编码器的格局,AVS的机会以及学习编解码的经验及方法。
LiveVideoStack:马思伟您好,请简要介绍下自己,以及目前主要的工作方向,对哪些技术或领域感兴趣?
马思伟:大家好,我是马思伟,主要从事视频编码方面的研究,按照视频编码标准的定义区分,主要从事两大类编码技术的研究:一类是视频编码标准范畴内的技术,需要在标准规范中给以严格定义描述的技术,如预测、变换等一些核心技术模块。另一类是标准之外,面向编码器优化实现的前后处理相关技术,如去噪声、质量增强等视频处理技术。
LiveVideoStack:许多开发者都有体会,做音视频的“坑”比较多,入门不易做好更难。对于有意愿进入这一领域的初学者,您有哪些经验可以分享的?
马思伟:入门不易,贵在坚持。由浅入深,循序渐进。比如最开始从简单了解视频应用层面的一些技术点入手,可以读科普性质的文章、博文等先了解个大概,然后根据应用需求学习密切相关的一个或几个模块,可以读些专题文章,再后才是逐步更全面的学习,或者某一模块的深入钻研,具体学到什么程度可以按需分配精力来学,不要眉毛胡子一把抓,不分主次,不要囫囵吞枣,贪多爵不烂,于事无宜。
LiveVideoStack:什么样的编解码器是一个好的编解码器?视频质量、码率、算法复杂度、对数据丢失或错误的鲁棒性等。当下对于编解码器的研发,业界主要的研究方向是什么?其难点是什么?
马思伟:好无止境,没有最好,只有更好,但翻过来只要能在一定时期满足一定应用需求的不妨都称为好的编解码器。诸如质量、码率、复杂度、容错等等这些因素,好的编解码器是要寻求在这些约束之下能够满足应用需求的最佳折中,是动态变化不断提升的,同时这也是编解码器研发的难点。
LiveVideoStack:大家已经开始研究H.266、AV1以及国产的AVS2/AVS3,他们有哪些特点?各自的优势应用场景是什么?
马思伟:标准一般是在设计上尽量覆盖需求比较相近的多个应用场景,但实际上不同应用场景之间总还是存在一些特定的差异,对技术的选择也有很大的影响,这时标准一般通过设置不同的档次来为某一类应用场景提供特定的工具支持。像目前这些视频编码标准,都还是比较通用的,广播、通讯等各行业都可以在其基础上开发出好的编解码器进行应用,当然实际应用情况也是多种因素影响,比如还有专利授权政策问题对应用有着很大的影响,不是由单单技术这一项因素所决定的。
LiveVideoStack:因为有Google、Netflix等巨头的支持,AV1备受关注。国内一些大视频平台也在和AOM谈判考虑加入。目前看,H.264的应用还处于统治地位,HEVC因为专利风险,正在面临来自AV1的挑战,再加上国产的AVS系列。您如何看待未来Codec战争以及市场格局的走势?
马思伟:很多实际案例已经告知我们多元化是好事儿,有利于技术竞争,产业发展,希望未来格局是多些国内的创新领导者。
LiveVideoStack:能否介绍下AVS系列的技术演进状态,编码效率、算法复杂度、延迟,生态的成熟度,包括硬件方案的成熟度,尤其是移动设备的硬件方案,商业编解码器/解码器方案等。
马思伟:AVS从2002年至今制定了一系列的视频编码标准,即我们常说的AVS1、AVS+、AVS2,每一个标准制定实际上都是一个大工程,对于每项技术都要进行详细全面的评估,目前AVS+、AVS2在广电行业的成功应用已经充分证明AVS标准技术是成熟的,更多的商业方案及应用有待于市场的进一步培育而协同发展。
LiveVideoStack:比如腾讯推出的TPG图片格式采用了AVS2作为引擎,AVS在工业界的已经有哪些应用落地?未来AVS的主要应用场景是什么?
马思伟:腾讯推出TPG是AVS历史上具有里程碑意义的事件之一,是腾讯音视频实验室团队勇于创新的体现。目前AVS2 4K超高清广播、IPTV点播等应用也已落地或正在落地,和TPG一样,未来有多少勇于创新者,AVS就会有多少应用场景。
LiveVideoStack:对于应届生或从其他研发领域转行学习编解码、多媒体开发的技术人,有哪些建议?
马思伟:视频领域是个海洋,可以游泳、冲浪,也可以潜水、远航,根据自身的基础、特长和兴趣选择合适的领域涉足,编码优化、去噪声、视觉特效等很多问题都是跨领域的,涉及计算机、电子、通信,甚至艺术、生理、心理学等,无论本专业还是外专业都需要再学习,相信来者有益。
LiveVideoStack:能否推荐一些系统学习编解码、多媒体开发的图书、资料?
马思伟:快速了解某一标准可以看标准文本、关于标准的专著,如毕厚杰老师的《新一代视频编码标准——H.264/AVC》,万帅、杨付正老师的《新一代高效视频编码H.265HEVC原理、标准与实现》,Mathias Wien的《High Efficiency Video Coding: Coding Tools and Specification》,Vivienne Sze等主编的《High Efficiency Video Coding(HEVC) Algorithms and Architectures》 ;深入学习编码理论和技术,可以学习经典的教材,如Yunqing Shi和 Huifang Sun老师的《Image and Video Compression for Multimedia Engineering, Fundamentals, Algorithms and Standards》,Yao Wang, Jôrn Ostermann和Ya-Qin Zhang的《Video Processing and Communications》,我也合作出版过一本《数字视频编码技术原理》供学习参考;再进一步若关注于某一项技术的研究,则需要对相关论文进行梳理,深入阅读。
LiveVideoStack:5G商用,4K逐渐流行。 您如何看他们给多媒体生态带来的机会?对于Codec有哪些机会和挑战?
马思伟:由于传输能力的升级,4K会逐渐流行,可以进一步提升感受质量,但实际上4K之后依然存在更高的带宽需求,比如还有8K,而且8K对于VR都还是低的,还有更高到12K甚至20K,所以对Codec来讲依然存在更高效压缩的需求,好的codec一定是大有市场的,当然如何继续提升编码效率本身已经成为一个挑战了。
新闻来源:点击阅读原文