首页   实验室与人员介绍   科学研究   人才培养   论文著作   学术讲座   合作交流   招贤纳士   招生指南   联系我们
greyback

斯坦福大学访问报告

2011-9-14       阅读:3604次       来源:NELVT

黄铁军

    在国家留学基金委“青年骨干教师出国研修项目”支持下,我于2011年2月至8月访问美国斯坦福大学电气工程系信息系统研究所(Information Systems Laboratory of the Department of Electrical Engineering, Stanford University)图像、视频与多媒体系统组(Image, Video and Multimedia Systems)Bernd Girod教授,Girod教授也是斯坦福大学图像系统工程中心(Stanford Center for Image Systems Engineering, SCIEN)主任,是图像处理和视频编码领域的著名专家。期间主要在视觉搜索方面开展合作研究,旁听了相关课程的教学,并和斯坦福大学附近的惠普实验室开展了交流合作,半年浸淫,受益菲浅,总结如下。 

1. 科学研究工作 (Research)

    据预定计划,主要围绕移动视频搜索开展工作,移动视觉搜索是利用手机等移动设备具有图像拍摄能力的条件,设计智能识别算法帮助用户识别所遇到的建筑、场景或物品,具有巨大的应用前景,Girod教授是这个领域的先行者,研究组中有6名研究生在从事这方面的研究,我所在的北京大学数字媒体研究所也在开展这个方向开展了很好的工作,而且之前两个组通过共同推动MPEG(国际标准化组织ISO和国际电工技术委员IEC第一联合技术委员会下属的从事多媒体国际标准制定的组织)标准制定有较多的交流。我报告了北大组取得的进展,Girod组的三名研究生先后报告了他们的进展,发现双方的工作有很强的互补性,面对面的交流对双方都有很好的促进。3月21至25日,我还和斯坦福的研究人员一起参加在日内瓦举行的MPEG第96次会议,此次会议MPEG发布了“Call for proposal for visual search”(视觉搜索提案征集书),正式拉开了视觉搜索国际标准制定的大幕,两个研究组将为此国际标准的制定做出贡献。 

    移动视觉搜索的基础是图像局部不变特征,这是图像处理、识别和理解领域近十年的研究热点,通过与网络服务端的海量资源挖掘相结合,也为解决对象识别这一难题提供了新的思路。事实上,我从2008年开始设计一个基于对象比对的“通用对象识别和图像理解计算模型GORIUM(General Object Recognition and Image Understanding Model)”,并得到了国家自然科学基金的资助,经过两年研究已经取得重要进展,我在斯坦福研究组报告了这一研究的总体思路和主要进展,引起了研究组的很高兴趣,Girod对研究思路进行了质疑并提供了相关研究的信息,对我的工作很有帮助。 

    象大多数研究组一样,图像、视频与多媒体系统组也是每周至少一次学术讨论,我参加了这些讨论,日常则和研究生们在一起工作、讨论。相信在斯坦福期间亲身感受到的研究体验将对我归国后的科研工作再上新台阶起到重要支撑作用。 

2. 课程学习与教学借鉴 

    斯坦福大学的计算机科学系(CS)和电气工程系(EE)是全球领先的,所开设的研究生课程十分值得学习借鉴。EE和CS两个系之间的合作很密切,例如两个系的学术日历是组织在一起的,课程也有不少交叉。我首先全面了解了两个系的课程体系,重点旁听了与我的研究方向最为密切的两门课:《图像和视频压缩(Image and Video Compression)》(课程号EE398)和《数字图像处理(Digital Image Processing)》,这两门课都是由Girod教授讲授,教学内容和课程实验紧密结合科研工作,启发很大,对于丰富我在北大的教学内容很有裨益。 

    另外,我注意并参加了EE和CS学术研讨课(或称讲座课),这是颇具特色的一类课程,通常是组织校内外专家报告最新研究进展或产业最新热点。研究生选修这类课程同样可以得到学分,基本要求是满足一定的听课次数(在线收看亦可)并适当参与(例如提问或反馈自己的看法)。因为课程内容每个学期都不同,学生可以多次选课并多次得到学分。EE和CS开设了三门学术研讨课:计算机系统学术研讨课(Computer Systems Colloquium,课程号EE380,下同),人工智能、几何学、图形学、机器人和计算机视觉领域研讨(Broad Area Colloquium for Artificial Intelligence, Geometry, Graphics, Robotics and Computer Vision,课程号CS 528/EE 485)和国际技术管理专题(Topics in International Technology Management ,课程号EE402)。建议北大参考斯坦福的做法把讲座系统化并给个课程的“名分”,以发挥更大的作用。

3. 利用图书馆进行学科调研

    斯坦福大学的一个重要优势是丰富的图书情报资源,虽然国内近年来图书情报资源建设进步很快,购买了大量的数据库,但仍有差距。我所在的北京大学是图书情报资源最为丰富的大学,现有西文电子资源数据库200多个,而斯坦福大学大大小小各种电子资源数据库达到1106个。为了调研美国图像技术研究的总体情况,我重点检索、分析了美国国家技术报告馆NTRL(National Technical Reports Library)中的相关文献。NTRL是美国国家技术信息服务中心NTIS建立的图书馆,负责采集、索引、摘要和保存美国政府资助的各种科学、技术、工程、商业信息资源,根据该法案,所有联邦机构都应将联邦资助的科学、技术、工程信息在公开可用之日起15天内提交给NTIS,NTIS随后快速入库,并每周更新数据库。NTIS的信息来源涵盖了所有600多个联邦机构以及各州和地方政府资助的科研项目,包括国防部、能源部、航天总署等。由于美国联邦资助了全国科研活动的一半左右,因此NTRL可以反映了美国科技研究的最新进展。我统计分析了NTRL中于图象技术相关的7000多篇文献,将检索和分析结果撰写成了论文,概要描述了过去50年中美国在图像技术领域的研究状况,也一定程度上反映了国际范围内这一领域的历史变迁和研究情况,对国内本领域的同行具有一定参考价值。

4. 积极寻求国际合作 

    从2000年开始我一直参与美国卡内基梅隆大学的数字图书馆项目合作,该项目引起了惠普实验室(HP Labs)的兴趣,在2009年曾派员到北京大学访问,初步达成加强合作的一项。本次访问的斯坦福大学毗邻HP Labs,因此与HP Labs的按需出版(POD)组进行了数次技术交流,达成了合作建立按需出版平台的合作意向,争取在北大就建立我国首个POD系统,使得我国高校师生可以从各自图书馆就近获得“中美百万册数字图书计划”已扫描图书和HP图书云中图书的印刷版本,若能成功实施,必将成为中美教育文化交流的重要里程碑。 

 

Copyright © 2009-2017  数字视频编解码技术国家工程实验室