网易首页 > 网易号 > 正文 申请入驻

微软亚洲研究院华刚:如何做好计算机视觉的研究

0
分享至

新智元推荐

来源:微软研究院AI头条

作者:华刚

新智元启动新一轮大招聘:COO、执行总编、主编、高级编译、主笔、运营总监、客户经理、咨询总监、行政助理等 9 大岗位全面开放。

简历投递:jobs@aiera.com.cn

HR 微信:13552313024

新智元为COO和执行总编提供最高超百万的年薪激励;为骨干员工提供最完整的培训体系、高于业界平均水平的工资和奖金。

加盟新智元,与人工智能业界领袖携手改变世界。

【新智元导读】本文是微软亚洲研究院资深研究员、现任微软亚洲研究院计算视觉组负责人华刚博士在看来朱松纯老师关于计算机视觉的三个起源和人工智能的评论之后写下的文章。华刚博士表示:

“从我去年(2015年)回到微软亚洲研究院之后接触到很多聪明的实习生。一方面感受到他们对计算机视觉研究的热情,另方面也有感于他们对计算机视觉研究认知的局限性,或者说大一点,是基本研究方法和思路上的局限性,就有想法要对如何做好计算机视觉的研究写点什么,但一直也没有找到合适的机会。最近计算机视觉领域国际权威、加州大学洛杉矶分校的朱松纯老师发表了一篇关于计算视觉的三个起源和人工智能的评论,引起了很大的反响。朱松纯老师的评论全面深刻,我想借着这个机会,结合朱老师评论的内容和我在计算及视觉领域15年的研究经历,也来谈谈如何做好计算机视觉的研究,希望对领域内的学生和年青的研究员能有所帮助。”


作者简介

华刚博士是微软亚洲研究院资深研究员,现任微软亚洲研究院计算视觉组负责人。他的研究重点是计算机视觉、模式识别、机器学习、人工智能和机器人,以及相关技术在云和移动智能领域的创新应用。他因在图像和视频中无限制环境人脸识别研究做出的突出贡献,于2015年被国际模式识别联合会(International Association on Pattern Recognition)授予”生物特征识别杰出青年研究员”奖励,因其在计算机视觉和多媒体研究方面的杰出贡献,于2016年被遴选为国际模式识别联合会院士(IAPR Fellow)和国际计算机联合会杰出科学家(ACM Distinguished Scientist) 。华刚博士已在国际顶级会议和期刊上发表了120多篇同行评审论文。他将担任2019国际模式识别和计算机视觉大会 (CVPR 2019)的程序主席,以及CVPR 2017和ACM MM 2017的领域主席。

此前华刚博士曾担任CVPR 2014、ICCV 2011、ACM MM 2011/ 2012/ 2015、ICIP 2012/2013/2015/2016、ICASSP 2012/ 2013等十多个顶级国际会议的领域主席,以及IEEE Trans. on Image Processing(2010-2014)编委。目前,华刚博士还担任着IEEE Trans. on Image Processing、IEEE Trans. on Circuits Systems and Video Technologies、IEEE Multimedia、CVIU、MVA和VCJ的编委。

“如何做好计算机视觉的研究?”

要回答这个问题,我们先要对这个问题的关键词进行分析:如果去掉“计算机视觉”这个限定词,这问题就变成了“如何做好研究?”那么,要回答这个问题,我们就要知道“什么是好的研究?”而要定义什么是好的研究,必须回到根本,先要知道“什么是研究?

我们的讨论就从这个问题开始。

什么是研究?

一个被普遍接受的对研究的广义定义为:研究是为了产生新的知识或者是为已有的知识设计新的应用的系统性的工作。因为我们今天的讨论其实更多集中在科学研究上,先确定狭义的研究的定义为:利用科学的方法来调查解释一个现象或者获取新的知识。

综合这两个定义,可以看到科学研究从本质上是由三个基本的要素构成:1) 目的:产生新的知识或者是设计出新的应用; 2)手段:科学的方法。缺少这两个要素任何之一都不构成科学研究; 3) 成果:新的知识。所谓新的知识,必须是前人不知道的东西。

我们很多同学和年轻的研究员认为研究就是写论文、研究成果就是论文,这其实是在观念上走进了一个误区。论文是系统阐述新的知识、新的应用,以及阐述获取这个新知识或者新应用用到了什么样的科学方法的一个载体。论文,作为阐述研究成果的主要手段,必须经过同行的评议通过才能正式发表和被认可。

在人工智能进入第三个热潮之际,我们看到各种各样关于AI的各种媒体报道层出不穷,一方面,这对大众普及了AI各方面的知识,是积极的。但从另一个方面讲,很多观点没有经过仔细的推敲,也没有同行的评议,一些谬误或者是夸大的观点可能因为广泛传播而被大众接受,结果产生负面的社会影响。这就提醒我们相关领域的研究人员,在对大众媒体去做一些评论的时候,必须仔细斟酌,尽量不传播没有得到检验的观点。

这就谈到第二个问题:

什么是好的研究?

不同领域的研究员对这个问题可能会有不同的看法。

从计算机科学的角度来讲,尤其是计算机视觉的研究,无论是理论的还是实践的,我们的研究成果最终是要解决现实世界的问题的。在这个方面,我印象比较深刻的还是我在西安交通大学读研究生的时候,沈向洋博士2001年在西安交大做报告提到的一个观点:最好的研究员发现新问题;好的研究员创造新方法解好问题;一般的研究员跟随别人的方法解问题——大家在多次这里看到“新”这个关键词,创新是研究的本质。

有了这些铺垫,我们首先定义什么是最好的研究。通常认为一个领域中对于某一个问题最好的研究工作有三种:第一篇论文 (The First Paper),最好的一篇论文 (The Best Paper),以及最后一篇论文(The Last Paper)。这第一篇论文的含义是说这篇论文率先提出了一个好的问题和方向。最好的一篇论文是什么?那一定是开创性地提出了一种解法,启发了最终解决这个问题的途径。至于最后一篇论文,那一定是彻底把这个问题解决了,从此以后这个问题不再需要继续做进一步的研究。

从计算机视觉领域举一个具体的例子来讲,Harris Corner Detector属于最早的一批在图像中检测角点的论文,可以归为第一篇之列。David Lowe博士的SIFT特征检测和局部描述子,可以归为在这个方向上最好的论文之列。那么这个方向的最后一篇呢? 我认为可能还没有出现。具体到我自己的研究工作,在局部描述子这个方向上,我跟我的同事Matthew Brown和Simon Winder在2007年到2009年之间所做的一系列用机器学习的方法来建立描述子的工作,也实际上为提高局部描述子的性能提供了一个新的思路和方法。

对于我们很多研究员和学生来讲,一辈子可能都做不到这三种最好的研究工作之一。那是不是就等于说你不能做好的研究工作或者根本不用考虑做研究了呢?肯定不是这样。科学研究是一个共同体。这些最好的研究工作也是在前面很多很多非常扎实(solid)的研究工作的基础上发展出来的。因此,对于年青的研究员和学生而言,应该胸怀大志,去追求做最好的研究工作,但从实际执行上来讲,还是要把一项一项具体的工作先做扎实了。

怎么做到把研究工作做扎实了?首先,你必须对你要解的问题有一个全面深刻的了解,包括为什么要解这个问题、解这个问题有什么意义呢、以前有没有试图解决同样或者类似问题的先例,如果有,你就要全面了解前人都提出了什么样的解法、他们的解法都有什么样的优势和缺陷……最后,你的解法解决了前面这些解法不能解决的问题呢,或者是你的解法处理了什么样的他们不能处理的缺陷了?这些问题的答案如果都有了,那么,在写论文的过程中要注意的就是,1)你的假设是什么?2)你怎么验证了你的假设?这个验证既可以是理论上的证明,也可以是实验的验证。我们很多学生和年青的研究员,写论文的时候没有找到内在的逻辑关系,很多观点都是似是而非。或者说重一点,在论文撰写方面的训练严重不足。你的研究如果到了写论文的阶段,那就必须要有明确的观点提出来。这个观点必须明确无误,只有这样你才能被称为形成了新的知识。你的每一个观点都必须在理论上或者是实验中得到验证。另外,论文的撰写是为了让人看懂,不是让人看不懂,所以我们在撰写过程中必须尽量保证不去假设读者已经拥有了某些方面的知识。做好了这些,基本上你就有很大的可能性能够做出扎实(solid)的研究工作。

然后回到我们讨论的主题:

如何做好计算机视觉的研究工作?

其实,要回答这个问题,将我上面讲的所有观点加上“计算机视觉领域”这个限定词就行了。我这儿结合计算机视觉研究的一些现状及朱松纯老师的一些观点来进一步谈谈我的观点。

首先谈谈我观察到的一些现象。很多年轻的学生,现在讨论问题的时候都用这样的谈话:我发现用FC6层的特征,比用FC7层的特征,在某个图像数据集上比现在最好的算法提高了1.5%的识别精度,老师我们可以写论文了(如果大家不能理解这句话,FC6和FC7是表示AlexNet的两个中间输出层)。我想请问,你在这个过程中发现了什么样的普适的新的知识吗,又或者,在不是普适的情况下,你在什么限定条件下一定能够看到这样的识别精度提高了?

不错,提高识别精度是一个很好的目标,但要注意,计算机视觉的研究是要解决识别的问题,不是解某一个图像数据集。这些图像数据集提供了很好的验证你的假设和方法的手段,但如果你没有遵循科学的方法和和手段去设计你的算法和实验,你也不可能得到一个科学的结论,从而也不能产生新的知识,更不用谈对这个领域做出贡献。朱松纯老师在他的评论中提到,很多学生认为,计算机视觉现在就是调深度神经网络的参数,也就是说的这个问题。

所以,具体到对于刚开始从事计算机视觉研究的学生来讲,要做好这方面的研究,我觉得第一步还是要系统学习一下计算机视觉的课程,全面了解一下计算机视觉这个领域的来龙去脉、这个领域都有哪些基本的问题、哪些问题已经解得比较成熟而哪些问题还在初级阶段……这里,推荐所有的学生学习两本经典教材《Computer Vision: A Modern Approach》和《Computer Vision: Algorithms and Applications》,可以先读完第一本再读第二本。


只有对这个领域有了一个初步的全面了解,你才能够找到自己感兴趣的那个问题。在众多的问题当中,你是希望做三维重建,还是做图像识别、物体跟踪,又或是做计算摄影呢?做研究其实不是一个完全享乐的的过程,你必须要有足够的兴趣来保证你能持续地走下去,这在你感觉自己当前研究的思路走不下去的时候尤其具有重要意义。当你确定你感兴趣的问题,你应该首先全面调研一下这个问题的来龙去脉。这就意味着你不能只读过去五年的论文。你可以从过去一年的论文开始,慢慢追溯回到过去很久的相关的论文。有些时候,你会惊讶地发现前人想问题的深度。研究的英文单词是Research,拆开是Re-Search,用中文直译就是重新搜索和发现,而不是直接发现,其实就是说你要首先对这个问题做追本溯源。朱松纯老师提到的我们很多学生现在不读五年以前的论文,说的也是这个道理。

当你做好了这些,你必须钻进计算视觉的一个小的领域。人的精力是有限的,这就意味着你不可能把很多事情同时做好,所以在你选好方向之后,就要把你的精力集中在你感兴趣的一个问题上, 努力成为这个方面的专家。研究是一项长跑,很多时候,你在一个方向上比别人坚持久一点, 你就有机会超越他而成为某个方面的专家。

最后,我也来谈谈深度学习对计算机视觉的影响。在这里,我对马里兰大学Rama Chellapa教授在Tom Huang教授80岁生日论坛上表达的观点非常认可,他认为,深度学习网络就像一个Pasta Machine:你把该放的东西放进去,它能给你产生好吃的Pasta。同时它也是一个Equalizer:无论你在计算机视觉领域有40年的经验还是0年的经验,只要你会用Caffee,你在一些问题,比方说图像识别上,都能产生差不多的结果。他开玩笑说这有点伤自尊 (It hurts my ego!),但我们还是应该把它作为一个好的工具拥抱它。我想,他的言外之意,是我们的研究应该做得更深,要去理解这个工具为什么能够工作得比较好,从而产生新的知识去指导将来的研究和应用。

我认为,对于年轻的学生来讲,从深度学习的方法开始学习没有什么问题,但必须要进一步去了解一下其他的数学和算法工具,像统计贝叶斯的方法、优化的方法、信号处理的方法等等等的。计算机视觉的问题,其本质是不适定的反问题,解这一类问题需要多种方法的结合。这里面有深度学习解得比较好的问题,像图像识别,也有深度学习解不了的问题,像三维重建和识别。

任何研究领域包括计算机视觉的研究,对处在研究初期的学生而言, 更重要的是掌握足够的数学工具,培养一种正式思维(Formal Thinking)的能力,这样,遇到实际的问题就能以一种理论上正确的思路去解决这个问题。

作为结束语,我想对在从事或者有志于从事计算机视觉研究的学生说,计算机视觉的研究处在一个非常好的时期,有很多我们原来解不了的问题现在能够解得比较好了,像人脸识别,尽管我们其实还没有从真正意义上达到人类视觉系统对人脸识别的鲁棒程度。但我们离真正让计算机能够像人看和感知这个世界还有很远的距离。在我们达到这个目标之前,深度学习的方法可能是这个过程中一个重要的垫脚石,同时我们还要将更多的新的方法和工具带入这个领域来进一步推动这个领域的发展。

(本文转自微软亚洲研究院AI头条)



新智元招聘

职位 运营总监

职位年薪:36- 50万(工资+奖金)

工作地点:北京-海淀区

所属部门:运营部

汇报对象:COO

下属人数:2人

年龄要求:25 岁 至 35 岁

性别要求:不限

工作年限:3 年以上

语 言:英语6级(海外留学背景优先)

职位描述

  1. 负责大型会展赞助商及参展商拓展、挖掘潜在客户等工作,人工智能及机器人产业方向

  2. 擅长开拓市场,并与潜在客户建立良好的人际关系

  3. 深度了解人工智能及机器人产业及相关市场状况,随时掌握市场动态

  4. 主动协调部门之间项目合作,组织好跨部门间的合作,具备良好的影响力

  5. 带领团队完成营业额目标,并监控管理项目状况

  6. 负责公司平台运营方面的战略计划、合作计划的制定与实施

岗位要求

  1. 大学本科以上学历,硕士优先,要求有较高英语沟通能力

  2. 3年以上商务拓展经验,有团队管理经验,熟悉商务部门整体管理工作

  3. 对传统全案公关、传统整合传播整体方案、策略性整体方案有深邃见解

  4. 具有敏锐的市场洞察力和精确的客户分析能力、较强的团队统筹管理能力

  5. 具备优秀的时间管理、抗压能力和多任务规划统筹执行能力

  6. 有广泛的TMT领域人脉资源、有甲方市场部工作经验优先考虑

  7. 有媒体广告部、市场部,top20公关公司市场拓展部经验者优先

新智元欢迎有志之士前来面试,更多招聘岗位请访问新智元公众号。


内容转载自公众号


微软研究院AI头条

了解更多

责任编辑:丁广胜_NT1941

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
医疗投诉再引热议:因为开了13元的检查单,患者投诉,医生停职……

医疗投诉再引热议:因为开了13元的检查单,患者投诉,医生停职……

华医网
2026-02-22 05:42:18
3连败崩盘!愤怒刷屏,张本智和为何彻底翻车?

3连败崩盘!愤怒刷屏,张本智和为何彻底翻车?

卿子书
2026-02-22 09:28:07
俄乌打了三年,打穷了三个国家,富了三个国家,中国也在其中

俄乌打了三年,打穷了三个国家,富了三个国家,中国也在其中

青烟小先生
2026-02-19 19:14:06
“先打四角酒来”,在宋代四角酒是多少斤?不得不佩服古人的酒量

“先打四角酒来”,在宋代四角酒是多少斤?不得不佩服古人的酒量

老踝是个手艺人
2026-02-13 14:28:19
《科学》:ChatGPT 在粒子物理学领域提出了令人惊讶的见解

《科学》:ChatGPT 在粒子物理学领域提出了令人惊讶的见解

Thurman在昆明
2026-02-21 19:20:21
泽连斯基肉眼可见地衰老!尊严革命12周年,“金雕”是真正的国贼

泽连斯基肉眼可见地衰老!尊严革命12周年,“金雕”是真正的国贼

鹰眼Defence
2026-02-21 17:33:54
斯诺克最新战报!赵心童母球摔袋成全场转折点,名将5-4夺赛点!

斯诺克最新战报!赵心童母球摔袋成全场转折点,名将5-4夺赛点!

刘姚尧的文字城堡
2026-02-22 06:24:47
1975年毛主席与儿女见面时,江青提议让李讷暂任北京市委书记,最终结果怎样?

1975年毛主席与儿女见面时,江青提议让李讷暂任北京市委书记,最终结果怎样?

寄史言志
2026-01-20 13:57:07
中甲太激烈!陕西与南通已超去年中超多队身价:10队冲超!

中甲太激烈!陕西与南通已超去年中超多队身价:10队冲超!

邱泽云
2026-02-21 19:17:14
一场2-0!让AC米兰绝望:国米14轮13胜+领先10分,意甲争冠无悬念

一场2-0!让AC米兰绝望:国米14轮13胜+领先10分,意甲争冠无悬念

体育知多少
2026-02-22 08:09:57
中国捡钱时代来临:10万元死守两条投资线

中国捡钱时代来临:10万元死守两条投资线

倔强旳牵强
2026-02-07 09:14:11
男子拿错快递,把白糖当底沙倒进鱼缸!网友:鱼要崩溃了……

男子拿错快递,把白糖当底沙倒进鱼缸!网友:鱼要崩溃了……

环球网资讯
2026-02-21 16:00:42
59岁于文华现状:与丈夫住河北农村,穿着朴素赶大集,爱田园生活

59岁于文华现状:与丈夫住河北农村,穿着朴素赶大集,爱田园生活

银河史记
2026-02-20 23:33:34
深圳重挖110米垃圾山,把欧美看呆了:中国已经陷入“垃圾荒”了

深圳重挖110米垃圾山,把欧美看呆了:中国已经陷入“垃圾荒”了

墨兰史书
2026-01-29 05:35:03
开始恐惧!全国统一的“春节噩梦”来了,网友:从初一吃到十五

开始恐惧!全国统一的“春节噩梦”来了,网友:从初一吃到十五

吃货的分享
2026-02-18 23:03:04
又11投9中!此人这样打下去,霍华德的NBA纪录不保了

又11投9中!此人这样打下去,霍华德的NBA纪录不保了

篮球大视野
2026-02-21 15:49:34
顾顺章叛变,导致千名同志被害,为何到死也没提“一号机密”?

顾顺章叛变,导致千名同志被害,为何到死也没提“一号机密”?

雍亲王府
2026-02-21 10:45:05
法国艺术圈地震!芭蕾女神、哲学少女,都被钢琴家送给了爱泼斯坦!

法国艺术圈地震!芭蕾女神、哲学少女,都被钢琴家送给了爱泼斯坦!

新欧洲
2026-02-18 19:44:34
谷爱凌冲金赛恐取消?若暴雪持续,U池决赛或取消改为直接颁奖

谷爱凌冲金赛恐取消?若暴雪持续,U池决赛或取消改为直接颁奖

林子说事
2026-02-22 10:38:54
警方通报平顶山打人事件:打人者被采取刑事强制措施

警方通报平顶山打人事件:打人者被采取刑事强制措施

界面新闻
2026-02-21 13:34:19
2026-02-22 12:04:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14567文章数 66631关注度
往期回顾 全部

头条要闻

特朗普:将确定并公布新的、在法律上允许的关税措施

头条要闻

特朗普:将确定并公布新的、在法律上允许的关税措施

体育要闻

徐梦桃:这是我第一块铜牌 给我换个吉祥物

娱乐要闻

裴世矩养侄为刃 看懂两次放行裴行俨!

财经要闻

特朗普新加征关税税率从10%提升至15%

科技要闻

马斯克:星舰每年将发射超过10000颗卫星

汽车要闻

续航1810km!smart精灵#6 EHD超级电混2026年上市

态度原创

教育
旅游
手机
公开课
军事航空

教育要闻

“只有穷人,才这样教育子女!”家长让孩子给外卖员送水,被群嘲

旅游要闻

新春随手拍 | 非遗焕彩拉动文旅消费

手机要闻

小米最受欢迎的是哪个档次机型,这个数据有点意思

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

硬核揭秘!福建舰“一马当先”底气何在

无障碍浏览 进入关怀版