网易首页 > 网易号 > 正文 申请入驻

港科大教授权龙:为什么三维重建才是计算机视觉的灵魂? 对话

0
分享至

  
作者 |微软亚洲研究院

  转载自微软研究院AI头条(ID: MSRAsia)

  编者按:在“全民计算机视觉”的今天,其发展历程却鲜少有人追溯。梳理研究的过去将能让我们更好地探索未来。权龙教授为我们介绍了三维重建的历史发展与应用前景,也为大家在研究学习、职业选择等方面给出了一些实用建议。

  //

  对 话 嘉 宾

  权龙

  香港科技大学计算机科学与工程系教授

  三维重建平台Altizure公司创始人

  ICCV 2011、CVPR 2022主席

  IEEE Fellow

  主 持 人

  王井东

  微软亚洲研究院资深研究员

  ACM杰出会员

  国际模式识别(IAPR)学会会士

  //

  王井东:您的主要研究方向是三维重建,它的发展现状和应用前景如何,您为什么看好它?

  权龙:说三维重建首先要从计算机视觉讲起。计算机视觉包含两个基本方向,物体识别和三维重建。图像识别的突破性进展源自于2012年卷积神经网络(CNN)的兴起。在此之前,计算机视觉的核心研究方向是三维重建。因为在当时,对于图像的特征提取主要是通过三维重建的方法来定义和实现的。自2012年以来,图像的特征便逐渐由神经网络来自动学习。

  三维重建的应用是很广泛的,对于自动驾驶、VR、AR等应用领域应用来讲,三维重建是核心技术,并且实时三维重建是必然趋势,因为我们生活在三维空间里,必须将虚拟世界恢复到三维,我们才可以和环境进行交互。所以仅仅研究识别肯定是不够的,计算机视觉下一步必须走向三维重建,并且把三维重建和识别融为一体。

  古建筑修复与重建是三维重建的一个具有代表性的应用,比如近期被烧毁的巴黎圣母院,如果通过三维模型(https://www.altizure.cn/project-model?pid=57f8d9bbe73f6760f10e916a)进行数字重建,应该能够达到原汁原味还原其真实面貌的目的。目前在我们的三维重建项目中,名胜古迹的三维电子存档是很重要的一部分。从表面上看,三维重建似乎没有自动驾驶那么复杂,其实它比自动驾驶更难,因为自动驾驶的三维感知是给车识别,而VR、AR中的三维重建场景是提供给人类感知的,所以对三维重建的结果要求非常高。总体来讲,三维重建是计算机视觉的灵魂。

  权龙教授(左)和王井东博士(右)合影

  王井东:三维重建在计算机视觉中确实非常重要,您可以带大家回顾一下计算机视觉和三维重建的发展历程吗?

  权龙:1987年在伦敦举办的第一届国际计算机视觉大会ICCV可以作为现代计算机视觉研究的一个开端。之前很多人认为做图像处理就是计算机视觉,其实是二者是有区别的。

  计算机视觉的目标是对图像进行理解。准确来讲,计算机无法做到“理解”,只能做到“认知”。我们的研究目的是从图像中获取视觉特征,有了视觉特征才能开展一系列的工作。因此回顾计算机视觉的发展历程,根据算力条件的不同,我们可以看到一个特征提取的演化过程。

  80年代,人人都在做以edge为主的边缘提取,有了edge之后,再把它高层化后的线段元做简单的统计分类或者三维重建。Edge在数学上很容易定义,在定义了很多优化准则后,到1986年John Canny提出了Canny edge detection之后,这个研究方向就到头了。

  90年代,人们对三维重建愈加重视,当时欧洲比美国要领先。几何也追求特征提取,但一维的edge不适合几何计算,几何最本质的元素是点,所以很多工作开始围绕点的特征去展开,对点的特征进行描述,然后就可以把很多东西变成矢量的无序集合,再做统计。三维重建的终极目标是用非标定相机(uncalibrated camera)进行重建。

  1992年,Oliver Faugeras和Richard Hartley各自独立地解决了非标定相机两张图像下的三维重建问题,引入了基于七点算法的基础矩阵(Fundamental Matrix)概念,这标志着三维视觉的崛起。

  1994年,我提出了六点算法(Invariants of six points and projective reconstruction from three uncalibrated images),解决了非标定相机三张图像下的三维重建,进而在理论上彻底解决了多视重建的几何问题(multi-view geometry)。这两项工作共同奠定了三维重建的理论基础,对计算机视觉的发展起到了决定性的作用。

  到了2012年,卷积神经网络(CNN)的出现对于特征提取和图像识别都是一个颠覆性的飞跃,从而触发了新一波人工智能高速发展的浪潮。事实上,卷积神经网络在1989年就应用于图像识别问题,它是今天所有卷积神经网络的鼻祖模型。

  从诞生到2012年的十几年之间,发生变化的并非卷积神经网络的架构,而是:(一)GPU的出现提升了计算力;(二)斯坦福大学教授李飞飞创建的ImageNet,她把上百万张照片发到网络上进行标注。这两件事促成了卷积神经网络在2012年的复活。CNN的本质其实是两点,第一点是提取特征,第二点是标准分类器。所以本质上还是提取特征,只不过特征的表达能力比之前的手工定义要高得多。

  所以从特征提取这条线索上看,虽然目前计算机视觉看似处于一轮新的热潮,但事实上一直以来大家都在做同样的事情,只不过在不同的阶段,提取的特征和采用的方式有所不同。

  王井东:现在主流的计算机视觉研究主要集中在欧洲、美国和中国。您认为这三者的发展现状和未来将如何?

  权龙:确实是三足鼎立。上个世纪八九十年代,欧洲的计算机视觉发展迅速,研究人员在一定意义上把计算机视觉当作一个应用数学的问题。三维重建需要大量传统数学知识,这批研究人员都有非常好的应用数学基础,那就用数学工具去解决这些视觉问题。

  同期,美国计算机视觉的研究人员也非常活跃,但主要集中在应用领域,研究方向并不是非常清晰。随着2012年这一波由卷积神经网络引发的人工智能的再次崛起,美国在应用方面突飞猛进,欧洲依然保持扎实的基础研究的风格。后起之秀就是中国了,飞速发展的经济和创新气氛使得计算机视觉的研究和商业应用在极短的时间内快速发展起来了。

  王井东:您不仅在计算机视觉的研究上一如既往,也创立了专注三维重建的公司Altizure,那么关于学术和产业的选择,您能为同学们分享一些经验和建议吗?

  权龙:每个人都有不同的理想和发展方向,有的人可能更适合做应用,有的人更适合做学术研究,这是因人而异的。没必要每个人都要去做科研当教授,也没必要每个人都去创业,只要能发挥自己的特长,选择哪一条路都是非常好的。在这个多元化的社会,大家都在从不同的角度推进科技的进步。

  王井东:当时是什么促使您从学术界“跨界”进入产业界?

  权龙:很简单,我一直在研究计算机视觉三维重建,以前的结果还不成熟,而到了某一个时机它终于能投入应用了,那我们当然要做应用,这是研究的最高境界。研究就是这样,可能在很长时间里效果都不够理想,那我们就要继续研究,但当它有了用武之地时,我觉得投入实践是顺理成章的。

  王井东:您认为一个计算机视觉方向的学生应该学好哪些知识,才能做更好的研究?

  权龙:我对所有的人的建议是,打好应用数学和计算机的功底。应用数学是理论基础,计算机是实现手段,两方面的能力缺一不可。我不太赞同大学开设人工智能专业的做法,其实人工智能在一定意义上就是应用数学,尤其是卷积神经网络,本质上是数学优化和统计,你要有很好的应用数学功底。

  王井东:很多人说深度学习和计算机视觉到了瓶颈期,您认为目前最大的问题是什么?您最期待的突破又在哪里?

  权龙:“瓶颈期”不是一个合适的词汇。因为它本质上是一个应用科学,现在有了卷积神经网络这样强大的工具,所有的应用方向都可以重新去摸索。刚才讲到特征提取,提取完特征后去做具体的应用,很多东西是可以继续改进的,差别在于进步有多大。

  卷积神经网络的特征提取已经是一个很大的突破了,在这个基础之上,我想会有一系列新的应用出现。如果实在要说突破,那就是硬件和算力的突破。目前大热的自动驾驶领域将很大力度地推进算力的发展,VR、AR也是同样。有朝一日,如果算力能够有一个显著的突破性进展,很多无法想象的事情将会发生。

  (*本文为 AI科技大本营转载文章,转载请联系原作者)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
三胎生父被曝后,张柏芝案终于判了,结局大快人心,谢霆锋没说谎

三胎生父被曝后,张柏芝案终于判了,结局大快人心,谢霆锋没说谎

借你一生
2026-06-21 20:48:08
破纪录夺冠!全国游泳冠军赛:张雨霏50蝶摘金+夺个人第3冠

破纪录夺冠!全国游泳冠军赛:张雨霏50蝶摘金+夺个人第3冠

全景体育V
2026-06-21 19:20:53
陪玩陪睡只是皮毛!继关晓彤后,向佐再曝“猛料”,谢娜也没逃过

陪玩陪睡只是皮毛!继关晓彤后,向佐再曝“猛料”,谢娜也没逃过

趣文说娱
2026-06-21 23:14:56
丰台砸850亿干标志性项目|丽泽航站楼6月迎来封顶|速看进展

丰台砸850亿干标志性项目|丽泽航站楼6月迎来封顶|速看进展

右耳远闻
2026-06-21 17:28:26
梅洛尼终于爆发,“干了件美国盟友都不敢的事儿”

梅洛尼终于爆发,“干了件美国盟友都不敢的事儿”

观察者网
2026-06-21 15:32:28
正负值-10!男篮战胜澳大利亚,揪出最糟糕球员 他在场球队输10分

正负值-10!男篮战胜澳大利亚,揪出最糟糕球员 他在场球队输10分

小青年渌渌
2026-06-21 22:13:34
同为省级广电一把手,为何一位任市委书记、另一位任市长?

同为省级广电一把手,为何一位任市委书记、另一位任市长?

兰亭墨未干
2026-06-22 00:05:53
数千人参加基辅自全面战争开始以来最大规模的游行

数千人参加基辅自全面战争开始以来最大规模的游行

桂系007
2026-06-21 23:56:15
梅洛尼:只要我还是总理,意大利军事基地的使用协议就不能被违反

梅洛尼:只要我还是总理,意大利军事基地的使用协议就不能被违反

别让往昔的悲伤和对未来的恐惧
2026-06-21 11:20:31
马斯克拿下7800亿元天价薪酬,2028年可兑现

马斯克拿下7800亿元天价薪酬,2028年可兑现

界面新闻
2026-06-21 07:43:48
发现朋友的孩子是唐氏儿,我该开口吗?网友的回答吸引上万共鸣!

发现朋友的孩子是唐氏儿,我该开口吗?网友的回答吸引上万共鸣!

夜深爱杂谈
2026-06-19 21:54:50
少出门!快关窗!刚刚,预警连发,湖北人提前准备

少出门!快关窗!刚刚,预警连发,湖北人提前准备

极目新闻
2026-06-21 17:28:33
特朗普突然宣布要再次访华,高市政府天塌了:中美正在联手做局!

特朗普突然宣布要再次访华,高市政府天塌了:中美正在联手做局!

不甜的李子
2026-06-22 00:10:59
娃哈哈换“姓”了!宗馥莉另立门户,为让三个私生子彻底翻不了身

娃哈哈换“姓”了!宗馥莉另立门户,为让三个私生子彻底翻不了身

天天热点见闻
2026-06-08 03:19:57
有一种讽刺,是将苦难包装成“正能量”

有一种讽刺,是将苦难包装成“正能量”

清书先生
2026-06-21 21:30:03
中国女排重回亚洲第一!以0.03分优势力压对手,日本队遭2连败

中国女排重回亚洲第一!以0.03分优势力压对手,日本队遭2连败

乒烧泳球
2026-06-21 21:29:41
把开了五年的燃油车卖了,换上纯电车,三个月后,我终于信了朋友

把开了五年的燃油车卖了,换上纯电车,三个月后,我终于信了朋友

三农老历
2026-06-18 02:52:03
帕公主葬礼极尽哀荣,泰王御赐奢华金棺,破格使用7层白伞

帕公主葬礼极尽哀荣,泰王御赐奢华金棺,破格使用7层白伞

红袖说事
2026-06-22 04:59:24
瑞典媒体:布罗贝像一块会奔跑的混凝土,脖子上肌肉300公斤

瑞典媒体:布罗贝像一块会奔跑的混凝土,脖子上肌肉300公斤

懂球帝
2026-06-21 10:54:11
正义来的太晚了!如今62岁已经退休的朱军,终于看到女方受到惩罚

正义来的太晚了!如今62岁已经退休的朱军,终于看到女方受到惩罚

青橘罐头
2026-06-03 09:45:45
2026-06-22 06:23:00
AI科技大本营 incentive-icons
AI科技大本营
连接AI技术的创造者和使用者
2725文章数 7704关注度
往期回顾 全部

科技要闻

马斯克拿下7800亿元天价薪酬 2028年可兑现

头条要闻

世界第10难求一胜!10人比利时0-0伊朗

头条要闻

世界第10难求一胜!10人比利时0-0伊朗

体育要闻

德国的超级替补,10年前还在工厂上班

娱乐要闻

原来她就是张颂文老婆

财经要闻

“床垫界的特斯拉”破产了

汽车要闻

惊出冷汗!重庆实测奥迪A5L,华为智驾这波操作绝了…

态度原创

本地
健康
亲子
教育
旅游

本地新闻

龙腾资江 韵动邵阳

吃粽子的3条保胃法则,消化科医生推荐

亲子要闻

儿童用药这三个误区家长一定要知道

教育要闻

现在英国读商科,最好就业的几个专业!

旅游要闻

云南十八怪湖泊称作海,滇池滇海叫法流传千年,根源不只是水面大

无障碍浏览 进入关怀版