网易首页 > 网易号 > 正文 申请入驻

何恺明NeurIPS 2025演讲盘点:视觉目标检测三十年

0
分享至



机器之心报道

机器之心编辑部

不久前,NeurIPS 2025 顺利举办,作为人工智能学术界的顶级会议之一,其中不乏学术界大佬的工作和演讲。

有一项荣誉的颁发显得格外厚重且众望所归 —— 由任少卿、何恺明、Ross Girshick 和孙剑合著的经典论文《Faster R-CNN》,摘得了「时间检验奖」 (Test of Time Award)

凡是接触过计算机视觉的人,对这个名字绝不陌生。自 2015 年发表以来,《Faster R-CNN》无疑成为了该领域最具里程碑意义的工作之一。它不仅一举奠定了现代目标检测框架的核心范式,更像是一座灯塔,深刻影响并指引了随后整整十年的视觉模型发展方向。



  • 论文地址:https://arxiv.org/pdf/1506.01497



作为这一历史性时刻的见证与总结,何恺明在大会上发表了题为《视觉目标检测简史》 (A Brief History of Visual Object Detection)的演讲。



何恺明演讲 PPT 已经公开,可以参阅以下链接:

https://people.csail.mit.edu/kaiming/neurips2025talk/neurips2025_fasterrcnn_kaiming.pdf

从何恺明的演讲内容来看,这不单是一个技术汇报,更像是一部计算机如何学会「看世界」的英雄史诗,总结了 30 年来视觉目标检测的发展历程。演讲中介绍的每一个工作,都获得了不同顶会的时间检验奖,对视觉智能的发展起到了决定性的作用。

你是否好奇:为什么现在的 AI 能在一瞬间识别出照片里的猫、狗、汽车甚至它们的位置,而在十几年前这却被认为是几乎不可能的任务?



让我们跟随大神的视角,穿越回那个「原始」的时代,看看这一路是如何走来的。

原始:手工打磨的「放大镜」

在深度学习爆发之前,计算机视觉科学家们更像是「工匠」。

人脸检测的早期尝试: 早在 90 年代,科学家们就开始尝试用神经网络和统计学方法找人脸:

  • 1996 年: Rowley 等人发表了《基于神经网络的人脸检测》(Neural Network-Based Face Detection) ,这是何恺明阅读的第一篇 CV 论文,利用早期的神经网络在图像金字塔上寻找面孔 。
  • 1997 年: Osuna 等人引入了支持向量机,发表了《用于人脸检测的 SVM》(SVM for Face Detection) ,试图在数据中画出一条完美的分类线。
  • 2001 年: 著名的Viola-Jones 框架(The Viola-Jones Framework) 横空出世。它通过简单的特征组合实现了极快的人脸检测,直到今天,很多老式相机的对焦功能还得感谢它。

特征工程的黄金时代: 既然「整张脸」难找,那就找「关键点」和「纹理」。随后的几年,特征描述符成为了主角:

  • 1999 年: Lowe 提出了SIFT,这种「尺度不变特征变换」能在旋转、缩放的情况下依然认出物体,是当年的绝对王者。
  • 2003 年: Sivic 和 Zisserman 借鉴文本搜索,提出了「视觉词袋模型」(Bag of Visual Words) ,把图片看作一堆「视觉单词」的集合。
  • 2005 年: Dalal 和 Triggs 发明了HOG(方向梯度直方图) ,专门用来描述行人的轮廓。同一年,Grauman 和 Darrell 提出了 「金字塔匹配核」 (Pyramid Match Kernel) ,用来比较两组特征的相似度。
  • 2006 年: Lazebnik 等人进一步提出了「空间金字塔匹配」(Spatial Pyramid Matching) ,解决了词袋模型丢失空间位置信息的问题。
  • 2008 年: 特征工程的集大成者DPM(Deformable Part Model) 登场。它把物体看作一个个可变形的部件(比如人的头、手、脚),像弹簧一样连接在一起。这是传统方法的巅峰。

痛点在哪里?特征是人设计的(Hand-crafted),分类器(比如 SVM)只能在这些有限的信息上工作 。这种方法不仅慢,而且很难适应复杂的场景。

破晓:AlexNet 与 R-CNN 的「暴力美学」

2012 年,AlexNet 横空出世,深度学习证明了它提取特征的能力远超人类手工设计 。但是,怎么用它来做目标检测呢?

深度学习的惊雷:2012 年,AlexNet (Krizhevsky et al.) 在 ImageNet 竞赛中以压倒性优势夺冠。它证明了深层卷积神经网络(CNN)提取特征的能力远超人类手工设计。



R-CNN:从分类到检测 但是,怎么用 CNN 做目标检测(框出物体位置)? 2014 年,Girshick 等人提出了划时代的 R-CNN (Region-based CNN) 。它的思路很直接:

  • 先用传统算法(Selective Search)在图上剪出约 2000 个「候选区域」 (Region Proposals)。
  • 把每个区域都扔进 CNN 提特征,再用 SVM 分类。

巅峰:Faster R-CNN 的「速度进化」

R-CNN 让每个候选框都过一遍 CNN,计算量巨大。科学家们开始思考如何复用计算。

  • 2014 年: 何恺明团队提出了SPP-Net(Spatial Pyramid Pooling) 。它引入了空间金字塔池化层,允许神经网络处理任意大小的图片,并且只算一次全图特征,大大加速了检测。
  • 2015 年: Girshick 借鉴 SPP-Net,推出了Fast R-CNN。它引入了 RoI Pooling,把特征提取和分类回归整合到了一个网络里,不仅快,还能端到端训练。



最终的瓶颈: 即便如此,候选框(Region Proposals)依然依赖那个笨重的传统算法(Selective Search),这成为了系统的速度瓶颈。



2015 年,Faster R-CNN 的诞生:何恺明团队提出了 RPN (Region Proposal Network) 。他们从 1991 年 LeCun 等人的 「空间位移神经网络」 (Space Displacement Net) 中获得灵感,让神经网络自己在特征图上「滑动」,通过预设的 Anchor (锚点) 来预测物体可能存在的位置。

至此,目标检测的所有环节 —— 提议、特征提取、分类、回归 —— 全部被神经网络接管,实现了真正的「端到端」实时检测。速度和精度双重飞跃,计算机视觉终于迈入了实时检测的时代。

迷雾后的新世界:Transformer 与万物

Faster R-CNN 开启了一个时代,但探索从未停止。演讲的后半部分,何恺明展示了技术的洪流如何继续奔涌:

既然要快,能不能连「候选框」这个步骤都不要了?

  • 2016 年:YOLO(You Only Look Once) 和SSD(Single Shot MultiBox Detector) 问世。它们像人类一眼看全图一样,直接输出所有物体的位置和类别,速度极快。
  • 2017 年: 为了解决单阶段检测精度低的问题(正负样本不平衡),何恺明团队提出了Focal Loss(RetinaNet) 。
  • 2017 年:Mask R-CNN惊艳亮相。它在 Faster R-CNN 的基础上加了一个分支,不仅能画框,还能像素级地把物体「抠」出来(实例分割),引入了 RoI Align 解决了像素对齐问题。
  • 2020 年:DETR(Detection Transformer) 将 Transformer 架构引入视觉。它完全抛弃了 Anchor 和复杂的后处理(NMS),用全局注意力机制重新定义了检测。
  • 2023 年:SAM(Segment Anything Model) 横空出世。它在大数据的喂养下,学会了「分割万物」,不再受限于特定的训练类别,展示了视觉大模型的雏形。



在这个「大航海时代」我们学到了什么?

我们在过去的几十年里学到了什么?

何恺明说:「Write object detection papers and win Test of Time Awards :)」(写目标检测论文然后拿到时间检验奖 :) )

演讲最后,他用一张 Nano-Banana 生成的非常有寓意的图作为结尾:一艘船驶向迷雾中的大海。



他说,科学探索就像是驶入迷雾

  • 这里没有预先画好的的地图。
  • 我们甚至不知道终点是否存在 。

从手工特征到 CNN,再到 Transformer,每一次飞跃都是探险者在迷雾中发现的新大陆。Faster R-CNN 不仅仅是一个算法,它教会了我们:当旧的组件成为瓶颈时,用更强大的可学习模型去取代它。

在下一个十年,计算机视觉的「圣杯」会是什么?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰公司对联已拆!一个月前注册近40枚“姩菡”商标,捐款千万

张雪峰公司对联已拆!一个月前注册近40枚“姩菡”商标,捐款千万

离离言几许
2026-03-25 15:07:06
张雪峰现任妻子遭扒,曝其去年再婚有儿子,年轻漂亮还很清纯

张雪峰现任妻子遭扒,曝其去年再婚有儿子,年轻漂亮还很清纯

古希腊掌管松饼的神
2026-03-25 14:28:44
以色列专打伊朗“镇压机器”,为巴列维王储势力铺路

以色列专打伊朗“镇压机器”,为巴列维王储势力铺路

老马拉车莫少装
2026-03-01 21:19:35
事情闹大了,日本内阁连发公告,中国的态度,告诉了世界一个事实

事情闹大了,日本内阁连发公告,中国的态度,告诉了世界一个事实

兰妮搞笑分享
2026-03-26 13:55:33
银行人员再次提醒:存款超过20万的储户,就不要再傻傻的存定期了

银行人员再次提醒:存款超过20万的储户,就不要再傻傻的存定期了

蓝色海边
2026-03-26 13:44:58
伊朗创造历史,美国难以置信!而一位神秘老人不得不提了!

伊朗创造历史,美国难以置信!而一位神秘老人不得不提了!

华人星光
2026-03-25 11:24:58
38.6万元起拍!南京一民国老四合院上架拍卖

38.6万元起拍!南京一民国老四合院上架拍卖

现代快报
2026-03-26 14:34:07
四川多所中学发布严正声明

四川多所中学发布严正声明

四川省教育厅
2026-03-26 10:57:12
张雪峰不是留几手的爹!?

张雪峰不是留几手的爹!?

八卦疯叔
2026-03-26 11:23:27
张雪峰医疗文件疑遭泄露?苏州市卫生健康委员会:已关注到此事并在处理

张雪峰医疗文件疑遭泄露?苏州市卫生健康委员会:已关注到此事并在处理

护理传真
2026-03-25 15:46:16
张雪峰猝然离世,11岁女儿张姩菡成最大牵挂:他铺完了路,却来不及陪她走

张雪峰猝然离世,11岁女儿张姩菡成最大牵挂:他铺完了路,却来不及陪她走

阿凯销售场
2026-03-26 15:48:07
今年首次超10米!中国第一大淡水湖水位大涨:修建水利有何好处?

今年首次超10米!中国第一大淡水湖水位大涨:修建水利有何好处?

阿凫爱吐槽
2026-03-26 15:54:03
黄天鹅两份角黄素检测声明数据从“本底水平”变为“无”,与打假团队步入诉讼阶段

黄天鹅两份角黄素检测声明数据从“本底水平”变为“无”,与打假团队步入诉讼阶段

新浪财经
2026-03-26 16:24:17
悲催!辽宁一200多斤男子饮酒时突发脑出血,8个月身孕妻子崩溃了

悲催!辽宁一200多斤男子饮酒时突发脑出血,8个月身孕妻子崩溃了

火山詩话
2026-03-26 13:34:59
特朗普:伊朗在谈判但不敢明说,其领导人怕被自己人干掉!伊外长:与美“交流信息” ,没谈判!美媒:万斯将前往巴基斯坦讨论停战

特朗普:伊朗在谈判但不敢明说,其领导人怕被自己人干掉!伊外长:与美“交流信息” ,没谈判!美媒:万斯将前往巴基斯坦讨论停战

每日经济新闻
2026-03-26 09:53:08
广东91岁老人让儿子保管900多万养老钱,儿媳去世前却将300多万分给自己姐姐,老人瞬间傻眼,法院:钱是保管不是赠与,全额返还

广东91岁老人让儿子保管900多万养老钱,儿媳去世前却将300多万分给自己姐姐,老人瞬间傻眼,法院:钱是保管不是赠与,全额返还

观威海
2026-03-18 22:11:07
针对中国的谋划落空,高市被安排“鸿门宴”,并对中日关系表态

针对中国的谋划落空,高市被安排“鸿门宴”,并对中日关系表态

袁周院长
2026-03-26 16:08:54
越打越贵的账单:俄罗斯的“红线”为什么消失了

越打越贵的账单:俄罗斯的“红线”为什么消失了

民间胡扯老哥
2026-03-24 07:16:00
七旬阿婆卖房助女还贷,反而无家可归?女儿喊冤:被她严重影响了生活

七旬阿婆卖房助女还贷,反而无家可归?女儿喊冤:被她严重影响了生活

福建第一帮帮团
2026-03-25 19:38:24
随着朝鲜1-1,泰国2-2,西安邀请赛积分榜出炉:中国男足排名第一

随着朝鲜1-1,泰国2-2,西安邀请赛积分榜出炉:中国男足排名第一

侧身凌空斩
2026-03-25 21:41:35
2026-03-26 17:00:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12606文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

房产
时尚
手机
艺术
军事航空

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

皮衣+裙,高级到炸

手机要闻

iPhone「自己打电话」是Bug!苹果终于承认了,怎么回事?

艺术要闻

哪一座桥不是风景?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版