作者|吴思梦
编辑|岑峰
引言:
2016年6月,纽约。David Silver站到了ICML的讲台上,用66页幻灯片,从Q-Learning一路推到AlphaGo。他传递出一种信念:把深度网络嫁接到强化学习上,通用智能的涌现就只是算力和工程问题。彼时距AlphaGo在首尔4∶1击败李世石仅三个月。
十年后的2025年7月,温哥华。Anca Dragan——Google DeepMind Gemini后训练的联合负责人,在现场播放了一段视频:一个机器人机械臂举起杯子,太高了。一只手伸进画面把它压下来。手松开。机器人又举上去了。“不是机器人笨,”她说,“是奖励函数在逼它做它认为‘正确’的事。只是我们定义的‘正确’和人类想的‘正确’,根本不在一个频道上。”
从Silver到Dragan,作为机器学习领域历史最悠久的顶级会议,ICML历经十年变迁,每年的重磅演讲都像是一粒时间胶囊。它们记录的不仅是算法的迭代,更是整个学科对“什么才是真正的问题”的思想倒带。AI科技评论对10年演讲精华进行打捞,发现一条清晰的行业轨迹:AI从盲目相信算法能摆平一切,走向了对“解决”本身的自我质疑;从把目标函数当成从天而降的既定真理,到终于撞向了最核心的现实——谁在写规则、为了谁的利益、又付出了谁的代价。
技术高举十年后,行业兜兜转转,最终回到了问题的起点:人本身。
以下,是这十年的十个声音。
一、2016·纽约——David Silver:深度强化学习的黎明
2016年6月19日,ICML在纽约召开。三个月前,AlphaGo刚在首尔以4:1击败李世石。这场比赛在亚洲的收视人数超过2.8亿。David Silver——AlphaGo的首席架构师,在ICML上讲“Deep Reinforcement Learning”时,整个会场人满为患,Silver在ICML讲台上展示的,是这台机器背后的全部数学。
![]()
视频链接:https://videolectures.net/videos/rldm2015_silver_reinforcement_learning
David Silver的演讲本质上是一张路线图。从Q-Learning到Policy Gradient,从Actor-Critic到Experience Replay,再到AlphaGo的蒙特卡洛树搜索与深度价值网络的融合。66页幻灯片干净利落,核心逻辑像数学定理一样清晰:深度网络负责“看”,强化学习负责“决策”,合在一起就是一个通用问题求解器。
他传递的核心观点是,如果奖励函数定义得足够好,强化学习就能在任何任务上超越人类。他在讲台上展示了AlphaGo的技术架构,他认为,智能的本质是最大化累积奖励。棋盘上的“赢”是无需质疑的目标,物理世界中的一切问题,诸如自动驾驶、机器人控制、蛋白质折叠等都可以被归约为同一形式。
今天回看,当年AlphaGo聚光灯下的胜利也让公众和资本产生了一种错觉:既然AI能在围棋中击败人类,那么解决一切也只是算力和工程问题。
二、2017·悉尼——Sylvain Gelly & David Silver:一个精准兑现的十年赌约
2017年的ICML Test of Time Award颁给了Gelly、Silver等人在2007年发表的一篇论文。这篇论文做了一件事:把在线知识(MCTS的树搜索)和离线知识(从经验中学习的价值函数)融合进围棋AI——这正是AlphaGo的底层逻辑。
![]()
视频链接:https://youtu.be/Bm7zah_LrmE?si=-AGa7qCGW5niOY2H
Gelly在悉尼展示了一张表格:从2007年到2017年,计算机围棋的Elo等级分从1800涨到了4500。一条光滑的上升曲线。他讲了一个私人故事:十年前他和同事打赌——十年内,计算机围棋能打败人类职业棋手。对方不信。2016年AlphaGo击败李世石,提前一年兑现。
Gelly还讲了一个他自己验证的悖论:更强的策略网络反而让Rollout表现更差,因为好策略把搜索剪窄了——局部做得越好,全局越容易错过。这条隐喻,即将在后续的年份里被反复应验。
但站在今天看2017年,最意味深长的不是台上的赌约。ICML开幕前两个月,一篇题为“Attention is All You Need”的论文挂上了arXiv。论文提出了一个在后来影响深远的观点路径——Transformer。那年NIPS、ICML和ICLR加起来有超过3000篇论文,“Attention is All You Need”只是其中之一,甚至不算最受关注的那篇。当时几乎没有人意识到它意味着什么。而在同一年7月,中国国务院印发了《新一代人工智能发展规划》,AlphaGo的余烬未消,但人工智能的宏观图景已经开始靠近。
三、2018·斯德哥尔摩——Dawn Song:深度学习是一座沙堡
2018年的ICML是在一股寒流中召开的。四个月前,剑桥分析获取8700万Facebook用户数据的丑闻曝光。
Dawn Song在斯德哥尔摩的讲台上没有谈剑桥分析,她谈的是更基础、也更令人不安的东西:深度学习系统在结构上是脆弱的。
![]()
视频链接:https://slideslive.com/38922550/invited-talk-ai-security-challenges-lessongs-future-directions?ref=search-presentations
她展示了一张熊猫图片——加上精心构造的噪声后,被模型识别为“长臂猿”。以及如何用查询API的方式偷走一个商业化图像分类模型:不需要侵入服务器,不需要偷代码,只需要发送足够多的请求并观察输出。也展示了训练阶段植入后门的可能性:给路牌贴几张特制的贴纸,自动驾驶汽车会把停车标志误读为限速标志。也就是说,你花了十年搭建的、在ImageNet上超越人类准确率的模型,根本上经不起一次有针对性的攻击。
Dawn Song认为,这个领域在能力上的进步和在对脆弱性认知上的滞后之间,存在一个不断扩大的剪刀差。你越急着把模型部署到现实世界,如自动驾驶、人脸识别、医疗诊断——这个剪刀差就越危险。从2025年往回看,Song的演讲是一个预言。她没有预见到对抗攻击会演变成Prompt Injection,没有预见到模型窃取会变成用DeepSeek蒸馏OpenAI的模型。她预见的是更深层的东西:这个领域所建立的一切都是基于脆弱的地基。
四、2019·长滩——Alison Gopnik:那个说“大模型不是智能”的心理学家
2019年的AI界被一件事围绕:OpenAI发布GPT-2后宣布“太危险,不能全部公开”。支持者说是负责任的克制,反对者说是危险的安全化表演。同一个月,有人员研究发现,亚马逊面部识别对深色皮肤女性的错误率比浅色皮肤男性高31%。Deepfake开始泛滥。此时ICML的讲台上,站着一个“局外人”。
Alison Gopnik,伯克利的发展心理学家,职业生涯中主要研究儿童怎么学习。她跟深度学习唯一的交集是她丈夫——Alvy Ray Smith,计算机图形学先驱,Pixar的联合创始人之一。
ICML为什么要请她做Keynote?或许可以嗅到一种可能,这个领域开始觉察到,并逐渐怀疑自己建造的“智能”根本不像智能,但不知道不像在哪里。 于是不得不坐下来,去听一位研究“婴儿是如何理解世界”的学者,给他们上一堂关于真正智能的启蒙课。
![]()
视频链接:https://www.youtube.com/watch?v=53sQCXi5HPw
Gopnik的演讲标题是《What Four-year-olds Can Do and AI Can’t (Yet) 》。她说,大语言模型不是“智能体”(agent),是“文化技术”(cultural technology)。像写作、印刷术、图书馆一样,是一种让个体获取其他人类积累的知识的工具。“你问‘GPT比我知道得更多吗’——这个问题本身就是错的。图书馆比我知道得更多吗?图书馆不是一个人。”
然后她调出了更锋利的对比。儿童做的是“真相发现”(truth-seeking)。两岁小孩会自己设计因果实验:挖沙子观察怎么塌、把水倒在不同杯子里、反复扔勺子确认重力不是随机事件。“ChatGPT不是产生幻觉,它只是不在乎真假。它的目标函数里没有这个维度。”这句话在2019年听起来像哲学评论。
2023年,当ChatGPT捏造法庭判例导致律师被处罚,当它给一位澳大利亚市长凭空编造了一桩贿赂罪,Gopnik在2019年看穿的观点突然变得掷地有声。
五、2020·线上——Brenna Argall:当算法进入人的身体,谁在适应谁
2020年7月,ICML本该在维也纳召开,最终变成了一个Zoom会议,会议有10800人次观看,来自75个国家。COVID让“远程”“辅助”“自动化”变成了几亿人的共同体验。Brenna Argall的Keynote主题是《Human and Machine Learning for Assistive Autonomy》(辅助自主的人类和机器学习)。
Argall是西北大学Assistive & Restorative Technology Lab的负责人。她的实验室名字本身就是声明:技术是来辅助和恢复人的能力的,不是来替代的。但她的问题不是“如何造更好的轮椅”,而是:当机器和人共享控制权时,谁在适应谁?
![]()
视频链接:https://slideslive.com/38930518/human-and-machine-learning-for-assistive-autonomy
传统辅助技术的逻辑是“机器决策,人接受”——自动化程度越高,人需要做的事越少。Argall把这个逻辑翻转过来:真正的辅助自主,不是让机器替人做更多决定,而是让人保持对自己身体和行动的掌控权。她展示了实验室开发的各种共享控制策略:在某些场景下,机器提供物理支持但人保持决策权;在另一些场景下,机器主动预判人的意图但保留被推翻的通道。她甚至用量化方法测量了不同自动化水平下用户的“感知控制感”(perceived control),把权力分配变成了一个可优化的变量。
她的核心论点涉及到分配正义问题:“每一个自动化决策,都意味着收回人的一部分能动性。辅助自主的核心不是技术问题——是权力如何在人和机器之间分配的问题。”2020年,当全世界被迫依赖远程技术和自动化系统时,Argall的追问有着远超轮椅和辅助机器人的穿透力:你正在设计的自动化系统,是在增强人的能力,还是在悄悄剥夺人的选择?
六、2021·线上——Daphne Koller:AI制药的数据贫困
2021年,mRNA疫苗正在拯救生命,AlphaFold 2解决了困扰生物学半个世纪的蛋白质结构预测问题。整个AI领域的目光转向AI for Science。Daphne Koller——斯坦福传奇教授、Coursera联合创始人、AI制药公司insitro的CEO,把镜头从分子结构转向了整个制药业的基础设施。她演讲的主题是《Transforming Drug Discovery using Digital Biology 》(利用数字生物学变革新药研发)。
![]()
视频链接:https://slideslive.com/38959976/transforming-drug-discovery-using-digital-biology?ref=search-presentations
传统药物开发:平均10年、26亿美元、90%失败率。Koller的目标是从靶点发现到临床试验预测做全链路数字化再造。但她的演讲花了大量时间讲一个出人意料的问题:不是算法有多难,是数据有多难。
“ImageNet已经做到百万级精确标注,”她说,“制药业最关键的细胞表型数据还停留在手工显微镜观察。”几十年的湿实验数据,格式互不兼容,元数据缺失,“有些还在纸质实验记录本上。”她展示了insitro的解决方案:用自动化湿实验室生成大规模、标准化、带有完整元数据的细胞数据,再在上面训练机器学习模型。她认为,机器学习的工具箱已经足够好了,但制药业的数据基础设施还停留在前数字化时代。这意味着,在AI for Science最激动人心的战场上,最急迫的瓶颈不是模型架构创新,而是数据的标准化和生产化。
当整个行业都在追逐更大的模型和更多的算力时,她提醒所有走在科技前沿的人:在真正复杂的领域,那些事关生命的领域,数据贫困仍然是比算法瓶颈更根本的约束。
七、2022·巴尔的摩——Regina Barzilay:我们是否在解决正确的问题
2022年7月,ICML在巴尔的摩恢复线下——两年虚拟会议后的第一次实体集结。Regina Barzilay站到讲台上。她是MIT CSAIL的教授,2017年从乳腺癌中幸存后把自己的研究转向了AI+医疗。
![]()
视频链接:https://icml.cc/virtual/2022/invited-talk/18429
她演讲的主题是《Solving the Right Problems: Making ML Models Relevant to Healthcare and the Life Sciences》(解决正确的问题:让机器学习模型与医疗和生命科学相关)。她回顾了自己1997年参加第一个NLP会议时的场景——全场两三百人,“大部分在做基于规则的系统”。二十年后,神经方法横扫一切。但她问了一个不在议程上的问题:这二十年里,多少论文解决的是最终被证明不相关的问题?
她的例子来自医疗:大量机器学习论文优化医院再入院率预测,这是一个被Medicare公开追踪、数据干净漂亮的指标。但在临床现实中,再入院率和医疗质量的相关性远比想象的低。一堆论文在优化一个和真实世界“相关”但远不等于真实世界的代理变量。“我们非常擅长在别人定义的问题上跑分。定义正确的问题,才是最难的部分。”
这场演讲的日期是2022年7月。四个月后,ChatGPT发布。Barzilay在台上问“我们是否在解决正确的问题”,她指的是医疗AI中的评价指标错位。但在不久的未来,这个问题即将变成对整个领域的提问。
八、2023,檀香山——Marzyeh Ghassemi:健康标签里的结构性暴力
2023年7月,ICML在檀香山。这一年中,ChatGPT发布六个月后GPT-4已经上线。
Marzyeh Ghassemi——多伦多大学和MIT教授,Healthy ML Lab负责人,她的Keynote和所有这些宏大叙事保持了距离,演讲主题是《Taking the Pulse Of Ethical ML in Health 》(测量医疗中伦理机器学习的脉搏)。她放了一张胸部X光片。
![]()
视频链接:https://icml.cc/virtual/2023/invited-talk/21544
她的实验室用700万张胸部X光片训练了一个模型,要判断病人是否“健康到可以回家”。准确率很高,State-of-the-art。然后她问:能部署吗?答案是不能。因为在训练数据里,“健康”这个标签的分布是不均等的。有色人种患者更少被标记为“无异常”——不是因为他们客观上更不健康,而是因为他们来急诊室的时候通常已经病得更重。
这是几十年的结构性不平等在数据中的投影。如果模型被部署,它会系统性地把更多数族裔患者留在急诊室——而医生们甚至不会意识到这件事在发生,因为模型在验证集上表现得“很好”。
值得注意的是,同一次会议上,OpenAI的John Schulman正在讲“RLHF中的代理目标”。一个讲大模型对齐,一个讲医疗模型不对齐。后者更不性感,但却关乎现实的生命伦理。Ghassemi的演讲揭示了一个残酷的事实:在某些场景下,你连用来训练“正确”标签的数据都是错的。不是模型本身的问题,是数据里的历史已经替你做了道德选择。
九、2024·维也纳——Soumith Chintala:开源不是慈善,是战略
2024年,ICML终于回到维也纳,距原定在此召开的2020年已过去四年。Soumith Chintala——PyTorch的缔造者、Meta的VP,登台了。
![]()
视频链接:https://icml.cc/virtual/2024/invited-talk/35249
他的演讲开场就拆了一个流行的叙事:开源不是在做好事。“让你的互补品大众化”(Commoditize your complement)他引用了这句著名的商业格言。如果开源对你的竞争对手的伤害远大于对你的伤害,那就开源它。这不是道德,是利益计算。
他用六个角色画出了开源争议中的利益格局:学者缺算力却不满闭源厂商的访问限制;大公司怕担责又想蹭开源创新;AGI创业公司急着在钱烧完前做突破;垂直AI创业者不在乎开源反正领域窄;Reddit黑客想以崇高之名行破坏之实;普通人只想安静用产品。每一方都在跑自己的多目标优化函数。
他的关键判断是关于AGI时间线的:“如果你觉得AGI两年内就会来,你对开放的态度自然会不一样。”关于“智能何时到来”的假设,本身就是一个被忽视的意识形态变量,它直接决定了你关于“该做什么”的全部立场。Soumith的结论是“我毫无歉意地站在开放一边”,理由不是道德优越感,而是他相信AGI还很远,开放能加速一切。在充斥着崇高话语和末日修辞的AI讨论里,有人承认自己的选择源于一个可以被质疑的假设——这本身就构成了一种诚实。
十、2025·温哥华——Anca Dragan:奖励函数究竟是谁写的
Anca Dragan的演讲标题是《What to optimize for – from robot arms to frontier AI 》(该优化什么——从机器人手臂到前沿AI)。她没有给出一个答案。她给出的是一套分类法,将过去十年所有被忽视的追问收束为一个框架。
![]()
视频链接:https://icml.cc/virtual/2025/invited-talk/39874
她把AI在目标上的失败归为三类。
第一类:人类反馈中的系统性偏差——标注者会无意识地偏好某种表达方式、某种政治立场,模型学会的不是“好”而是“标注者认为好”。Gopnik在2019年说“它不在乎真假”,但如果标注者也不知道什么是真的,你拿什么来训练“在乎”?
第二类:覆盖缺口——模型在训练中没有见过的场景,它的行为不可预测。Dawn Song在2018年展示的对抗样本,本质上就是覆盖缺口的武器化利用。你的“奖励函数”还是你的吗?
第三类:LLM评判者的脆弱性——当你用一个模型去评判另一个模型的输出时,你引入了一个新的、同样不透明的优化目标。Soumith在维也纳说“没有好用的评测指标”,正是这个问题的另一种表述。
Dragan把这些失败放在贝叶斯逆向强化学习的框架下做了一个统一的阐释。但她演讲的真正力量不在技术细节,而在于她把过去十年ICML讲台上每一个孤立的追问——Silver对能力的信念、Gopnik对“智能”定义的质疑、Argall对权力分配的追问、Ghassemi对数据正义的揭露等等连成了一个完整的图景。
她用一个不断把杯子举过头顶的机器人机械臂,给出了结论:优化的目标不是给定的,它需要被发现、被协商、被持续修正。而最大的危险不是还没找到正确答案,而是在现阶段以为自己已经找到了。
结语
十年前,ICML的会场里回荡着同一个野心:“我们还能让算法做到什么?”
十年后,这个问题被错综复杂的现实撞击,变成了更沉重的拷问:“我们究竟该让机器做什么?为谁而做?由谁来定义规则?”
更准确地说,“以什么为代价,由谁来承担后果?”
这十年的Keynote串在一起,构成了一条隐秘的思想史线索:从技术乐观主义到安全觉醒,从“模型能做什么”到“模型该做什么”,从把人类当作一个可以被建模的噪声源到把人类当作必须被纳入循环的道德主体。智能从来不是一个技术概念,它是一个关于“什么值得做”的、根本上是人的问题。
文章开头那部视频里、那个不断把杯子举过头顶的机器人,其实就是过去十年AI行业的绝佳隐喻。算法在它自己完美的数学逻辑里运转得毫无瑕疵,却在真实的人类世界里显得如此执拗和笨拙。
在全行业真正弄清楚“人类的正确”到底是什么之前,那只机械臂,或许会在时间维度中,将杯子反复举起。
一个人读论文太孤单,一群人刷顶会才好玩。
ICML 2026 召开在即,雷峰网正在召集一波含金量极高的 AI 研究者。群内主打实时论文跟踪与硬核技术探讨,拒绝灌水。
? 进群传送门: 扫码进群或添加微信Vin_Vivid,备注:论文群 + 关注的 AI 方向。
![]()
搞科研/搞技术,信息差很重要。来,一起快人一步!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.