小学时大家都抢着当班长或学习委员,他偏要当体育委员——"这样上体育课的时候就可以带大家一起玩"。十几年后,他成了清华"水木学者"博士后、CCF 优博。但当他坐进直播间分享自己的成长故事,他没讲方法论,也没讲论文——他讲长颈鹿的脖子为什么那么长,讲一滩水到底是什么形状,讲"为什么我成了现在的我"。
✍️文字整理 | Ellie文钦
本期「CCF 优博之路」邀请到的嘉宾是清华大学计算机系"水木学者"博士后国孟昊——博士毕业于清华大学计算机系,师从胡事民教授,研究方向涵盖人工智能、计算机视觉、计算机图形学。迄今已在 T-PAMI、ACM TOG、CVPR、SIGGRAPH 等国际顶级期刊及会议发表论文多篇,其中多篇以第一作者身份入选最佳论文、热点论文及高被引论文,谷歌学术引用累计超过 9000 次。曾获 CCF 优博、清华大学优博、"祖冲之奖"(人工智能前沿创新奖),入选首批国家自然科学基金青年学生基础研究项目(博士研究生)资助,并荣获清华大学特等奖学金、国家奖学金、字节跳动奖学金等多项荣誉,入选斯坦福大学全球前 2% 顶尖科学家榜单。
不同于以往嘉宾从宏观的科研路径切入,国孟昊这次选择了一个非常微观的切口——"环境"。从长颈鹿的脖子为什么那么长,到 AI 十几年来的三阶段协同进化,再到"把自己当作一个训练中的智能体",他用一条贯穿生物、技术与个人的主线,回答了一个所有研究生都绕不开的问题:成长究竟是被什么决定的?
这次直播他坦诚而具体:他承认自己从小并不喜欢学习——爸妈都是老师却对他比较放养,回家第一件事不是写作业而是抱起足球;他坦白选计算机和选计算机视觉都"挺阴差阳错的"——他本想报数学,却被同为数学老师的爸妈劝退;他认为现在的AI 竞争已经从拼模型能力转向了拼环境的构造能力,而对人类研究者而言,最重要的事情已经从工程实现变成了 Insight;最后他提醒所有人——“千万不要把自己转化成只剩下研究这么一件事情”。
️ 这是回顾内容。将门编辑部将 4 月 20 日直播提炼成文,保留核心精粹,希望这份深度整理能为每一位读者带来新的启迪。
嘉宾:国孟昊|清华大学计算机系"水木学者"博士后、CCF 优博
主持:郭春乐|南开大学副教授、博士生导师
常驻主持:李翔|南开大学
01 长颈鹿与水
很多我们以为是"自身属性"的东西,其实是环境塑造的结果
国孟昊:正式开始之前,先讲两个《十万个为什么》里的问题——长颈鹿的脖子为什么那么长?一滩水到底是什么形状?
这两个问题背后是一个非常本质的规律。长颈鹿的脖子并不是凭空就这么长的,而是在长期的生存环境中,为了获取更高处的叶子,被一点点塑造出来的。水也是一样——它本身没有固定的形状,它的形状取决于它所在的容器。
把这两个例子放在一起,可以得到一个直观的结论:很多时候我们认为是一些自身属性的东西,其实并不是自身属性,而是环境塑造的结果。
02|AI 进化三阶段
环境在演化,智能也在演化
国孟昊:从 2010 年到现在,深度学习这十几年的发展,从宏观来看其实就是环境与智能的协同进化。
![]()
第一阶段(2010—2020 左右)是封闭环境。我们事先给模型准备好一个数据集、一个任务定义、一个评价指标——比如 ImageNet、COCO、ADE20K——告诉模型你只需要把分类做好、把检测做好就够了。这个阶段的代表性工作是 ResNet、YOLO、Faster R-CNN 这类模型,它们单点能力很强,但泛化性差,一到开放世界就完蛋了。为什么?因为当时的环境就是这样的——预先定义的任务和数据集,导致演化出来的智能也只能是单任务的解题器。
第二阶段是 CLIP 之后的开放世界。从那个点开始,人们就不再关心"我在 ImageNet 上能从 85 跑到 90"这种问题,而是开始关注泛化性,出现了像 MMMU 这样把整个大学考试都拿出来让模型做的环境。这个阶段的代表是 GPT-4、Gemini、Qwen 这些大模型——它们不再完成单一任务,而是能统一地理解和回答各种问题。但这种方式还停留在"回答世界",而不是真正"进入世界"。
第三阶段是真实世界的任务。现在我们不再让模型做题,而是让它真正去完成任务——OS World、GUI 操作、Robotics。从 Question & Answer 变成了 Task & Action。这个阶段我们不关心模型中间过程懂没懂,只关心一件事:任务成功率。
我认为真正到了这个阶段,所谓的视觉智能才出现了它的端到端形态。从人的角度看,人的输出本质上就两类:一类是语言,另一类是动作。所以视觉的端到端智能必须落到动作上——你只要看到场景能把动作做对就够了。
03|AI 竞争已经从模型转向环境
谁能模拟更真实的环境,谁就更可能做出下一代更强的智能
国孟昊:从我的角度看,AI 发展到现在,核心挑战之一其实是环境的问题。模型参数已经非常大了,数据也挺多的,要让模型再进一步,需要的是更好的环境。
如果我们能把当前的物理世界完全模拟出来给 AI 训练,机器人是可以获得一次更大的发展的。所以现在的 AI 竞争,某种意义上已经从拼模型的能力转变成拼环境的构造能力。
举个例子——大厂洗数据,本质上就是在给大模型构造环境:你给它高质量的数据、高质量的环境,它就能学得更好。可以说,谁能模拟更真实的环境,谁就更可能做出下一代更强的智能。
![]()
04|训练你自己:先成为一个可训练的人
如果一个模型不可训练,那不就不能进步
国孟昊:讲了这么多 AI,其实人也是一样的。我们每个人都可以看成是在环境里训练我们自己——个人就是模型,你接触的人、所在平台、互联网上的知识就是训练语料,你追求的是论文、做系统、还是真实问题,就是你的损失函数。
所以有时候研究生发展得好不好,并不是因为模型大、所谓"我聪明",而是这个环境对不对、目标清不清楚、训练过程能不能持续。这件事在 AI 发展里也能看出来——模型架构和初始化参数其实没那么重要,最大的壁垒是数据是什么。
第一步是让自己成为一个可训练的人。可训练不是说你一开始就很强,而是你能不断吸收外部反馈、修正自己、持续进化。一个可训练的人愿意接受新鲜事物,能够走出舒适区,从失败里提取信息,而不是抱怨。从机器学习的角度来说,就是
要做一个有学习率、能持续优化的系统。
05|优化你的环境:人、平台、互联网
垃圾数据训不出好模型,垃圾环境也很难有高表现
国孟昊:第二步是找到适合自己的环境,并且主动优化它。每个人的环境其实都不完美,需要去筛选、调整、甚至重构。什么样的信息值得输入?什么样的事情是低水平重复?什么样的合作关系能让你真正成长?什么样的社交只是消耗注意力?这些都是环境带给我们的。
如果把自己当成一个训练中的智能体,我们要不断去洗自己的环境,改善训练管线和数据管线,调整目标。从模型的角度看,垃圾数据是训不出来好模型的;同样,待在垃圾环境里很难有非常高的表现。出淤泥而不染、濯清涟而不妖——从概率学角度看,那是小概率事件。
![]()
具体来说,环境主要由三部分组成:
第一是人——你周围的人是最重要的。如果他们天天拉着你不干正事,你也很难做成大事。所以要积极去接触正能量的人。当然什么是"正能量"取决于你当前的状态需要什么样的反馈,这要结合自己所处的状态去思考并作出回答。
第二是平台——在能力范围之内尽量选择更高的平台,比如选实验室、选会议。
第三是互联网和 AI——这是这个时代最重要的环境之一。一定要用好互联网、用好 AI,让它们尽量帮你做更多事,从中获得高质量的训练。这真的是可以把我们的环境从一个小环境变成一个大环境。
最终目标是进入一个正反馈循环——有一段时间你会发现自己突然变强了,并不是因为加速了,而是你进入了正反馈:学习率好、环境好、反馈好,模型更新自然顺畅。你自己变强是理所应当的事情。
![]()
06|不要用时间掩盖效率
人可以休息,但机器绝对不能休息
郭春乐:清华是一个非常卷的环境,你既能拿到各种奖学金,又非常爱运动。你是怎么平衡科研和享受生活的?
国孟昊:有两点对我来说特别重要。
第一,不要用时间去掩盖你的效率问题。形式上的努力不一定有用。我看很多人喜欢一直待在实验室,不管在不在干活,就是待着。其实那时候人已经不想干活了,在那刷手机、玩。我不说这样不行,只是说不要把"时间堆上"等同于"事情能做好"——不能用时间去掩盖自己的懒惰。
第二,是我刚做科研时一位大师兄给我讲的——人可以休息,但是机器绝对不能休息。我一般上午扫一眼 arXiv 上和自己相关的文章,下午来实验室把实验挂上,确认能跑通、曲线正常就走了,不在实验室呆着。然后第二天下午分析实验,再挂下一组——就这样不断压榨机器。
时间只要肯挤就肯定能挤得出来。你可以去玩,但是机器一定要让它工作的时候你再去玩。
07|阴差阳错的视觉之路
如果不做 AI,我想做运动员,或者数学老师
郭春乐:如果不做计算机研究,你最想做什么?
国孟昊:选计算机、选计算机视觉,对我来说都挺阴差阳错的。
我高考的时候本来想选数学,挺坚定的——高中搞过一段时间数学竞赛。但我爸妈都是数学老师,可能不想让我跟他们做同行,说"报啥都不能报数学"。我作为理工科考生就阴差阳错选了一个当时听起来比较前沿的方向——计算机。我是 2016 年高考,那时候还没有什么"人工智能"概念。
至于为什么做计算机视觉,更是被环境影响的——本科在西电,关系比较好的几个同学都做计算机视觉,可能因为西电这个方向比较强。我刚打完一场 ACM/ICPC 比赛,闲下来想做点科研,就跟着大流也选了视觉和 AI。当时听起来"挺高大上"的。
如果让我现在选另一条路:在很早很小的时候,就像我想当体育委员一样——不当班长不当学习委员,就要带大家上体育课玩——我其实挺想成为一名运动员的,踢球、篮球、乒乓球、跑步都行。后来发现成为专业运动员太难了,差距太大。再后来我想成为一名数学老师,做题、推理、给别人讲题都挺爽的。当然这个已经被我爸妈给磨灭了。
李翔:我跟你的人生轨迹基本上 90% 重叠——我也是高中搞过数学竞赛,高考出来想报数学,被外力劝到计算机;到了大学也搞 ACM 竞赛,从不懂计算机到会一些算法;再到科研也不懂什么是科研,进了一个做计算机视觉的组,就一直被环境带着走。如果真不做这一行,我可能会借助 AI 的力量去做教学教育。
08|看不到灵山的恐惧
追求过程,而不是追求结果
郭春乐:你在 2024 级清华研究生开学典礼的发言里引用了《黑神话·悟空》——"踏上取经路比抵达灵山更重要"。但很多学子还在科研的泥沼里挣扎,看不到灵山。这种恐惧怎么缓解?
国孟昊:人的恐惧来自于这种未知——你不知道未来会发生什么,不知道做这件事有没有意义,不知道后面会不会取得回报。但你能看到的只有过去发生了什么,并且用它来影响当前的决策。
所以我觉得这件事一个很重要的点是——追求过程,而不是追求结果。这有点理想主义,但你既然不知道未来要发生什么,就不要去后悔。决策在当下一定要符合自己内心的想法。坚持自己的想法以后,不管这件事做成或没做成,最起码你不会后悔。
只要路是自己选的,没有什么路是比另一条路一定要好的。只要内心能得到一定的满足,我觉得这就够了。
李翔:还有一句话对应这件事——人生是没有白走的路的。你在过程中所积攒的经验、能力、历练,会最终成为你在某个时刻获得那本经书、获得预期大结果的原因。我们有时候不要太过于追求很短的结果,可能会让你走捷径,反而失去远处的大结果。郭老师刚说的"几年前的子弹正中眉心"——你那时候付出的努力,可能在未来某一天突然成为爆发点。
09|AI 时代:最重要的是 Insight
不要尝试和 AI 比赛
郭春乐:在 AI 已经能帮人读论文、写综述,甚至帮人做研究的时代,人类学者的独特价值在哪里?
国孟昊:过年那段时间出过一件事——有人用 AI 直接狂写 100 篇文章,还把实验做了。我抽出几篇读了一下,质量不能说不高,最起码完成了 0 到 1 的跨越,给人的震撼挺大的。
之前我们觉得,做 AI 的话编程能力、英文读写能力很重要——老师收学生也比较强调这些。但现在如果让我选一个博士生,我觉得最重要的事情已经从"你要写好代码"变成了 Insight。
你只要有一个好想法,就可以用 AI 很快实现出来。不要尝试去和 AI 比赛——你用古法编程去和 AI 比谁编得好,这件事意义不大。重要的是有好的科研品味、好的 idea,然后和 AI 一起把这件事做好就够了。你不需要证明自己比 AI 强,更应该好好利用 AI 去做事。
至于人比 AI 强在哪里——我觉得是具身智能。现在的 AI 本质上是以语言为中心的,包括所谓的多模态大模型,核心还是语言。它可以解一道复杂数学题、写几万行代码,但你却很难让它简单地帮你叠一件衣服、在你家里工作。
人平时就生活在真实的物理世界里,所以这个方面是要重点突破的——从语言智能真正走向物理世界的智能。这也对应了我前面说的:人的两类输出,语言和动作;现在动作还没解决,那是人擅长的部分。
李翔:补充一点——除了 Insight,还有一个能力对人很重要:找到那些重要并且值得做的问题。AI 时代带来了大量噪音,每个人都能写出辞藻华丽的东西,但程度如何、可信度如何反而下降了。这就是新的研究问题。发现和定义重要问题、高价值问题的能力,AI 还比较难捕获。
国孟昊:以后个人的标签会更明确——之前还会结合实现能力评估你,现在你的 label 完全就是你的想法、你解决的问题。
10|超越科研
认真科研,但也要认真生活
国孟昊:科研很重要、成长很重要、追求卓越很重要——但人生并不是只有科研。我们前面一直讲环境怎么塑造智能,其实也意味着你的人生体验、兴趣、家人朋友的关系、运动、阅读、旅行——这些同样是你的环境,同样在塑造你。
所谓"超越科研",不是说不做研究,而是千万不要把自己转化成只剩下研究这么一件事情。你仍然需要认真科研,但也应该认真生活——还是要去 enjoy your life,而不是天天科研,各种负反馈来了就那样。
每个人都要找到适合自己的环境,找到自己的成长轨迹。这没有什么标准答案,每个人只有找到适合自己的路才能走得更长远。
lllustration Generated by AI
-The End-
扫码观看!
本周上新!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
yimingzhang@thejiangmen.com
或添加工作人员微信(aceyiming)投稿,沟通投稿详情
关于我“门”
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com
![]()
点击右上角,把文章分享到朋友圈
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.