环境与智能：国孟昊的“三阶段进化、可训练人格与正反馈循环”|实验|计算机|多模态

分享至

小学时大家都抢着当班长或学习委员，他偏要当体育委员——"这样上体育课的时候就可以带大家一起玩"。十几年后，他成了清华"水木学者"博士后、CCF 优博。但当他坐进直播间分享自己的成长故事，他没讲方法论，也没讲论文——他讲长颈鹿的脖子为什么那么长，讲一滩水到底是什么形状，讲"为什么我成了现在的我"。

✍️文字整理 | Ellie文钦

本期「CCF 优博之路」邀请到的嘉宾是清华大学计算机系"水木学者"博士后国孟昊——博士毕业于清华大学计算机系，师从胡事民教授，研究方向涵盖人工智能、计算机视觉、计算机图形学。迄今已在 T-PAMI、ACM TOG、CVPR、SIGGRAPH 等国际顶级期刊及会议发表论文多篇，其中多篇以第一作者身份入选最佳论文、热点论文及高被引论文，谷歌学术引用累计超过 9000 次。曾获 CCF 优博、清华大学优博、"祖冲之奖"（人工智能前沿创新奖），入选首批国家自然科学基金青年学生基础研究项目（博士研究生）资助，并荣获清华大学特等奖学金、国家奖学金、字节跳动奖学金等多项荣誉，入选斯坦福大学全球前 2% 顶尖科学家榜单。

不同于以往嘉宾从宏观的科研路径切入，国孟昊这次选择了一个非常微观的切口——"环境"。从长颈鹿的脖子为什么那么长，到 AI 十几年来的三阶段协同进化，再到"把自己当作一个训练中的智能体"，他用一条贯穿生物、技术与个人的主线，回答了一个所有研究生都绕不开的问题：成长究竟是被什么决定的？

这次直播他坦诚而具体：他承认自己从小并不喜欢学习——爸妈都是老师却对他比较放养，回家第一件事不是写作业而是抱起足球；他坦白选计算机和选计算机视觉都"挺阴差阳错的"——他本想报数学，却被同为数学老师的爸妈劝退；他认为现在的AI 竞争已经从拼模型能力转向了拼环境的构造能力，而对人类研究者而言，最重要的事情已经从工程实现变成了 Insight；最后他提醒所有人——“千万不要把自己转化成只剩下研究这么一件事情”。

️ 这是回顾内容。将门编辑部将 4 月 20 日直播提炼成文，保留核心精粹，希望这份深度整理能为每一位读者带来新的启迪。

嘉宾：国孟昊｜清华大学计算机系"水木学者"博士后、CCF 优博

主持：郭春乐｜南开大学副教授、博士生导师

常驻主持：李翔｜南开大学

01 长颈鹿与水

很多我们以为是"自身属性"的东西，其实是环境塑造的结果

国孟昊：正式开始之前，先讲两个《十万个为什么》里的问题——长颈鹿的脖子为什么那么长？一滩水到底是什么形状？

这两个问题背后是一个非常本质的规律。长颈鹿的脖子并不是凭空就这么长的，而是在长期的生存环境中，为了获取更高处的叶子，被一点点塑造出来的。水也是一样——它本身没有固定的形状，它的形状取决于它所在的容器。

把这两个例子放在一起，可以得到一个直观的结论：很多时候我们认为是一些自身属性的东西，其实并不是自身属性，而是环境塑造的结果。

02｜AI 进化三阶段

环境在演化，智能也在演化

国孟昊：从 2010 年到现在，深度学习这十几年的发展，从宏观来看其实就是环境与智能的协同进化。

第一阶段（2010—2020 左右）是封闭环境。我们事先给模型准备好一个数据集、一个任务定义、一个评价指标——比如 ImageNet、COCO、ADE20K——告诉模型你只需要把分类做好、把检测做好就够了。这个阶段的代表性工作是 ResNet、YOLO、Faster R-CNN 这类模型，它们单点能力很强，但泛化性差，一到开放世界就完蛋了。为什么？因为当时的环境就是这样的——预先定义的任务和数据集，导致演化出来的智能也只能是单任务的解题器。

第二阶段是 CLIP 之后的开放世界。从那个点开始，人们就不再关心"我在 ImageNet 上能从 85 跑到 90"这种问题，而是开始关注泛化性，出现了像 MMMU 这样把整个大学考试都拿出来让模型做的环境。这个阶段的代表是 GPT-4、Gemini、Qwen 这些大模型——它们不再完成单一任务，而是能统一地理解和回答各种问题。但这种方式还停留在"回答世界"，而不是真正"进入世界"。

第三阶段是真实世界的任务。现在我们不再让模型做题，而是让它真正去完成任务——OS World、GUI 操作、Robotics。从 Question & Answer 变成了 Task & Action。这个阶段我们不关心模型中间过程懂没懂，只关心一件事：任务成功率。

我认为真正到了这个阶段，所谓的视觉智能才出现了它的端到端形态。从人的角度看，人的输出本质上就两类：一类是语言，另一类是动作。所以视觉的端到端智能必须落到动作上——你只要看到场景能把动作做对就够了。

03｜AI 竞争已经从模型转向环境

谁能模拟更真实的环境，谁就更可能做出下一代更强的智能

国孟昊：从我的角度看，AI 发展到现在，核心挑战之一其实是环境的问题。模型参数已经非常大了，数据也挺多的，要让模型再进一步，需要的是更好的环境。

如果我们能把当前的物理世界完全模拟出来给 AI 训练，机器人是可以获得一次更大的发展的。所以现在的 AI 竞争，某种意义上已经从拼模型的能力转变成拼环境的构造能力。

举个例子——大厂洗数据，本质上就是在给大模型构造环境：你给它高质量的数据、高质量的环境，它就能学得更好。可以说，谁能模拟更真实的环境，谁就更可能做出下一代更强的智能。

04｜训练你自己：先成为一个可训练的人

如果一个模型不可训练，那不就不能进步

国孟昊：讲了这么多 AI，其实人也是一样的。我们每个人都可以看成是在环境里训练我们自己——个人就是模型，你接触的人、所在平台、互联网上的知识就是训练语料，你追求的是论文、做系统、还是真实问题，就是你的损失函数。

所以有时候研究生发展得好不好，并不是因为模型大、所谓"我聪明"，而是这个环境对不对、目标清不清楚、训练过程能不能持续。这件事在 AI 发展里也能看出来——模型架构和初始化参数其实没那么重要，最大的壁垒是数据是什么。

第一步是让自己成为一个可训练的人。可训练不是说你一开始就很强，而是你能不断吸收外部反馈、修正自己、持续进化。一个可训练的人愿意接受新鲜事物，能够走出舒适区，从失败里提取信息，而不是抱怨。从机器学习的角度来说，就是
要做一个有学习率、能持续优化的系统。

05｜优化你的环境：人、平台、互联网

垃圾数据训不出好模型，垃圾环境也很难有高表现

国孟昊：第二步是找到适合自己的环境，并且主动优化它。每个人的环境其实都不完美，需要去筛选、调整、甚至重构。什么样的信息值得输入？什么样的事情是低水平重复？什么样的合作关系能让你真正成长？什么样的社交只是消耗注意力？这些都是环境带给我们的。

如果把自己当成一个训练中的智能体，我们要不断去洗自己的环境，改善训练管线和数据管线，调整目标。从模型的角度看，垃圾数据是训不出来好模型的；同样，待在垃圾环境里很难有非常高的表现。出淤泥而不染、濯清涟而不妖——从概率学角度看，那是小概率事件。

具体来说，环境主要由三部分组成：

第一是人——你周围的人是最重要的。如果他们天天拉着你不干正事，你也很难做成大事。所以要积极去接触正能量的人。当然什么是"正能量"取决于你当前的状态需要什么样的反馈，这要结合自己所处的状态去思考并作出回答。

第二是平台——在能力范围之内尽量选择更高的平台，比如选实验室、选会议。

第三是互联网和 AI——这是这个时代最重要的环境之一。一定要用好互联网、用好 AI，让它们尽量帮你做更多事，从中获得高质量的训练。这真的是可以把我们的环境从一个小环境变成一个大环境。

最终目标是进入一个正反馈循环——有一段时间你会发现自己突然变强了，并不是因为加速了，而是你进入了正反馈：学习率好、环境好、反馈好，模型更新自然顺畅。你自己变强是理所应当的事情。

06｜不要用时间掩盖效率

人可以休息，但机器绝对不能休息

郭春乐：清华是一个非常卷的环境，你既能拿到各种奖学金，又非常爱运动。你是怎么平衡科研和享受生活的？

国孟昊：有两点对我来说特别重要。

第一，不要用时间去掩盖你的效率问题。形式上的努力不一定有用。我看很多人喜欢一直待在实验室，不管在不在干活，就是待着。其实那时候人已经不想干活了，在那刷手机、玩。我不说这样不行，只是说不要把"时间堆上"等同于"事情能做好"——不能用时间去掩盖自己的懒惰。

第二，是我刚做科研时一位大师兄给我讲的——人可以休息，但是机器绝对不能休息。我一般上午扫一眼 arXiv 上和自己相关的文章，下午来实验室把实验挂上，确认能跑通、曲线正常就走了，不在实验室呆着。然后第二天下午分析实验，再挂下一组——就这样不断压榨机器。

时间只要肯挤就肯定能挤得出来。你可以去玩，但是机器一定要让它工作的时候你再去玩。

07｜阴差阳错的视觉之路

如果不做 AI，我想做运动员，或者数学老师

郭春乐：如果不做计算机研究，你最想做什么？

国孟昊：选计算机、选计算机视觉，对我来说都挺阴差阳错的。

我高考的时候本来想选数学，挺坚定的——高中搞过一段时间数学竞赛。但我爸妈都是数学老师，可能不想让我跟他们做同行，说"报啥都不能报数学"。我作为理工科考生就阴差阳错选了一个当时听起来比较前沿的方向——计算机。我是 2016 年高考，那时候还没有什么"人工智能"概念。

至于为什么做计算机视觉，更是被环境影响的——本科在西电，关系比较好的几个同学都做计算机视觉，可能因为西电这个方向比较强。我刚打完一场 ACM/ICPC 比赛，闲下来想做点科研，就跟着大流也选了视觉和 AI。当时听起来"挺高大上"的。

如果让我现在选另一条路：在很早很小的时候，就像我想当体育委员一样——不当班长不当学习委员，就要带大家上体育课玩——我其实挺想成为一名运动员的，踢球、篮球、乒乓球、跑步都行。后来发现成为专业运动员太难了，差距太大。再后来我想成为一名数学老师，做题、推理、给别人讲题都挺爽的。当然这个已经被我爸妈给磨灭了。

李翔：我跟你的人生轨迹基本上 90% 重叠——我也是高中搞过数学竞赛，高考出来想报数学，被外力劝到计算机；到了大学也搞 ACM 竞赛，从不懂计算机到会一些算法；再到科研也不懂什么是科研，进了一个做计算机视觉的组，就一直被环境带着走。如果真不做这一行，我可能会借助 AI 的力量去做教学教育。

08｜看不到灵山的恐惧

追求过程，而不是追求结果

郭春乐：你在 2024 级清华研究生开学典礼的发言里引用了《黑神话·悟空》——"踏上取经路比抵达灵山更重要"。但很多学子还在科研的泥沼里挣扎，看不到灵山。这种恐惧怎么缓解？

国孟昊：人的恐惧来自于这种未知——你不知道未来会发生什么，不知道做这件事有没有意义，不知道后面会不会取得回报。但你能看到的只有过去发生了什么，并且用它来影响当前的决策。

所以我觉得这件事一个很重要的点是——追求过程，而不是追求结果。这有点理想主义，但你既然不知道未来要发生什么，就不要去后悔。决策在当下一定要符合自己内心的想法。坚持自己的想法以后，不管这件事做成或没做成，最起码你不会后悔。

只要路是自己选的，没有什么路是比另一条路一定要好的。只要内心能得到一定的满足，我觉得这就够了。

李翔：还有一句话对应这件事——人生是没有白走的路的。你在过程中所积攒的经验、能力、历练，会最终成为你在某个时刻获得那本经书、获得预期大结果的原因。我们有时候不要太过于追求很短的结果，可能会让你走捷径，反而失去远处的大结果。郭老师刚说的"几年前的子弹正中眉心"——你那时候付出的努力，可能在未来某一天突然成为爆发点。

09｜AI 时代：最重要的是 Insight

不要尝试和 AI 比赛

郭春乐：在 AI 已经能帮人读论文、写综述，甚至帮人做研究的时代，人类学者的独特价值在哪里？

国孟昊：过年那段时间出过一件事——有人用 AI 直接狂写 100 篇文章，还把实验做了。我抽出几篇读了一下，质量不能说不高，最起码完成了 0 到 1 的跨越，给人的震撼挺大的。

之前我们觉得，做 AI 的话编程能力、英文读写能力很重要——老师收学生也比较强调这些。但现在如果让我选一个博士生，我觉得最重要的事情已经从"你要写好代码"变成了 Insight。

你只要有一个好想法，就可以用 AI 很快实现出来。不要尝试去和 AI 比赛——你用古法编程去和 AI 比谁编得好，这件事意义不大。重要的是有好的科研品味、好的 idea，然后和 AI 一起把这件事做好就够了。你不需要证明自己比 AI 强，更应该好好利用 AI 去做事。

至于人比 AI 强在哪里——我觉得是具身智能。现在的 AI 本质上是以语言为中心的，包括所谓的多模态大模型，核心还是语言。它可以解一道复杂数学题、写几万行代码，但你却很难让它简单地帮你叠一件衣服、在你家里工作。

人平时就生活在真实的物理世界里，所以这个方面是要重点突破的——从语言智能真正走向物理世界的智能。这也对应了我前面说的：人的两类输出，语言和动作；现在动作还没解决，那是人擅长的部分。

李翔：补充一点——除了 Insight，还有一个能力对人很重要：找到那些重要并且值得做的问题。AI 时代带来了大量噪音，每个人都能写出辞藻华丽的东西，但程度如何、可信度如何反而下降了。这就是新的研究问题。发现和定义重要问题、高价值问题的能力，AI 还比较难捕获。

国孟昊：以后个人的标签会更明确——之前还会结合实现能力评估你，现在你的 label 完全就是你的想法、你解决的问题。

10｜超越科研

认真科研，但也要认真生活

国孟昊：科研很重要、成长很重要、追求卓越很重要——但人生并不是只有科研。我们前面一直讲环境怎么塑造智能，其实也意味着你的人生体验、兴趣、家人朋友的关系、运动、阅读、旅行——这些同样是你的环境，同样在塑造你。

所谓"超越科研"，不是说不做研究，而是千万不要把自己转化成只剩下研究这么一件事情。你仍然需要认真科研，但也应该认真生活——还是要去 enjoy your life，而不是天天科研，各种负反馈来了就那样。

每个人都要找到适合自己的环境，找到自己的成长轨迹。这没有什么标准答案，每个人只有找到适合自己的路才能走得更长远。

lllustration Generated by AI

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线700+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

yimingzhang@thejiangmen.com

或添加工作人员微信（aceyiming）投稿，沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.