当学术圈习惯用“论文”与“绩点”定义一个人的预训练水平时,蒋炎岩提供了一个硬核视角:如果将人生看作一个模型,真正的强大不在于通过 Reward Hacking 钻营规则,而在于建立底层的技术审美。
✍️文字整理 | Ellie文钦
本期「CCF 优博之路」邀请到的嘉宾是南京大学副教授蒋炎岩,五次获得操作系统和软件工程领域顶级会议论文奖,执教了互联网播放超过500万次的《操作系统》课程,获得南京大学“学生最喜爱的老师”荣誉,并入选了中国高校计算机专业教师奖励计划。
这段从零开始建设一门操作系统课的经历被他称为“在所有老师做的事情当中性价比最低”,而回头看来却发现是性价比最高的事情。这次的直播也是如此,蒋老师真诚而不避讳:
他把自己当做一个模型,可从小学开始回忆这一路被训练的历程:被《算法导论》彻底改变了命运,也曾经历过知道什么是“好”的但却没有人指导他如何去获得的迷茫;他回忆自己 70% 不务正业的中学时光,但在 30% 追寻光的历程中积累着运气;他没有经历过高考,劝所有人最好不要当一个 reward hacker。他认为 AI 时代下大学教学的意义会越来越低,但也意味着每个人都可以追求自己内心真正的梦想。
️ 这是回顾内容。将门编辑部将 3 月 16 日直播提炼成文,保留核心精粹,希望这份深度整理能为每一位读者带来新的启迪。
![]()
01|初始采样
创造本能与正确的 Reward 方式
如果我把自己当成一个模型,它到底是怎么被训练出来的
蒋炎岩:我今天有一个比较特别的视角——如果我把我当成一个模型,这个模型到底是怎么被训练出来的?相当于是一个过去的回顾。所以我会像大语言模型一样,分成预训练阶段、SFT 阶段,以及做老师以后的后训练阶段来讲今天的报告。
时间要一直拉回到我上小学的时候,大概 1996 年,那算是我预训练模型的最早期。
![]()
创造是人类与生俱来的本能
蒋炎岩:从我回顾最开始学编程,到现在 30 年过去了,我都能记得的事儿,是我第一次用二重循环可以打印出一个图形来。for i = 1 to n,for j = 1 to n,然后打一个星号,你可以打出一个正方形的方块。如果你调一调循环变量的次数,就可以打印出一个三角形,然后就可以打出各种奇奇怪怪的东西。这一直都是一个惊喜。
我觉得创造就是人类与生俱来的本能。包括那个时候还会用电脑写一些程序来播放一个小旋律,也创作过一些简单的旋律——可惜最后都没有人指导,也都没有继续进行下去。
为了自己的快乐,而不是为了拿一个奖
蒋炎岩:回看我最早那段时间,借用现在最时髦的 scaling law 的图——你训练一个模型的早期,还在 small data region 的时候,训练其实是不收敛的。但随着训练的增加,loss 会不停下降,直到最后收敛。
在训练的早期,我觉得比较重要的是得到了一个正确的 reward 方式。我觉得我是为了自己的快乐去做这些事的,而不是因为我要去得到一个什么东西、去拿一个奖。虽然我自己那个时候训练远远没有收敛,编程也是一个半吊子,没有接触过严肃的计算机科学的世界——但确实很快乐,我觉得这就够了。
![]()
02|语料输入
从《算法导论》到审美觉醒一本书彻底改变了我的命运
蒋炎岩:大概在 2004 年,有一本书彻底改变了我的命运——《算法导论》。我当时看到的是第一版的非法译本,翻译水准很有问题,比如 Conservation of Flow 被翻成了"流的会话",显然是翻错了。
但这本书作为我上高中时真正严肃阅读的第一本科学著作,彻底打开了一个新世界的大门。它给我一个 take away:一本书是可以写成逻辑连贯、动机清楚、一点一点带你还原一个知识体系的。
我们上中学的时候也买过同济的微积分教材,根本没办法读,硬着头皮可能也啥都没学会。后来读这些国外经典的教科书,对我自己的教学风格产生了非常大的影响。
![]()
我知道什么叫“好”了,但没有能力获得
蒋炎岩:十六七岁的时候,是精力最旺盛的时候,也是最渴望得到认可、但精神又最空虚的时候。恰好在这个时候,我知道什么叫“好”了——我的 reward 方式里面已经可以判断什么样的教科书是好的、什么是不好的。但我又没有能力、也没有人指导我怎么去获得好的。
我看到了光,就没有完全死掉
郭春乐:您当时的家庭环境是怎样的?这种经历对您后来理解计算机系统,甚至理解世界的方式有没有潜移默化的影响?
蒋炎岩:家庭可能在你上小学的时候还能控制你,但一旦上了中学就完全失控了。我的中学时代,70% 的精力都用在了不务正业上,只有 30% 的时间——因为看到一些可以学的好的东西,我就会拒绝我认为不对的东西。
我觉得我是一点运气。因为我还看到了光,还有一点时间在追寻光,然后我就没有完全死掉。但如果你的生活中没有光的时候,你就是 100% 的时间都在逃避。
如果那个时候有人引导我,可能我最终收敛的 loss 要小得多。
03 | 阶段跃迁
从古法编程到“数据即知识”一下飞机,我受到了巨大的冲击
蒋炎岩:2009 年在斯德哥尔摩参加 ICPC World Finals,那是我第一次出国。一下飞机我就觉得受到了巨大的冲击——暖黄色的灯,整个城市的感觉,突然觉得原来世界是这样的。那个时候中国虽然举办北京奥运会了、经济腾飞了,但整体来说还是破破烂烂的。
在那几天时间里,心态发生了很多变化。我看到一个 IBM 的宣传片——怎么给斯德哥尔摩的汽车算排放税来缓解交通压力,最后一句话是 "Let's build a smarter planet"。然后我就觉得,我学了那么多编程,虽然是古法编程这个极限运动,但可能它真的是有一点用的。
就有点像大模型突然 loss 下来了,我从一个阶段走向了另外一个新的阶段。
![]()
数据即知识,压缩即智能
蒋炎岩:我现在非常认同"数据即知识,压缩即智能"。我觉得当你把训练的所有东西都忘得差不多的时候,但你又能把它 reconstruct 出来的时候,你就成了一个成熟的 problem solver。
我在读 PhD 之前预训练的时候已经打了一个很好的基础,所以可以看更难的东西了——公开的研究生课程、更高难度的专业书、各种各样的技术规范。比如大家学算法的时候都见过算法的定义:有穷性、确定性、可行性。你看了一眼觉得每个字都对,但不太理解。实际上如果你去看 高德纳(Donald E. Knuth)的 《算机程序设计艺术(The Art of Computer Programming)》第一章原文,这个定义是非常清楚的——他定义了一台计算机。
![]()
04|深度收敛
读博期间的预训练与“接得住”的题
我的预训练比导师更好,所以鸽了好几个导师
蒋炎岩:读 PhD 的故事其实差不多就到这了,因为模型都收敛了,发 paper 还有什么难的?但这有一个副作用——在这段时间里我没有任何所谓的科研产出。从本科大四进组到开始第一个研究工作,将近三年。
原因是我预训练得太好了。如果你们看过《读博那些事儿》回忆的话,其实我鸽了好几个导师。主要原因就是我的预训练可能比导师更好。尤其是当我的预训练远比第一个导师好的时候,根本就没有办法聊下去了。
但命运的转机是,虽然我的预训练比我现在的导师可能还好一些,但这个导师非常理解我面对的困境,所以他帮我找了他的导师。最后给了我一个做 Concurrency 的题目——这刚好是一个我能接得住的题。
为什么是 Concurrency?因为所有人都在乎
蒋炎岩:为什么 Concurrency 是一个我能接得住的题?因为并发是个老大难的问题——从做计算理论的人、到做体系结构的人要造并行计算机、到操作系统的人要做并发控制、到编程语言的人要做语言机制、到软件工程的人要面向开发者——所有人都在乎 Concurrency。每个领域都有它自己的方法论,而且都是很不一样的方法论。
因为我是一个预训练比较好的模型,即便进入一个新的领域开始做科研,我以前所有学的东西都派上用场了。我觉得这是我跟其他人预训练有点不一样的地方。
05|拒绝规训
为什么不当 Reward Hacker没有经历过高考,反而保护了你?
郭春乐:您没有经历过高考这种 reward hacking 的强化训练,也没有进省队。但现在回过头来,不管是没有经历过高考还是没有进省队,其实都是一种"没有被过度规训"的成长路径。这样的路径是不是反而保护了您对计算机最纯粹的第一性原理的追求?
蒋炎岩:这个问题很尖锐。因为现在几乎没有不 reward hacking 的路径了——你想不经过高考,那就得全国前 50、考上姚班。所有人都在极致的智力筛选中 reward hacking。
这个问题真正的解决,要等到我们的社会进入一个更良性的运转——也就是上大学和不上大学没有区别的时候,我们就可以不 reward hack 了。但只要高考还是通往成功的唯一途径,大家一定会成为 reward hacker。
又要在游戏里生存,又觉得它荒谬——你会撕裂吗?
郭春乐:您提到学术圈是一种游戏,这种游戏比较荒谬。但您又能在这个游戏里游刃有余——CCF 优博、多次顶会论文奖。您在这个过程中会感到撕裂吗?
蒋炎岩:刚开始肯定是撕裂的。尤其是刚做 faculty 的时候——比如你的 peers 里面有一个人,水平不一定很高,但有很多第一作者的论文。他就是一个 reward hacker,在灰色地带选择了对自己利益最大的。你看到这样的事情发生,心里有没有波澜?肯定是有的。
但我觉得不是那么计较的时候,好像完全放开了,就不 care 了。因为你在做东西的过程中,你享受的是你真的把这个东西做出来,其他你都不 care。
你最好不要当 reward hacker
蒋炎岩:对于正在读博读研的天命人们,我有一点建议——可能不切实际,因为你们的导师可能给你们的压力很大——但一定要去做你自己喜欢的 side project。我对我所有的博士生包括硕士生都是这样说的:保持一定的强度,但一定不要百分之百在我这个上面。
我今天有一个硕士生马上研三毕业了,他拿到了 EPFL 和 UTS 的 offer,他没有任何论文,直接录。你们可能会觉得"我必须有一篇 publication",但实际上世界不是这样运转的——你的真诚,你做的那些 project,你写的那些代码,都是有用的。会有人看到的,会有人认同你的。
所以你最好不要当 reward hacker。虽然 reward hacking 能让你有短期的利益,但如果你能看到更长期利益的时候,可能你最终收敛的 loss 就会比别人更小一点。
06|古法重构
做性价比最低也最高的事做了一件性价比最低的事,后来发现是性价比最高的
蒋炎岩:成了老师以后,我做了一件在所有老师做的事情当中性价比最低的事情——从零开始建设一门操作系统课。为了这门课程,其实不仅是一门课、而是一个课程群,我大概古法编程了 10 万行以上的代码。这是没有任何 KPI 的——评价体系不会认可这件事。
但这其实是我发现的性价比最高的事情。我在古法编程的巅峰设计和实现了一整套框架,这套框架能支撑本科生实现自己的编译器、自己的操作系统、自己的处理器,运行一套完整的应用生态。
回头来看,我觉得这是我整个一生当中性价比最高的事情。因为如果你在上一门课的时候,对每一个知识点都去反问"这件事情做得对吗?",你就可以去挑战沉淀了很多年的经典的东西,然后就可以做出真正好的东西了。
没有做不了的题
蒋炎岩:我读完博士的时候,终于懂了一件事:没有做不了的题。任何一个问题,只要它是一个重要的问题,只要人们还 care about 它,一定是可以做的。无非就是你最后能做的结果有多好,但你往前走一定是可以的。
这句话跟所有 PhD 学生刚进来的时候说,他们都不理解、无法理解。但可能做到最后的时候才会发现——一开始看一个领域,觉得什么也做不了、所有事情都被人做了;到后面就发现所有东西都是空的,随便往哪都能做。
这大概是一种只有读过 PhD 的人才有的自信。
论文、专利都是顺手的事,先把那件很 big 的事做了
李翔:我一直跟大家讲,我们要找准一个很重要的事儿,然后论文、专利都是顺手的事儿、副产品——正好过程中把它攒成一个专利或论文。但最核心的还是先把这件很 big 的事儿做了,这个事儿是驱动我们内心热情的一个点。而不是说"我要出一篇纸质的 8 页的东西"是我内心的目标。
07|终局思考
AI 时代的大学意义与最初梦想大学教学的意义会越来越低
蒋炎岩:坦诚来讲我们大部分的老师都是比较平庸的老师。如果教一门课只是把教科书上的东西再讲一遍,或者把之前的幻灯片再讲一遍——既然如此,为什么不由这个世界上最活跃的那些人做几个版本,沉淀下来?有创造性的版本、经典一点的版本、洒脱一点的版本,最终再由 AI 根据你的历史学习情况做裁剪和整合,给你专门定制一门最适合你的课。
这样大学就没有了,因为不需要大学了。只要有算力就行了,而算力一定会越来越便宜,模型一定会越来越强。只要你想学,你就能学。
985 大学的意义本质上是把一群更厉害的人团结在一起了——清北、姚班把 NOI 金牌聚在一起,他们在一起碰撞可以有更好的结果。但如果以后我们可以在互联网上以另一种形式把大家团聚起来,那大学的最后一层筛选和团聚的意义也就不那么显著了。从教学意义上讲,我觉得它会越来越低。
纠结的时候,你内心其实有答案
郭春乐:今年也是就业热年,很多学子纠结在自己感兴趣的想做的事情和百万甚至几百万以上的年薪之间。对于纠结在两者之间的学子们,蒋老师您有什么建议?
蒋炎岩:很难有建议。去追求——你内心其实有答案的。大家纠结只是觉得有点想两者都得到,但其实你内心应该是有答案的。
郭春乐:就好像硬币抛出去的时候,你就已经知道你想要正面还是反面了?
蒋炎岩:是的。
在 AI 时代,每个人都可以追求自己最初的梦想
蒋炎岩:在人工智能时代,每个人都可以去追求自己最初的梦想。因为所谓"高级"的知识已经不值钱了——我作为一个 systems programmer,看了几千页手册形成的编程能力已经没有任何意义了,Claude Code 分分钟帮我搞定。
但这也意味着每一个人都可以去追求自己内心真正的梦想。
只要你有初始的动机,你不是一个 reward hacker,你学到正确的 reward 方式,你想要知道更多的东西——那是每个人多多少少都有一点的——你就可以从一开始享受最为正确的训练。
我们的世界变化太快了,我觉得会好起来的。
lllustration Generated by AI
-The End-
扫码观看!
本周上新!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
yimingzhang@thejiangmen.com
或添加工作人员微信(aceyiming)投稿,沟通投稿详情
关于我“门”
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com
![]()
点击右上角,把文章分享到朋友圈
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.