![]()
![]()
出品|搜狐科技
作者|常博硕
编辑| 杨 锦
“如果人生是一场游戏,那我的游戏结算分数是记得我名字的人的数量。”
做更有意义的事,让更多人记得他的名字,这是翁家翌从高中时代以来的梦想。
近日,ChatGPT背后的一位中国工程师翁家翌在AI播客WhynotTV Podcast中亮相,并首次讲述了自己从清华少年到OpenAI基础设施工程骨干的经历。
2020年,翁家翌在清华大学计算机科学与技术系获得本科学位,随后,在卡内基梅隆大学硕士毕业后,2022年,翁家翌加入OpenAI任研究工程师。
在OpenAI期间,翁家翌的名字出现在了从ChatGPT到GPT-4o再到GPT-5的几乎每一次重大模型发布的贡献者名单中。他的核心贡献可以总结为三个关键词:强化学习(RL)、后训练(Post-training)以及Infra(基础设施)。
![]()
在清华“做慈善”
在清华,翁家翌第一次清晰地意识到“信息差”这件事。
“我不觉得信息差是一件值得被保护的东西。”于是,在崇尚内卷和竞争的环境里,翁家翌做了一件在当时并不“讨老师喜欢的事”。他把自己所有搜集到的作业、代码、学习资料,几乎原封不动地开源到GitHub。
“你现在去清华随便抓个计算机系的学弟,问认不认识捐楼的人,他们大概率不认识,但你问他认不认识翁家翌,他应该认识。因为毕竟大家都看我的作业。”
在清华,信息差往往被当作一种生存资源,但是他却觉得,每个人都应该平等的拥有信息。
“我不想让后人重蹈覆辙,经常疲于奔命。因为很多人不是很擅长搜集东西,但是他其实是很有能力的。如果能够给这些人一个信息平权的机会,那他可能会活得更好。我当时觉得如果把自己的作业开源的话,可能会帮更多学弟学妹拥有更多自己的时间去做他们更想做的事情。”
这种信息平权与开源的理念后来一直影响着他的生活。
大二那年,他进入朱军老师的实验室。在贝叶斯、GAN(生成式对抗网络)、强化学习三个方向里选了强化学习,“我当时其实不知道它们分别是什么,以为强化学习是搞图像的。”
翁家翌坦言,图形学曾是他最感兴趣的,他在图形学课程甚至完成了一个16K高清图渲染大作业,并发明了一种加速迭代收敛的新算法,最终拿到了全班仅有的两个A+之一。
但他还是做了取舍。“搞科研不能脚踏两条船”,他最终选择了继续走强化学习的路。
他的第一个科研项目是在一个上世纪90年代的游戏中训练神经网络,让智能体在固定地图里完成从出生点到终点的任务,包括杀怪、捡血包、避障、通关。虽然最终他用强化学习方法拿下冠军,但却意识到自己并不享受整个过程。
他将强化学习研究称为“炼丹”,因为研究者往往需要花费数周时间在黑盒般的算法中反复调试超参数。这种痛苦的经历让他意识到,当时的强化学习研究高度依赖启发式(Heuristic)方法,且环境单一、算力匮乏,极难实现规模化(Scale up)。
也正因此,他开始有意识地将重心转向工具层面:“我非常擅长做软件工程的事,可以重构代码、优化用户体验。至于怎么调,那不是我想碰的东西。”
在进入OpenAI之前,当时业界主流的强化学习框架是RLlib。在翁家翌看来,RLlib虽然功能强大,但极其臃肿且抽象层级过高,导致研究者很难看清底层的逻辑,且修改成本极大。于是秉持着“与其忍受,不如重造”的想法,他在短短两周内就手撸出了天授框架的第一版。
对他而言,天授不仅仅是一个技术项目,更是一个“产品”。在他看来,技术是什么样不重要,重要的是抓住需求。
后来,为了解决留学生群体的信息差,他开发了“退学网(Tuixue Online)”,一个能够自动抓取签证预约状态的系统。对翁家翌而言,只要解决了大家真实的痛点,它就是有价值的。
他把这两个项目都称作“做慈善”。这不仅让他确定了自己真正所热爱的技术方向,也带给他强大的满足感:“完全nonprofit(非盈利),这种慈善项目让我感觉非常满足。”
![]()
“我不想去大厂当螺丝钉”
硕士期间,翁家翌便开始琢磨找工作的事。“一开始投了18家公司,就收到Google和AutoML(陈天奇团队)的offer。”
面对大厂的橄榄枝,他说:“我不想去Google,在大厂当螺丝钉,然后做一些自己不是那么喜欢的事儿。”
在此之后,他拿到幻方量化、英伟达、TikTok,以及Facebook AI Research(FAIR)的offer。“当时幻方要搞一个AI Lab,也就是后来的DeepSeek。”
他坦言,如果没有其他选择,可能就会加入幻方做强化学习infra。但最终,他等到了OpenAI。
“OpenAI跟DeepMind是当时RL里面搞得最好的两个research lab(研究实验室)。我希望能够有一个机会来体验世界上最前沿的一些research(研究)到底是怎么做的,而不是像在学校里面,像小作坊一样只有几个PHD手搓一个东西。”
2022年,翁家翌正式加入OpenAI,那时ChatGPT还没走进大家的视野。
翁家翌完整参与了从ChatGPT、GPT-4o到正在研发中的GPT-5几乎所有重大模型的开发进程。他的名字出现在每一份核心贡献者名单中,他的工作逻辑可以说是用极致的工程能力为科研算法铺路。
在OpenAI内部,翁家翌最核心的贡献是主导并搭建了整个后训练阶段(Post-training)的强化学习基础设施(RL Infra)。“每发一个大的release(发布),每发一个大的模型,我的名字就得放上去。”他笑着说,“因为大家都在用整个Post-Training infra去训练RHF的模型。”
所谓的Post-training,其实是让大模型变得更像人的关键环节。翁家翌搭建的RL Infra支撑了模型在这个阶段的对齐和逻辑推理训练。这意味着他要处理的是如何在大规模算力集群上,让强化学习算法稳定、高效地运行,且能灵活适配研究员们不断冒出的新想法。
在翁家翌看来,模型的性能差异有时并不源于算法优劣,而源于基础设施的完善程度。他表示:“每家的Infra structure都有不同程度的Bug,谁修的Bug多,谁的模型性能就越好。”他在OpenAI的日常,很大一部分就是通过极致的工程手段,排除系统中的不确定性,让算法的潜力得以完全释放。
“卖铲子”是翁家翌对自己技术路径最生动的隐喻。在淘金热中,挖金矿的人(做研究、发Paper)可能空手而归,但卖铲子的人(做工具、造基础设施)永远有其确定性的价值。
同时,翁家翌也正在参与OpenAI下一代RL Infra的重构工作。“旧架构已经三年多了,堆积的问题其实已经很多了。”OpenAI要推倒重来,目标是清理技术债,帮助研究员以更高迭代效率推进实。
在OpenAI在取得巨大的成功之后,有无数的团队成员离开了这家公司。但在翁家翌看来,“一个健康的组织就是所有人都是可以被替代的。”他也承认,在OpenAI内部,现在没有谁是不可替代的。
谈及ChatGPT的成功,翁家翌将其归功于OpenAI组织内部的信息流畅度。他分享到,领导层始终保持对细节的强关注,Greg Brockman(联合创始人兼总裁)几乎参与过公司所有基础设施模块,而Sam Altman(联合创始人兼CEO)也通过研究助理及时了解公司内部所有的技术进展。
谈及AGI,翁家翌表示:“OpenAI内部抓15个人,可能有20种定义AGI的方法。”对于他来说,“如果AI能完成80%、90%我认为有意义的任务,那它可能就是是AGI了。”但他也坦言,目前他日常负责的代码上,尚无法放心交给模型修改。
虽然热爱开源,但人总是要在现实之间做出权衡。面对“OpenAI不Open”的质疑,翁家翌表示:“你没法直接把最好的模型开源,因为公司要生存,这很现实”尤其在资源密集型的模型研发阶段,资本输血与商业可持续是让公司能够存活和继续创新的必要条件。
不过他也开心地说道,如果公司资源不受限,“我当然会很开心地开源RL Infra团队这两三年的成果。”
![]()
“如果想进工业界,读PhD是浪费生命”
在找工作之前,其实翁家翌也思考过要不要读博。他说,在清华的体系里,学历永远是越高越好,“当身处那个环境的时候,其实很难跳出这个评价体系。”
但翁家翌想建立一个自己的评价体系。他对这个问题直言不讳:“如果想进工业界,读PhD其实是在浪费生命。”
在他看来,“教一个研究员(Researcher)如何做好工程(Engineering),要远比教一个工程师(Engineer)如何做好研究来的难。”
在访谈中,他多次强调一个对工业界极其关键、但在学术体系中并不被优先训练的工程化迭代能力。
传统PhD训练,更强调的是如何选一个“学术上成立”的方向,如何把故事讲完整、把实验结果画得漂亮、把论文写得自洽。这些能力在学术体系中至关重要,但在工业界,尤其是大模型时代的AI公司里,已经不再是最稀缺的能力。
在他看来,今天的研究型工业实验室,并不缺创新和想法,也不缺能够判断方向对不对的人。真正稀缺的是谁能在单位时间内,验证更多正确的Idea。而这件事,几乎完全依赖于工程与Infra。
他表示,如果目标已经非常明确是要进入工业界、进入AI lab,那更有效的路径,反而是尽早通过硕士、本科阶段的项目积累,构建出与博士学生同台竞争的能力结构。
“你完全可以以master为跳板,甚至在本科的时候,就攒够进入工业界的筹码。关键不是你有没有PhD title,而是你有没有差异化。”
在访谈的最后,翁家翌表示,如果让AI去解决一个世界难题,他最想做的是预测未来。
“所有的东西都是可以被预测的,所以理论上它是可以用AI解决的。”在翁家翌看来,世界是确定性的,自由意志是幻觉,所有事件在宇宙大爆炸之初就已注定。这是他坚信的宿命论。
“上帝不掷骰子”,他说,“我尝试去证伪,我也非常想让他能够证伪。”“我觉得三维生物都是有自己的局限性的。在三维生物的认知里面,时间就是一个线性单向流动的。但是有可能在四维的时间里面,时间并不是单向流动的,它可以任意跳跃。这是我找到的迄今为止合理的解释。”
他认为,面对这种令人不安的世界观,最好的方式就是假装不知道,然后去体验当下的人生。
尽管在事业上取得了巨大成功,但翁家翌坦言自己目前正处于一个迷茫期。他感觉在RL Infra这个他长期热爱的领域确定性的事情变得越来越多。他给自己未来的目标是拥有充分的自由和资源去找到并做自己真正想做的事。
在访谈的最后,他说:“我曾经一度想通了自己想要什么,但是我其实还是没有那么想通,这个问题值得一生去思考。”
![]()
![]()
运营编辑 |曹倩审核|孟莎莎
![]()
![]()
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.