网易首页 > 网易号 > 正文 申请入驻

OpenAI 姚顺雨:“算法为王”终结,欢迎来到“产品思维”时代

0
分享至

大数据文摘编译

回顾过去几十年,AI的发展几乎就是一部“顶级模型与新方法”迭代史。

从DeepBlue击败象棋世界冠军、AlphaGo征服围棋、GPT-4刷爆各类考试榜单,到o1、R1等新一代模型横扫数学、编程、写作、操作等任务,每一次历史性突破的背后,都是训练方法、模型架构的根本性创新。

这时候的游戏规则很简单:谁能发明更强的训练方法、模型架构,就能称霸榜单;谁能在ImageNet、GLUE、MMLU等benchmark上显著提升,就能写进教材、赢得引用。

姚顺雨毕业于清华姚班,普林斯顿大学计算机科学博士,2024 年 8 月加入 OpenAI,是思维树(ToT)作者。

而现在,AI领域长达数十年的“算法为王”思路,终于迎来颠覆。OpenAI的研究员姚顺雨在一篇文章写道:先验和环境远比算法本身更重要。他将接下来的AI时刻称之为“下半场”

“AI第一半场像极了‘应试教育’,刷榜、拿分、毕业。第二半场才是‘真教育’,要让AI在真实世界持续创造价值。”

第一半场,我们见证了方法与模型的辉煌;第二半场,我们要直面现实世界的复杂与挑战。只有解决“效用问题”,让AI成为现实中的价值创造者,这场比赛才算真正开始。

To thrive in this second half, we’ll need a timely shift in mindset and skill set, ones perhaps closer to a product manager.

可以理解为:“未来,第一流AI研究员的能力,或许更像一位产品经理,而不是算法工程师。

以下是文章全文,文摘菌做了不改变原意的编译:

简而言之:我们正处在AI的中场时刻。

几十年来,AI领域的核心一直在于开发新的训练方法和模型。这些努力确实带来了巨大突破:从在国际象棋和围棋上击败世界冠军,到在SAT和律师资格考试上超越大多数人类,再到收获国际数学奥林匹克(IMO)和国际信息学奥林匹克(IOI)的金牌。

这些载入史册的里程碑,无论是DeepBlue、AlphaGo、GPT-4,还是o系列模型,背后其实都离不开AI方法的根本创新:搜索、深度强化学习、模型规模扩展和推理能力。随着时间推移,AI的表现总是在持续提升。

那现在到底发生了什么变化?

用三个词概括:强化学习(RL)终于“成了”(RL finally works)。更准确地说,是强化学习终于实现了泛化。

经过多年的探索和一系列关键节点的积累,我们终于找到了一个行之有效的通用方法,可以用语言和推理来解决各种强化学习任务。

要知道,就在一年前,如果你跟大多数AI研究人员说:“有一种通用方法,既能搞定软件开发、创意写作、IMO级别的数学、鼠标键盘操作,还能处理长篇问答。”很多人都会觉得你是在天方夜谭。

毕竟,这些任务都极其复杂,许多研究者一辈子的学术生涯可能只专注于其中一个小领域。

但现在,这一切真的成真了。

接下来会发生什么?AI的“下半场”。

从现在开始,将把重点从“解决问题”转向“定义问题”。在这个新的阶段,如何评估AI能力,比单纯训练模型更加重要。

我们不再只问“我们能不能训练出能解决X问题的模型?”,而是要问“我们究竟应该训练AI去做什么?我们又该如何衡量真正的进步?”想要在下半场脱颖而出,我们不仅要及时调整思维方式和能力结构,甚至可能需要逐渐向产品经理靠拢。

01 上半场

要理解AI的“上半场”,不妨看看那些真正的赢家。

到目前为止,你认为最具影响力的AI论文有哪些?我做过斯坦福224N课程里的一个小测试,结果其实并不意外:Transformer、AlexNet、GPT-3等等。

这些论文有什么共同点?它们都带来了基础性的突破,让我们能训练出更强大的模型。同时,它们之所以能发表,也因为在某些基准测试上取得了显著提升。

但其实还有个更深层的共性:这些“赢家”本质上都是新的训练方法或模型,而不是基准测试或具体任务。哪怕是公认最具影响力的基准数据集ImageNet,它的引用量还不到AlexNet的三分之一。而如果你再看看方法和基准之间的对比,这种差距就更加明显了。

以Transformer为例,它的主要基准是WMT’14机器翻译任务。WMT’14的工作坊报告被引用大约1,300次,而Transformer论文的引用数已经超过16万

这恰好说明了AI“上半场”的玩法:重心始终在于打造新的模型和方法,至于评测和基准测试,虽然必不可少,但始终只是辅助,为论文体系服务。

为什么会这样?很大一个原因在于,在AI发展的上半场,提出新方法本身比设计新任务更难、更令人兴奋。创造一项全新的算法或模型架构,比如反向传播算法、卷积神经网络(AlexNet),或GPT-3背后的Transformer,都需要极高的洞见和工程能力。

相比之下,为AI设计任务通常要简单得多:我们只需把人类已经在做的事情(比如翻译、图像识别、下棋)直接转换成基准测试即可,这里面并没有太多创新或者技术难点。

此外,新方法往往比具体任务更具通用性和适用范围,因此价值更高。比如Transformer架构,最初只是在WMT’14机器翻译数据集上验证,但后来却成为计算机视觉、自然语言处理、强化学习等众多领域的核心动力,远远超出了它最初的应用场景。

一个优秀的新方法可以在许多不同的基准测试上取得突破,因为它本身简洁而通用,其影响力自然也就跨越了单一任务。

这种模式持续了数十年,并不断催生出改变世界的创新和突破,其具体表现就是各个领域基准成绩的不断刷新。那么,这种游戏规则为什么会发生改变?原因在于,所有这些创新和突破的积累,已经让我们在“解决任务”这件事上,获得了质的飞跃和真正可行的“通用配方”。

02 “通用配方”

那么,这套“通用配方”究竟是什么?其实它的核心要素并不意外:大规模语言预训练、模型和数据的极致扩展,以及“推理+行动”的理念。乍一听,这些词可能和硅谷每天流行的术语没什么两样,但为什么要称之为“配方”呢?

我们可以从强化学习(RL)的角度来理解。强化学习常被认为是AI的“终极形态”,毕竟,从理论上讲,RL可以保证在各种博弈中取胜;从实际应用看,没有RL也很难想象像AlphaGo这样超越人类的系统会出现。

在强化学习中,核心有三大要素:算法、环境和先验知识。长期以来,RL研究者的关注点主要集中在算法本身(比如REINFORCE、DQN、TD-learning、actor-critic、PPO、TRPO等),也就是智能体如何学习的“智慧核心”,而环境和先验知识通常被看作是固定的或者只是最简单的配置。

举个例子,Sutton和Barto那本经典的RL教科书,几乎只讲算法,几乎没有涉及环境设计或先验知识的内容。

然而,进入深度强化学习时代后,大家逐渐意识到,环境本身对最终效果有着巨大的影响:一种算法的表现,往往高度依赖于它所被开发和测试的环境。如果忽略了环境,你可能会造出一个只在“玩具”环境中表现优异的“最优”算法。所以,为什么我们不先弄清楚到底要解决什么样的环境,再去找最合适的算法呢?

Universe项目

这正是OpenAI最初的思路。他们先推出了gym,一个涵盖各种游戏的标准RL环境,之后又有了World of Bits和Universe项目,试图把互联网或者计算机本身变成一个“游戏环境”。这个思路听起来很不错吧?只要我们能把所有数字世界都变成可操作的环境,然后用聪明的RL算法去解决它们,数字世界的AGI似乎就指日可待了。

这个计划很不错,但却没有完全奏效。OpenAI在这条路上确实取得了不少进展,比如用RL解决了Dota、机械手等难题。但他们始终没能攻克“使用计算机”或者“网页导航”这样的任务,而且在一个领域学到的RL代理,几乎无法迁移到另一个领域。显然,某个关键环节还缺失了。

直到GPT-2和GPT-3的出现,大家才意识到,缺的其实是“先验知识”。你需要大规模的语言预训练,把普世的常识和语言知识“蒸馏”进模型里,之后再进行微调,才能让AI成为网页代理(WebGPT)或者聊天机器人(ChatGPT),并最终改变世界。事实证明,RL中最关键的部分,可能既不是算法本身,也不是环境本身,而是“先验”。而这些先验知识,可以通过和RL完全无关的方式获得。

大规模语言预训练为聊天场景带来了良好的先验,但在“控制计算机”或“玩电子游戏”等领域,效果却远远不如聊天。

地址:https://arxiv.org/abs/2010.02903

为什么?这些领域距离互联网文本的分布更远,直接在这些任务上用SFT(监督微调)或RL,泛化能力很差。我在2019年就注意到这个问题:当时GPT-2刚刚问世,我尝试用它加SFT和RL来玩文字冒险游戏:CALM,这也是世界上第一个用预训练语言模型构建的智能体。模型在单个游戏上要经历数百万步的RL训练,才能逐步“爬坡”;更糟糕的是,换一个新游戏就几乎无法迁移。

虽然这正是RL的典型表现,RL研究者对此早已见怪不怪,但我还是觉得奇怪:我们人类明明可以几乎不用训练就能上手新游戏,还能很快表现得更好。这让我第一次有了“顿悟”,人类之所以能泛化,是因为我们不只是机械地执行“去2号柜子”“用钥匙1打开3号箱子”“用剑打怪”这种操作。我们还会主动思考,比如:“地牢很危险,我需要武器。现在没看到武器,可能得从锁着的箱子里找。3号箱子在2号柜子里,那我应该先去那里把它打开。”

“思考”或“推理”本质上是一种非常特殊的“行动”:它并不会直接改变外部世界,但推理本身的空间却是开放且近乎无限的。

你可以思考一个单词、一句话、一段文章,甚至随意组合一万个英文单词,而你周围的世界却不会因此立即发生变化。在经典的强化学习理论框架下,这其实是一个很难处理的问题,也让决策变得几乎不可能。想象一下,你需要在两个箱子中选择一个,其中一个装着一百万美元,另一个是空的,你的期望收益是五十万美元。但如果我再加入无限多个空箱子,你的期望收益就会变成零。

然而,一旦我们把“推理”纳入RL环境的动作空间,并用语言预训练获得的先验知识来驱动AI泛化能力,就能在做出不同决策时灵活地分配推理所需的计算资源。

这是一件极其神奇的事。坦白说,我自己对其中的奥秘还没有完全梳理清楚,可能日后还需要专门写一篇文章来详细讨论。如果你感兴趣,可以去看一下ReAct论文,了解智能体推理的起源故事,也能感受到我当时的思考和灵感。

地址:https://arxiv.org/abs/2210.03629

我的直观理解是:即使你面对无数个空箱子,在你过往的所有经历和各类“游戏”中,这些选择和尝试其实积累了经验,也为你在关键时刻做出正确决策打下了基础。抽象地说,语言通过推理,赋予了智能体强大的泛化能力。

当我们找到了合适的RL先验(即通过大规模语言预训练获得的知识)和理想的RL环境(即将语言推理作为行动的一部分),你会发现,RL算法本身反而变得不那么重要了。于是我们才有了o系列、R1、deep research、能用计算机的智能体等一系列突破。讽刺的是,长期以来,RL研究者一直把重心放在算法上,几乎无人关注“先验”,几乎所有RL实验都从零开始。我们花了几十年时间,才终于意识到,也许最应该关注的恰恰是我们一直忽略的部分。

正如乔布斯所说:“你无法预见未来如何把这些点连接起来,只有当你回头看时,这些点才会连成线。

03 下半场

这套“通用配方”正在彻底改变AI的游戏规则。回顾上半场的玩法:

  1. 我们不断提出新颖的训练方法或模型,在各种基准测试上“爬坡”突破;

  2. 随之创造更难的基准测试,然后继续循环。

但这一套游戏正在被“配方”所打破,因为:这套配方本质上已经把“刷榜”变成了标准化、产业化的流水线工作,不再需要太多全新的创意。只要按部就班地扩大模型、数据和算力,就能高效泛化到各种任务。你费尽心思为某个特定任务设计的新方法,或许能提升5%,但下一代o系列模型,哪怕不是专门为这个任务设计,可能就能直接提升30%。

即便我们不断设计更难的基准,配方的扩展能力极强,很快(而且越来越快)就能攻破这些新基准。我的同事Jason Wei曾用一幅非常直观的图,清楚地展现了这一趋势:

那么,下半场还能怎么玩?如果创新方法已经不再重要,而更难的基准测试也会被“配方”迅速攻克,我们还能做什么?

我认为,我们需要从根本上重新思考“评测”这件事。这不仅仅是设计更难的新基准,更是在质疑现有的评测体系,创造全新的评测方式,从而倒逼我们去发明超越现有“通用配方”的新方法。这其实很难做到,因为人类本身就有惯性,我们很少会主动质疑那些被视为理所当然的基本假设,往往下意识地把它们当作“自然法则”。

举个例子来说明这种惯性:假如你曾基于人类考试体系,发明过历史上最成功的AI评测之一。在2021年,这或许是一个极为大胆的创意,但三年后,这个思路已经被用到极致。你会怎么办?大概率是再设计一套更难的考试。又或者,你已经让AI攻克了基础的编程任务,你可能会选择不断寻找更高难度的编程题,直到AI达到国际信息学奥赛金牌水平。

这种惯性很正常,但问题在于:AI已经在国际象棋、围棋上击败了世界冠军,在SAT、律师资格考试中超过了大多数人类,甚至在IOI、IMO上拿到了金牌。可放眼现实世界,至少从经济和GDP的角度来看,这个世界并没有发生什么本质性的变化。

我把这称为“效用问题”(utility problem),并认为这是AI领域目前最重要的问题。

或许我们很快就能解决这个问题,也可能还需要更长时间。但无论如何,问题的根源其实出奇地简单:我们的评测体系与真实世界的应用环境,在许多基本层面上存在差异。举两个例子:

1.传统的AI评测“理应”是自动化的:通常是让智能体接收一个任务输入,独立完成任务,然后获得奖励或评分。但现实世界中,智能体往往需要在任务过程中与人类持续互动——比如,你不会给客服发一大段信息后,等上十分钟就期望对方能一次性给你完美的答复。正因为质疑了这种评测假设,新的基准应运而生:要么引入真实用户参与(比如 Chatbot Arena),要么通过模拟用户来实现交互(比如 tau-bench)。

2.评测“理应”是独立同分布(i.i.d.)的:如果你有一个包含500个任务的测试集,通常会让智能体分别独立地完成每个任务,然后将所有分数做平均,得出一个总体指标。但现实中,任务往往是按序进行的,而非彼此独立、同时发生。比如,Google 的一位软件工程师会随着对代码库的熟悉,在解决 google3 的各种问题时表现得越来越好;而一个AI软件工程师则是不断解决同一仓库里的各种问题,却无法像人类那样积累“熟悉感”。显然,我们需要具备长期记忆能力的方法(事实上相关研究已经出现),但学术界却没有相应的基准来证明其必要性,甚至缺乏质疑i.i.d.假设的勇气。而这个假设恰恰是机器学习的基础之一。

这些假设“似乎一直如此”,在AI的上半场,基于这些假设来开发评测体系和基准其实没什么问题,因为当智能水平较低时,单纯提升智能本身确实能带来效用的提升。但现在,“通用配方”已经在这些假设下无往不利。因此,下半场的游戏规则变成了:

  1. 我们需要围绕真实世界的效用,开发全新的评测体系或任务。

  2. 然后用“通用配方”去解决这些任务,或在配方基础上引入新的创新组件,循环推进。

这个新游戏很难,因为它充满了不确定和陌生。但也正因如此,它令人无比兴奋。上半场的玩家在解决电子游戏和考试题,而下半场的玩家,则有机会用智能打造出真正有用的产品,缔造数十亿、数万亿美元的公司。上半场充满了各种“微创新”的方法和模型,而下半场则会对这些创新做出真正的筛选。

只要你沿用旧的假设,“通用配方”就能轻易碾压你的微小改进;但如果你能创造出打破旧配方的新假设,你就有机会做出真正改变游戏规则的研究。

欢迎来到AI的下半场!

原文链接:https://t.co/WddJkbSfks

GPU算力按需租用

A100/H100 GPU算力按需租用,

秒级计费,平均节省开支30%以上!

扫码了解详情☝

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
韩国咖啡馆“白日宣淫”丑闻!出轨情侣缠绵80分钟,监控全拍下!

韩国咖啡馆“白日宣淫”丑闻!出轨情侣缠绵80分钟,监控全拍下!

奋斗在韩国
2025-11-16 16:47:14
曝王思聪与懒懒悄然分手!奢侈品全被转卖,价格离谱引全网震惊

曝王思聪与懒懒悄然分手!奢侈品全被转卖,价格离谱引全网震惊

萌姐
2025-11-15 21:19:19
86年单位分房,小伙为多分一套娶女同事,房到手那天才懂她心意!

86年单位分房,小伙为多分一套娶女同事,房到手那天才懂她心意!

晓艾故事汇
2025-11-17 08:14:11
编译|共同社民调:高市早苗内阁支持率攀升至 69.9%

编译|共同社民调:高市早苗内阁支持率攀升至 69.9%

日本评论
2025-11-16 23:35:21
周总理弥留之际“违规”见一个人,嘱咐他:台湾有两个人不能忘!

周总理弥留之际“违规”见一个人,嘱咐他:台湾有两个人不能忘!

浩渺青史
2025-11-14 20:27:05
57年章士钊直言:共产党不能学宋太祖杀功臣!毛主席听后这样说

57年章士钊直言:共产党不能学宋太祖杀功臣!毛主席听后这样说

普览
2025-11-14 15:35:20
王曼昱全运会4金王!孙颖莎回应夺得银牌,一席话彰显大格局!

王曼昱全运会4金王!孙颖莎回应夺得银牌,一席话彰显大格局!

最爱乒乓球
2025-11-17 07:20:45
咏梅疑似发文回应陪跑金鸡奖影后,获网友力挺,网友:无冕影后!

咏梅疑似发文回应陪跑金鸡奖影后,获网友力挺,网友:无冕影后!

鑫鑫说说
2025-11-17 09:07:44
孙颖莎:输掉比赛肯定多少有点失落,但我觉得也很正常

孙颖莎:输掉比赛肯定多少有点失落,但我觉得也很正常

懂球帝
2025-11-17 00:27:37
结婚2年,和孙杨长期异地分居,张豆豆一个人住背的包1300元节俭

结婚2年,和孙杨长期异地分居,张豆豆一个人住背的包1300元节俭

小兰聊历史
2025-10-14 10:45:43
男子当上门女婿5年仍被鄙视,最终选择离婚,网友:早该走了

男子当上门女婿5年仍被鄙视,最终选择离婚,网友:早该走了

唐小糖说情感
2025-11-17 08:59:51
又轰41+9+6,东契奇创21世纪最佳!湖人10战8胜一口气迎3个小惊喜

又轰41+9+6,东契奇创21世纪最佳!湖人10战8胜一口气迎3个小惊喜

锅子篮球
2025-11-16 12:38:02
正部级蔡名照、叶冬松、黄明、宋秀岩、冯正霖、许又声、苗圩、傅自应、欧阳坚、黄建盛,有新任务

正部级蔡名照、叶冬松、黄明、宋秀岩、冯正霖、许又声、苗圩、傅自应、欧阳坚、黄建盛,有新任务

新京报政事儿
2025-11-15 20:41:56
《惊天魔盗团3》上映,女主丑,毁所有,无法实现第二部的票房

《惊天魔盗团3》上映,女主丑,毁所有,无法实现第二部的票房

马庆云的影音娱
2025-11-14 18:40:39
日本诺贝尔奖获得者:如果中日再次开战,日本仍然有能力战胜中国

日本诺贝尔奖获得者:如果中日再次开战,日本仍然有能力战胜中国

文史达观
2023-12-31 21:33:06
卫冕年终冠军!辛纳2-0阿尔卡拉斯:3600万奖金,31连胜

卫冕年终冠军!辛纳2-0阿尔卡拉斯:3600万奖金,31连胜

老嗮说体育
2025-11-17 04:08:51
何时到队?广东绯闻外援回复球迷很快来 杜锋获超级强阵

何时到队?广东绯闻外援回复球迷很快来 杜锋获超级强阵

胖子喷球
2025-11-17 08:51:03
汪明荃和罗家英在不丹补拍婚纱照,相爱36年终圆16年婚纱梦

汪明荃和罗家英在不丹补拍婚纱照,相爱36年终圆16年婚纱梦

陈意小可爱
2025-11-16 15:51:45
吴政隆署名文章

吴政隆署名文章

新京报政事儿
2025-11-17 07:10:10
50岁大叔控诉被20岁嫩妹“白嫖”,女方甩合照和消费记录这颜值到底谁亏了

50岁大叔控诉被20岁嫩妹“白嫖”,女方甩合照和消费记录这颜值到底谁亏了

浪花妈妈
2025-11-16 20:24:34
2025-11-17 09:48:49
大数据文摘 incentive-icons
大数据文摘
专注大数据,每日有分享!
6793文章数 94513关注度
往期回顾 全部

科技要闻

营销话术反噬信任,雷军不该只是一怒了之

头条要闻

上海业主花700万买精装修新房 刚到手就遇到糟心问题

头条要闻

上海业主花700万买精装修新房 刚到手就遇到糟心问题

体育要闻

3年没踢球,他想完成“史上最难”的复出

娱乐要闻

CEO爆料肖战《藏海传》狂赚几十亿!

财经要闻

6666元包教包会!"杀人蜂"养殖已成灰产

汽车要闻

"冰彩沙"全配齐 红旗HS6 PHEV预售17.88万起

态度原创

旅游
教育
游戏
时尚
亲子

旅游要闻

2025安徽入境旅游大会举行 “百万入境游客游安徽”启动

教育要闻

选科只看兴趣?大错特错!3个“隐藏规则”决定孩子未来专业选择权!

《燕云十六声》海外版性别惹争议 本地化人员作恶

中年女人的开挂指南,避开花衣服和紧身衣,把优雅感焊在身上

亲子要闻

宝妈买了张二手婴儿床,卖家凌晨发来信息:千万别让你孩子睡进去

无障碍浏览 进入关怀版