网易首页 > 网易号 > 正文 申请入驻

揭秘:OpenAI是如何发展出推理模型的?

0
分享至

当全世界都在为ChatGPT的横空出世而狂欢时,你可能不知道,这只是OpenAI一次“无心插柳”的惊喜。科技媒体Techcrunch一篇最新的深度文章揭示了,OpenAI从数学竞赛走向“通用AI智能体”(AI Agents)的宏大愿景。这背后,是一个长达数年的深思熟虑的布局,以及其对AI“推理”能力的终极探索。

意外的起点:数学

很多人以为OpenAI的成功故事是从ChatGPT开始的,但真正的颠覆性力量,却源于一个看似与大众应用相去较远的地方——数学。

2022年,当研究员亨特·莱特曼(Hunter Lightman)加入OpenAI时,他的同事们正在为ChatGPT的发布而忙碌。这款产品后来火遍全球,成为现象级的消费应用。但与此同时,莱特曼却在一个不起眼的团队“MathGen”里,默默地教AI模型如何解答高中数学竞赛题。

“我们当时正努力让模型在数学推理上做得更好”,Lightman回忆道。而这场看似偏离主线的探索,恰恰是OpenAI发展推理模型的起点。

为什么是数学?因为数学是纯粹逻辑和推理的试金石。如果一个模型能真正理解并解决复杂的数学问题,意味着它开始具备了初步的推理能力。

回过头看,ChatGPT的成功更像一个“美丽的意外”——用内部的话说,这是一个低调的研究预览版,却意外引爆了消费市场。

但OpenAI的CEO山姆·奥特曼(Sam Altman)的目光,早已投向了更远的地方。在2023年的首届开发者大会上,他清晰地描绘了未来:

最终,你只需告诉计算机你需要什么,它就会为你完成所有这些任务。这些能力,在AI领域通常被称为智能体(Agents)。其带来的好处将是巨大的。

而那项在当年略显“低调”的工作,成果斐然。近期,OpenAI的一个模型在国际数学奥林匹克竞赛(IMO)中摘得金牌,这是全球顶尖高中生的智慧竞技场。

OpenAI坚信,这种在数学领域磨练出的推理能力,完全可以迁移到其他领域,并最终驱动他们梦寐以求的通用AI智能体。

“草莓”计划:引爆推理革命的关键突破

早期的GPT模型擅长处理文本,但在基础数学面前却常常“犯糊涂”。

从基础的语言处理到复杂的逻辑推理,OpenAI是如何跨越这道鸿沟的?转机发生在2023年,OpenAI通过一种创新的方法,实现了推理能力的飞跃。这一突破最初的内部代号为“Q*”,后又被称为“Strawberry”(草莓)。

其核心,是将三种技术进行了前所未有的结合:

  1. 大语言模型(LLM):提供海量的知识基础和语言能力。

  2. 强化学习(RL):在模拟环境中,通过“奖惩”机制(即反馈答案是否正确)来训练模型做出更优选择。这与当年AlphaGo击败李世石的技术同源。

  3. 测试时计算(Test-time computation):给予模型更多的时间和算力去“思考”,在给出最终答案前,反复规划、验证和检查自己的步骤。

这个组合拳催生了一种全新的方法——“思考链”(Chain-of-Thought, CoT)。模型不再是直接给出答案,而是像人一样,会展现出完整的解题思路。研究员埃尔·基什基(El Kishky)在描述当时的场景时难掩兴奋:

我能看到模型开始推理了。它会注意到错误并回溯,它会感到沮丧。这真的就像在阅读一个人的思想。

这项突破直接促成了2024年秋天o1推理模型的问世。o1的出现震惊了世界,也让其背后的21名核心研究员成为了硅谷最炙手可热的人才。Meta的扎克伯格不惜开出上亿美元的薪酬包,挖走了其中五位,以组建其专注于超级智能的新部门。

探索AI“推理”的本质

AI真的在“推理”吗?还是只是更高级的模仿?

面对这个问题,OpenAI的研究员们表现得相当务实。El Kishky从计算机科学的角度解释:“我们正在教模型如何有效地消耗算力来得到答案。如果这样定义,那它就是推理。”

另一位研究员Lightman则更关注结果:“如果模型能完成困难的任务,那么它就在进行某种必要的、近似于推理的过程。我们可以称之为推理,但这只是为了创造出强大、有用工具的一种说法。”

非营利组织AI2的研究员Nathan Lambert用了一个绝妙的比喻:AI推理之于人类思考,就像飞机之于鸟类飞行。飞机并非通过模仿鸟类扇动翅膀来实现飞行,但它同样征服了天空。AI的“推理”机制与人脑不同,但这并不妨碍它实现相似甚至更强大的结果。

这种对终极目标的专注,而非拘泥于形式,恰恰是OpenAI文化的核心。据前员工透露,公司“一切研究都是自下而上的”,只要团队能证明其想法的突破性,公司就会倾斜宝贵的GPU和人才资源。正是这种对AGI(通用人工智能)使命的执着,而非短期产品利益的追求,才让OpenAI敢于在推理模型上进行如此巨大的投入,并最终抢占先机。

下一个前沿:从客观编码到主观任务

如今,AI智能体在一些定义明确、可验证的领域已经初显身手,例如帮助程序员完成编码任务。但当人们尝试让它处理更复杂、更主观的任务,比如“帮我找一个性价比最高的长期停车位”或“帮我规划一次完美的家庭旅行”时,它们往往会犯一些低级错误,或者耗时过长。

这背后的核心瓶颈是什么?Lightman一针见血地指出:“和机器学习中的许多问题一样,这是一个数据问题。”

如何训练模型处理那些没有标准答案、更偏主观的任务,是当前研究的前沿。OpenAI研究员Noam Brown透露,他们已经掌握了新的通用强化学习技术,可以训练模型学习那些不易验证的技能,IMO金牌模型就是基于此诞生的。该模型能生成多个“智能体分身”,同时探索不同解题路径,最后选出最优解。

这预示着AI的未来演进方向:从单一模型到多智能体协作,从处理客观事实到理解主观意图。

OpenAI的终极蓝图,是打造一个能为你处理互联网上任何事情、并能心领神会你的偏好的超级智能体。这与今天的ChatGPT形态迥异,但其所有的研究,都坚定地指向这个方向。

毫无疑问,OpenAI曾是AI行业的绝对引领者,但如今,它面临着来自Google、Anthropic、xAI和Meta等一众强劲对手的围剿。问题已经不再是OpenAI能否实现其“智能体未来”,而是它能否在被对手超越之前,率先抵达终点。这场关乎未来的竞赛,才刚刚开始。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
老朱家血统可能不干净……

老朱家血统可能不干净……

汉周读书
2026-01-31 12:55:06
汪小菲又曝大瓜!葛思齐称其半夜给自己打电话,不理解大S离婚

汪小菲又曝大瓜!葛思齐称其半夜给自己打电话,不理解大S离婚

不八卦掌门人
2026-02-01 15:46:12
什么叫洗钱?网友:比亚迪造卫星一年20亿,拍一个减肥电影要3亿

什么叫洗钱?网友:比亚迪造卫星一年20亿,拍一个减肥电影要3亿

夜深爱杂谈
2025-12-11 20:39:39
2014年,黄海波刚走出收容所的大门,曲栅栅迎了上来

2014年,黄海波刚走出收容所的大门,曲栅栅迎了上来

忠于法纪
2026-01-20 18:30:40
备战同曦!李弘权参加踩场,卢伟单独执教小偰,郭昊文与众人叙旧

备战同曦!李弘权参加踩场,卢伟单独执教小偰,郭昊文与众人叙旧

篮球资讯达人
2026-02-01 15:36:50
“真正的中国人是付钱的!”日本人竟冒充国人在巴基斯坦骗吃骗喝

“真正的中国人是付钱的!”日本人竟冒充国人在巴基斯坦骗吃骗喝

有书
2026-01-31 16:45:03
92岁前法官独居上海养老院,独子留英40年开公司,他竟说不后悔

92岁前法官独居上海养老院,独子留英40年开公司,他竟说不后悔

大鱼简科
2026-01-23 16:41:32
反向收割?印度人把中国网贷当作“国家补贴”,坏账率高达80%!

反向收割?印度人把中国网贷当作“国家补贴”,坏账率高达80%!

胖哥不胡说
2026-01-20 11:47:25
昨日贵金属现史诗级暴跌不减市民抢购热潮,上海豫园老铺黄金门前有人裹着羽绒服带着露营椅彻夜排队,部分畅销款式已断货

昨日贵金属现史诗级暴跌不减市民抢购热潮,上海豫园老铺黄金门前有人裹着羽绒服带着露营椅彻夜排队,部分畅销款式已断货

纵相新闻
2026-02-01 03:17:02
千万别姐弟恋,很累!

千万别姐弟恋,很累!

果粉之家
2026-01-06 11:26:21
宋朝富裕全靠这个行业政策,连元朝都不愿废除,却让朱元璋给废了

宋朝富裕全靠这个行业政策,连元朝都不愿废除,却让朱元璋给废了

历史大学堂
2026-01-31 19:34:36
成人片单!五部被低估的“伦理神作”,把禁忌拍成了艺术

成人片单!五部被低估的“伦理神作”,把禁忌拍成了艺术

得心电影
2026-02-01 17:35:18
江苏南京一校花,身高162CM,体重47公斤,五官精致到无懈可击

江苏南京一校花,身高162CM,体重47公斤,五官精致到无懈可击

奇思妙想生活家
2026-01-31 14:53:58
金晨事件后续,内部聊天曝光,太抠门没谈拢,多段绯闻记者放实锤

金晨事件后续,内部聊天曝光,太抠门没谈拢,多段绯闻记者放实锤

不写散文诗
2026-01-30 15:15:56
勇士消息:库里最新伤情出炉,格林离队概率增加,悍将回归倒计时

勇士消息:库里最新伤情出炉,格林离队概率增加,悍将回归倒计时

冷月小风风
2026-02-01 11:48:45
华为宣布:最高降4000元!此前苹果开启大降价

华为宣布:最高降4000元!此前苹果开启大降价

每日经济新闻
2026-01-29 18:19:05
郭凤莲感叹:要是按照陈永贵书记的设想继续发展,大寨会走向何处

郭凤莲感叹:要是按照陈永贵书记的设想继续发展,大寨会走向何处

悄悄史话
2026-01-26 18:00:42
“流氓有文化更可怕”,退休老干部频繁联系女幼师,聊天记录曝光

“流氓有文化更可怕”,退休老干部频繁联系女幼师,聊天记录曝光

妍妍教育日记
2026-01-27 19:58:28
黄国昌成立竞选总部,柯文哲刚放狂言,民众党生变,美女博士暴怒

黄国昌成立竞选总部,柯文哲刚放狂言,民众党生变,美女博士暴怒

靓仔情感
2026-02-01 16:34:47
贵州毕节临街门面被砌墙封堵?官方通报:业主矛盾,已全部拆除

贵州毕节临街门面被砌墙封堵?官方通报:业主矛盾,已全部拆除

新京报
2026-02-01 17:34:07
2026-02-01 18:15:00
华尔街见闻官方 incentive-icons
华尔街见闻官方
中国领先的金融商业信息提供商
141062文章数 2652388关注度
往期回顾 全部

科技要闻

腾讯元宝宣布:10亿现金红包,今日开抢

头条要闻

开年首月连打张又侠等十"虎" 反腐没有"禁区特区盲区"

头条要闻

开年首月连打张又侠等十"虎" 反腐没有"禁区特区盲区"

体育要闻

锁喉吃红牌+扇耳光 英超15人打群架

娱乐要闻

马年春晚第三次联排,多位明星现身

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

时尚
艺术
旅游
教育
本地

伊姐周六热推:电视剧《年少有为》;电视剧《有罪之身》......

艺术要闻

明代隐藏的“草书高手”,他的字无人能模仿

旅游要闻

长丰草莓香飘淮南吾悦广场

教育要闻

中考解方程,有人1分钟,有人1小时

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

无障碍浏览 进入关怀版