网易首页 > 网易号 > 正文 申请入驻

揭秘:OpenAI是如何发展出推理模型的?

0
分享至

当全世界都在为ChatGPT的横空出世而狂欢时,你可能不知道,这只是OpenAI一次“无心插柳”的惊喜。科技媒体Techcrunch一篇最新的深度文章揭示了,OpenAI从数学竞赛走向“通用AI智能体”(AI Agents)的宏大愿景。这背后,是一个长达数年的深思熟虑的布局,以及其对AI“推理”能力的终极探索。

意外的起点:数学

很多人以为OpenAI的成功故事是从ChatGPT开始的,但真正的颠覆性力量,却源于一个看似与大众应用相去较远的地方——数学。

2022年,当研究员亨特·莱特曼(Hunter Lightman)加入OpenAI时,他的同事们正在为ChatGPT的发布而忙碌。这款产品后来火遍全球,成为现象级的消费应用。但与此同时,莱特曼却在一个不起眼的团队“MathGen”里,默默地教AI模型如何解答高中数学竞赛题。

“我们当时正努力让模型在数学推理上做得更好”,Lightman回忆道。而这场看似偏离主线的探索,恰恰是OpenAI发展推理模型的起点。

为什么是数学?因为数学是纯粹逻辑和推理的试金石。如果一个模型能真正理解并解决复杂的数学问题,意味着它开始具备了初步的推理能力。

回过头看,ChatGPT的成功更像一个“美丽的意外”——用内部的话说,这是一个低调的研究预览版,却意外引爆了消费市场。

但OpenAI的CEO山姆·奥特曼(Sam Altman)的目光,早已投向了更远的地方。在2023年的首届开发者大会上,他清晰地描绘了未来:

最终,你只需告诉计算机你需要什么,它就会为你完成所有这些任务。这些能力,在AI领域通常被称为智能体(Agents)。其带来的好处将是巨大的。

而那项在当年略显“低调”的工作,成果斐然。近期,OpenAI的一个模型在国际数学奥林匹克竞赛(IMO)中摘得金牌,这是全球顶尖高中生的智慧竞技场。

OpenAI坚信,这种在数学领域磨练出的推理能力,完全可以迁移到其他领域,并最终驱动他们梦寐以求的通用AI智能体。

“草莓”计划:引爆推理革命的关键突破

早期的GPT模型擅长处理文本,但在基础数学面前却常常“犯糊涂”。

从基础的语言处理到复杂的逻辑推理,OpenAI是如何跨越这道鸿沟的?转机发生在2023年,OpenAI通过一种创新的方法,实现了推理能力的飞跃。这一突破最初的内部代号为“Q*”,后又被称为“Strawberry”(草莓)。

其核心,是将三种技术进行了前所未有的结合:

  1. 大语言模型(LLM):提供海量的知识基础和语言能力。

  2. 强化学习(RL):在模拟环境中,通过“奖惩”机制(即反馈答案是否正确)来训练模型做出更优选择。这与当年AlphaGo击败李世石的技术同源。

  3. 测试时计算(Test-time computation):给予模型更多的时间和算力去“思考”,在给出最终答案前,反复规划、验证和检查自己的步骤。

这个组合拳催生了一种全新的方法——“思考链”(Chain-of-Thought, CoT)。模型不再是直接给出答案,而是像人一样,会展现出完整的解题思路。研究员埃尔·基什基(El Kishky)在描述当时的场景时难掩兴奋:

我能看到模型开始推理了。它会注意到错误并回溯,它会感到沮丧。这真的就像在阅读一个人的思想。

这项突破直接促成了2024年秋天o1推理模型的问世。o1的出现震惊了世界,也让其背后的21名核心研究员成为了硅谷最炙手可热的人才。Meta的扎克伯格不惜开出上亿美元的薪酬包,挖走了其中五位,以组建其专注于超级智能的新部门。

探索AI“推理”的本质

AI真的在“推理”吗?还是只是更高级的模仿?

面对这个问题,OpenAI的研究员们表现得相当务实。El Kishky从计算机科学的角度解释:“我们正在教模型如何有效地消耗算力来得到答案。如果这样定义,那它就是推理。”

另一位研究员Lightman则更关注结果:“如果模型能完成困难的任务,那么它就在进行某种必要的、近似于推理的过程。我们可以称之为推理,但这只是为了创造出强大、有用工具的一种说法。”

非营利组织AI2的研究员Nathan Lambert用了一个绝妙的比喻:AI推理之于人类思考,就像飞机之于鸟类飞行。飞机并非通过模仿鸟类扇动翅膀来实现飞行,但它同样征服了天空。AI的“推理”机制与人脑不同,但这并不妨碍它实现相似甚至更强大的结果。

这种对终极目标的专注,而非拘泥于形式,恰恰是OpenAI文化的核心。据前员工透露,公司“一切研究都是自下而上的”,只要团队能证明其想法的突破性,公司就会倾斜宝贵的GPU和人才资源。正是这种对AGI(通用人工智能)使命的执着,而非短期产品利益的追求,才让OpenAI敢于在推理模型上进行如此巨大的投入,并最终抢占先机。

下一个前沿:从客观编码到主观任务

如今,AI智能体在一些定义明确、可验证的领域已经初显身手,例如帮助程序员完成编码任务。但当人们尝试让它处理更复杂、更主观的任务,比如“帮我找一个性价比最高的长期停车位”或“帮我规划一次完美的家庭旅行”时,它们往往会犯一些低级错误,或者耗时过长。

这背后的核心瓶颈是什么?Lightman一针见血地指出:“和机器学习中的许多问题一样,这是一个数据问题。”

如何训练模型处理那些没有标准答案、更偏主观的任务,是当前研究的前沿。OpenAI研究员Noam Brown透露,他们已经掌握了新的通用强化学习技术,可以训练模型学习那些不易验证的技能,IMO金牌模型就是基于此诞生的。该模型能生成多个“智能体分身”,同时探索不同解题路径,最后选出最优解。

这预示着AI的未来演进方向:从单一模型到多智能体协作,从处理客观事实到理解主观意图。

OpenAI的终极蓝图,是打造一个能为你处理互联网上任何事情、并能心领神会你的偏好的超级智能体。这与今天的ChatGPT形态迥异,但其所有的研究,都坚定地指向这个方向。

毫无疑问,OpenAI曾是AI行业的绝对引领者,但如今,它面临着来自Google、Anthropic、xAI和Meta等一众强劲对手的围剿。问题已经不再是OpenAI能否实现其“智能体未来”,而是它能否在被对手超越之前,率先抵达终点。这场关乎未来的竞赛,才刚刚开始。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
图解丨中国台湾人均GDP首次同时超过日本和韩国

图解丨中国台湾人均GDP首次同时超过日本和韩国

格隆汇APP
2026-04-27 17:45:34
韩俊被免去农业农村部党组书记,乌鲁木齐市委书记张柱接任

韩俊被免去农业农村部党组书记,乌鲁木齐市委书记张柱接任

观察者网
2026-04-29 13:55:20
暗示退役?41岁卡索拉:一切都有始有终,未来几天会宣布决定

暗示退役?41岁卡索拉:一切都有始有终,未来几天会宣布决定

懂球帝
2026-04-29 17:58:16
中央安全生产考核巡查组在江苏发现:多领域存在突出安全隐患问题

中央安全生产考核巡查组在江苏发现:多领域存在突出安全隐患问题

上游新闻
2026-04-29 10:49:54
煽动躺平之后,要警惕敌对势力换赛道!

煽动躺平之后,要警惕敌对势力换赛道!

常识群
2026-04-29 11:19:04
46岁汤唯宣布怀二胎:“家里要多匹小马驹了,都很期待”,与韩国导演金泰勇结婚12年,已育有一女

46岁汤唯宣布怀二胎:“家里要多匹小马驹了,都很期待”,与韩国导演金泰勇结婚12年,已育有一女

极目新闻
2026-04-29 18:20:48
32核处理器跑巫师3仅30帧:俄中芯片合作的尴尬现实

32核处理器跑巫师3仅30帧:俄中芯片合作的尴尬现实

碳基打工人
2026-04-28 02:44:30
西方害怕中国治沙?《自然》新评揭开真相:他们怕的并非沙漠消失

西方害怕中国治沙?《自然》新评揭开真相:他们怕的并非沙漠消失

生活的哲学
2026-04-29 06:41:35
女子凌晨去朋友家找老公,意外捉奸在床,老公:我们在玩游戏

女子凌晨去朋友家找老公,意外捉奸在床,老公:我们在玩游戏

李晚书
2026-04-29 10:03:36
成都一学校举办方代表发布不当言论被免职

成都一学校举办方代表发布不当言论被免职

界面新闻
2026-04-29 20:29:08
深圳:爆涨173.8%背后的信号

深圳:爆涨173.8%背后的信号

功夫财经
2026-04-24 08:31:43
刚刚,直线拉升!美伊谈判,大消息!

刚刚,直线拉升!美伊谈判,大消息!

中国基金报
2026-04-29 18:48:19
90后救人夫妻找到!人民日报点名,工作单位曝光,难怪会不顾一切

90后救人夫妻找到!人民日报点名,工作单位曝光,难怪会不顾一切

奇思妙想草叶君
2026-04-29 18:37:49
3万就坐牢!5月1日起,医生收回扣直接入刑,医疗行业大地震来了

3万就坐牢!5月1日起,医生收回扣直接入刑,医疗行业大地震来了

菁菁子衿
2026-04-27 15:46:05
中国超豪华品牌的发展样板,仰望用四年完成了100%的搭建

中国超豪华品牌的发展样板,仰望用四年完成了100%的搭建

汽车公社
2026-04-29 08:35:51
杨瀚森工作室:NBA菜鸟赛季结束,练级之旅还在继续

杨瀚森工作室:NBA菜鸟赛季结束,练级之旅还在继续

懂球帝
2026-04-29 17:54:17
特朗普犯下致命错误!伊朗军方喊话中俄等国:愿分享“打美经验”

特朗普犯下致命错误!伊朗军方喊话中俄等国:愿分享“打美经验”

混沌录
2026-04-29 20:07:04
斯诺克世锦赛:世界第14淘汰世界第9,艾伦13-11晋级4强,3杆破百

斯诺克世锦赛:世界第14淘汰世界第9,艾伦13-11晋级4强,3杆破百

侧身凌空斩
2026-04-29 20:18:27
不打了!确认退出G5!曝火箭或交易杜兰特

不打了!确认退出G5!曝火箭或交易杜兰特

篮球实战宝典
2026-04-29 17:49:17
张素芬一季度最新重仓3家低价股,全在横盘,连摩根高盛也跟进了

张素芬一季度最新重仓3家低价股,全在横盘,连摩根高盛也跟进了

长风价值掘金
2026-04-29 14:42:54
2026-04-29 21:40:49
华尔街见闻官方 incentive-icons
华尔街见闻官方
中国领先的金融商业信息提供商
145411文章数 2653417关注度
往期回顾 全部

科技要闻

今晨庭审纪实|马斯克当庭讲述OpenAI被偷走

头条要闻

院长儿子被指"吃空饷"涉百万奖金 医院调查称其拿2万

头条要闻

院长儿子被指"吃空饷"涉百万奖金 医院调查称其拿2万

体育要闻

一场九球狂欢,各路神仙批量下凡

娱乐要闻

马頔一句话,孙杨妈妈怒骂节目组2小时

财经要闻

苏州,率先进入牛市

汽车要闻

技术天花板再摸高 全能型的奕境X9首秀

态度原创

家居
教育
亲子
旅游
公开课

家居要闻

寂然无界 简洁风格

教育要闻

还得是青羊区啊!两年官宣6所新高中,个个来头不小

亲子要闻

奶瓶也要“低碳装”?贝亲亮相上海气候周,开启绿色育儿新赛道

旅游要闻

夜游“薛涛”、梦回青城、全城漫游,这个五一四川把“安逸”玩出了新高度

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版