网易首页 > 网易号 > 正文 申请入驻

GPT-5研发困局曝光:2大核心技术失效,Meta挖到大动脉,能力未达代际飞跃

0
分享至


智东西
编译 陈骏达
编辑 李水青

全网首份GPT-5聊天记录曝光了!

智东西8月4日报道,今天,OpenAI首席执行官Sam Altman在X平台上发出了GPT-5的对话记录,提前剧透了GPT-5的使用体验。


对话中,Altman让GPT-5给他推荐几部以AI为主题、最引人深思的电视剧,GPT-5向Altman发送了一部片单,位列第一的正是Altman发文推荐的美剧《万神殿(Pantheon)》。


Altman还发推称,软件即服务(SaaS)行业将很快进入“快时尚”时代,这或许意味着,即将发布的GPT-5会给软件开发流程带来深刻影响,显著提升软件的迭代速度,并降低开发成本。


不过,不少网友们对GPT-5的这一表现并不买账。可以看到,GPT-5在其回答中使用了大量破折号,这是广受用户诟病的“AI味儿”的来源之一。

此外,GPT-5并没有进行推理,这导致其反思能力有限,推荐的第二部剧便偏离了一开始的要求,与AI无关,反倒是和量子计算扯上了关系。

在评论区中,一条获得2万多阅读量的帖子,或许反映了网友们的集体心声:“GPT-5看上去也和GPT-4o没什么区别啊。”


这位发帖的网友还进一步吐槽,GPT-5的用词毫无必要的夸张、花哨,语言怪癖和GPT-4o一模一样。

Altman近期已在多个场合高调宣传了GPT-5的能力,称“GPT-5在几乎每个方面都比我们聪明”。网友清一色的质疑,反映出已曝出的GPT-5表现与用户预期之间的明显差距

近日,外媒The Information曝光了GPT-5“难产”背后的诸多细节,揭示了OpenAI在技术突破、团队管理及与合作方博弈中所面临的重重挑战。

事实上,GPT-5的发布已经严重延期。原本这一模型早在数月前便应该发布,却因能力提升有限,而被迫降档为GPT-4.5。研究人员发现,适用于较小模型的微调技术,并不适用于超大规模模型;此外,在将推理模型转化为适合聊天、API使用的“学生模型”时,其性能出现明显下降。

据知情人士透露,OpenAI下一代旗舰模型GPT-5在编程和数学任务方面相较现有模型有所提升,GPT-5生成的代码更注重用户体验和美观性;在支持AI智能体执行复杂任务时也更加高效,所需的人工干预更少。

不过,也有知情人士认为,其进步幅度难以与GPT-3到GPT-4那样的代际飞跃相提并论。

一、GPT-5研发进展不及预期,推理模型实际应用后“降智”明显

GPT-5的问题,从2024年底便开始酝酿。

OpenAI彼时正开发一款内部代号为“Orion”的模型,原本计划将其作为GPT-5发布。据参与者透露,Orion原本被寄予厚望,目标是大幅超越2024年5月发布的GPT-4o。

但Orion未能实现预期性能,OpenAI最终于2025年2月将其作为GPT-4.5发布。除了150美元/百万输出tokens的惊人定价,这一模型并未给用户带来深刻的印象。今年7月,OpenAI决定将GPT-4.5的API服务下线,原因是成本过高。这一模型,也成为OpenAI史上最短命的模型之一。

部分失败原因在于预训练阶段的局限性。在这个阶段,模型会处理来自网络和其它来源的数据,从而学习概念之间的关联。研究人员发现,高质量网页数据的供给正在枯竭,而且,他们对小规模模型的调优手段在模型变大后不再奏效。

据参与OpenAI研发的知情人士透露,截至今年6月,OpenAI还没有开发出一款能被称之为“GPT-5”的模型。

OpenAI的另一大挑战,源自于推理模型范式在实际应用中出现的意外情况。

去年秋天,OpenAI推出了第一个推理模型o1,这次发布使OpenAI在AI领域重新获得海量关注,也为后续发展能够处理复杂任务的AI智能体奠定了基础。

到2024年底,OpenAI又基于GPT-4o打造了下一代推理模型o3,与o1属于同一语言模型家族。但知情人士称,o3的“教师模型(teacher model)”在科学和其他专业领域的理解能力,比o1的教师模型有显著的飞跃。

这些提升一部分来自于OpenAI给o3教师模型配置了更多的GPU服务器,从而提供了更强的算力来理解复杂概念;另一部分则源于让模型具备搜索网络和访问代码库的能力。

OpenAI在全球范围内广泛宣传这些推理模型在测试中的强大表现,社交媒体上一片沸腾。但现实很快泼了冷水。

据两位参与开发的人士透露,当OpenAI研究人员将o3的教师模型转化为聊天版本(学生模型),以便ChatGPT用户能与其交互时,其性能大幅下降,与o1相比没有明显进步,最初公布的性能提升几乎消失了,通过API接口供企业使用的版本也存在同样问题。

一位人士认为,这是因为这些推理模型理解概念的方式与人类语言有差异。

当被强制用自然语言回答问题时,这种“天才级模型”会被“压缩”到一个更低的表达水平,失去了原有的推理深度。这种差异也体现在推理模型“思考”过程中的乱码输出上。

另一位参与者表示,OpenAI在模型对话能力训练方面投入不足,也导致沟通效果不佳。

尽管存在性能退化,OpenAI今年发布的o3推理模型仍然帮助了核聚变和病原体检测等科学研究者提出新的假设与实验设计。

不过,大语言模型和聊天型推理模型的发展,未能达到OpenAI高层和研究员的预期。o系列模型也在ChatGPT产品线中引发用户的困惑,Altman因此告诉员工,公司将回归GPT命名体系。

二、研发通用验证器,OpenAI称有望实现GPT-8

推理模型范式受阻后,OpenAI的研究人员采用了一些业内常见的办法,来维持模型的性能提升。

OpenAI一直在开发被称为“通用验证器”的工具,据知情人士称,这项技术可自动化验证模型在强化学习过程中的回答质量。

通用验证器的核心是让一个模型来检查并评分另一个模型的答案,前者会借助多个来源来查证答案的正确性。

日前,OpenAI资深研究员Alexander Wei在X上发文称,OpenAI在IMO竞赛中取得所谓的“金牌”成绩模型,使用的正是“通用型”的强化学习,这或许意味着,其验证手段可应用于一些没有标准答案、评判标准主观的任务领域。

通用验证器的进展正在帮助OpenAI开发GPT-5,不仅在编程等可验证性强的任务中有所提升,也在创意写作等主观性强的领域展现出进步。

整个行业,包括xAI和谷歌,也都在强化学习上加大投入。负责OpenAI强化学习系统的Tworek公开向外界表态,OpenAI模型背后的强化学习系统实际上就是AGI的核心。

这些新进展也解释了为何OpenAI高管近期在与部分投资人会面时宣称,有信心做到“GPT-8”。

尽管GPT-5距离AGI还有明显差距,但它在编程和推理之外,也具备一些更具吸引力的新特性。据微软内部测试反馈,GPT-5在不显著增加计算资源消耗的前提下,生成的代码和文本质量都有提升。

一位微软员工称,这是因为GPT-5相比以往的模型更擅长判断不同任务所需的算力强度,从而实现更高效的资源分配。

自动化编程已经成为OpenAI重点攻克的方向。部分原因在于竞争对手Anthropic去年在向开发者和工具(如Cursor)提供代码生成模型方面取得了先机。

OpenAI内部也认为,自动化编程不仅对公司未来业务至关重要,更是推动AI研究工作自动化的关键。

三、Meta挖人引发团队动荡,还有员工拒绝与微软分享新技术

Altman此前曾公开表态:凭借现有的技术路径,OpenAI有望实现具有人类智能水平的AI,也就是通用人工智能(AGI)。

不过,在实现AGI的路上,技术并不是唯一的挑战。作为当前最受瞩目的AI创企,OpenAI时时刻刻面临着竞争对手的挖角。

最近,Meta挖走了十多位OpenAI研究员,其中包括参与了OpenAI近期核心技术进展的人员。Meta给这些研究员开出了“顶级球星”水平的薪酬方案,部分人员的甚至拿到了十几亿美元的薪酬包。

这波离职和随之而来的人员重组给OpenAI的高级员工带来了压力。上周,OpenAI研究副总裁Jerry Tworek就在公司内部Slack中向研究负责人Mark Chen表达对团队调整的不满,称自己需要请一周假来重新评估,但最终并未休假。

此外,还有部分高级研究人员抵制将其技术发明交给微软,尽管根据OpenAI与微软的协议,微软可以在2030年之前,使用OpenAI的技术。

OpenAI与其最大外部股东微软之间财务关系紧密,但围绕合作协议条款一直存在摩擦,双方均试图在OpenAI重组营利部门、为未来上市铺路的过程中争取更多让步。

据两位接触过谈判的人士透露,双方的谈判正在朝积极方向推进。一些要点仍在讨论中,但也有内容趋于明朗,例如微软预计将在OpenAI的营利实体中获得约33%的股权

结语:OpenAI的优势,还能持续多久?

当GPT-5正式发布时,它将承载外界极高的期望。上周,Altman在一档播客节目中谈及GPT-5的能力时表示,他曾提出一个连自己都听不懂的问题,而GPT-5却能轻松作答。

然而,过去一年中,OpenAI在模型性能上的进展放缓,加之宣传与实际能力之间屡次出现明显落差,也引发了外界的质疑:OpenAI能否在AI能力上继续领先谷歌、Anthropic等闭源竞争对手,以及DeepSeek、Qwen、Kimi等头部开源模型?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
下周A股即将起飞!两条主线已锁死,十年一遇行情别错过!

下周A股即将起飞!两条主线已锁死,十年一遇行情别错过!

风风顺
2026-01-25 03:00:02
伊朗神权崩塌前夜:9000万高知青年与内战危机

伊朗神权崩塌前夜:9000万高知青年与内战危机

夏至陌离殇
2026-01-14 15:34:27
35岁哈雷女骑手祈铄然去世,车友还原车祸经过,颜值比明星还漂亮

35岁哈雷女骑手祈铄然去世,车友还原车祸经过,颜值比明星还漂亮

公子麦少
2025-07-20 11:51:02
20岁李嫣近况全解锁:天后基因焊牢气场,恋爱疑云把老父拉黑

20岁李嫣近况全解锁:天后基因焊牢气场,恋爱疑云把老父拉黑

动物奇奇怪怪
2026-01-22 00:23:24
张柏芝“丑闻”曝光仅两月,恶心的一幕出现了,三个儿子承受恶意

张柏芝“丑闻”曝光仅两月,恶心的一幕出现了,三个儿子承受恶意

削桐作琴
2026-01-24 16:19:53
王征同志逝世

王征同志逝世

政知新媒体
2026-01-20 10:18:42
杜富国晋升二级军士长,距离“兵王”只差一步,妻子待遇来了​

杜富国晋升二级军士长,距离“兵王”只差一步,妻子待遇来了​

阿器谈史
2026-01-14 20:47:10
《波斯王子》被取消真正原因 90%由育碧印度开发

《波斯王子》被取消真正原因 90%由育碧印度开发

3DM游戏
2026-01-24 10:50:05
深圳这晚,黄宗泽风衣拖地,阿那如穿深V,全败给一73岁“老头”

深圳这晚,黄宗泽风衣拖地,阿那如穿深V,全败给一73岁“老头”

大铁猫娱乐
2026-01-23 13:05:03
在湖北投产!全球单体规模最大!

在湖北投产!全球单体规模最大!

黄河新闻网吕梁频道
2026-01-25 09:41:51
金与正的婚姻决定震惊朝鲜内外:再也不会有第二个张成泽!

金与正的婚姻决定震惊朝鲜内外:再也不会有第二个张成泽!

阿校谈史
2025-07-23 16:33:19
就在今晚!1月25日晚19:30!中央5套CCTV5、CCTV5+直播节目表

就在今晚!1月25日晚19:30!中央5套CCTV5、CCTV5+直播节目表

皮皮观天下
2026-01-25 08:58:48
张柏芝一家四口飞澳洲,疑给大儿子陪读,7岁小王子圆脸很呆萌!

张柏芝一家四口飞澳洲,疑给大儿子陪读,7岁小王子圆脸很呆萌!

娱乐团长
2026-01-22 21:11:06
“戏混子”扎堆,比资本家丑孩子更可怕的是 “星二代”开始世袭了

“戏混子”扎堆,比资本家丑孩子更可怕的是 “星二代”开始世袭了

老吴教育课堂
2026-01-24 16:04:18
东风导弹泄密案:间谍郭万钧一家三口,全部被处以死刑

东风导弹泄密案:间谍郭万钧一家三口,全部被处以死刑

冰点历史
2025-07-15 09:33:13
亲人在阴间真正缺少的东西,扫墓时火苗偏向你,是催你送3样东西

亲人在阴间真正缺少的东西,扫墓时火苗偏向你,是催你送3样东西

古怪奇谈录
2026-01-21 14:31:45
水均益到泉州女婿家做客,和前妻同框还抱外孙女,对女婿称呼疏离

水均益到泉州女婿家做客,和前妻同框还抱外孙女,对女婿称呼疏离

李佳康
2025-12-18 01:35:59
欠中国的钱,委内瑞拉不还了?美财长:中国已无法继续获得委石油

欠中国的钱,委内瑞拉不还了?美财长:中国已无法继续获得委石油

我是盲流
2026-01-22 11:37:44
年薪723万!本赛季的普里查德,什么水平?

年薪723万!本赛季的普里查德,什么水平?

篮球实录
2026-01-24 22:50:00
日本知名女星上围丰满火辣,被曝下海拍AV,曾全裸出演《花与蛇》

日本知名女星上围丰满火辣,被曝下海拍AV,曾全裸出演《花与蛇》

翰飞观事
2025-12-29 21:19:30
2026-01-25 10:44:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11118文章数 116946关注度
往期回顾 全部

科技要闻

马斯克SpaceX背后的她:现实版钢铁侠小辣椒

头条要闻

牛弹琴:特朗普称"中国想吞并加拿大" 全世界目瞪口呆

头条要闻

牛弹琴:特朗普称"中国想吞并加拿大" 全世界目瞪口呆

体育要闻

当家球星打替补,他们在故意摆烂?

娱乐要闻

田亮一家新年全家福!森碟变清纯少女

财经要闻

隋广义等80人被公诉 千亿骗局进入末路

汽车要闻

别克至境E7内饰图曝光 新车将于一季度正式发布

态度原创

数码
家居
亲子
房产
公开课

数码要闻

Stackwarp漏洞免疫!国产C86硬件安全战再下一城

家居要闻

在家度假 160平南洋混搭宅

亲子要闻

孩子三岁前别瞎教 家长只需做好这些事

房产要闻

正式官宣!三亚又一所名校要来了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版