网易首页 > 网易科技 > 网易科技 > 正文

速度放缓!OpenAI新旗舰模型进步幅度没那么大

0
分享至

11月11日消息,尽管使用聊天机器人ChatGPT等人工智能产品的人数在激增,但支撑这些技术的底层模块的改进速度似乎正在放缓。为此,ChatGPT的开发者OpenAI正在开发新技术,以增强大语言模型等核心模块,从而应对这一挑战。

OpenAI即将推出的旗舰模型“猎户座”(Orion)所面临的挑战突显了公司当前遇到的难题。今年5月,OpenAI首席执行官萨姆·奥特曼(Sam Altman)在内部透露,他预计正在训练中的猎户座将显著优于一年前发布的上一代旗舰模型。据知情人士称,尽管猎户座的训练进度仅完成20%,但其智能和任务完成能力已与GPT-4不相上下。

不过,一些使用或测试过猎户座的OpenAI员工表示,尽管其性能确实超越了前代模型,但提升幅度远不及从GPT-3到GPT-4的跃升。一些研究人员指出,猎户座在处理特定任务时未必稳定优于前代模型。一位员工表示,猎户座在语言任务上表现出色,但在编码等任务中可能不如之前的模型。这种情况可能会带来问题,因为与OpenAI近期发布的其他模型相比,猎户座在数据中心的运行成本更高。

猎户座的表现正在考验人工智能领域的核心假设——缩放定律,即只要数据量和计算能力持续增加,大语言模型就能不断改进。面对GPT改进速度放缓带来的挑战,业界似乎正将重点转向初始训练后的模型优化,这可能会产生一种新的缩放定律。

Facebook母公司Meta首席执行官马克·扎克伯格(Mark Zuckerberg)在内的一些科技领袖认为,即使在技术未能进一步突破的最坏情况下,基于当前技术仍然有很大的开发空间来创建面向消费者和企业的产品。

OpenAI正在应对竞争对手Anthropic的威胁,将更多的代码编写功能嵌入其模型中,并开发能够模拟人类操作计算机的软件,以完成涉及浏览器和应用程序操作的白领任务,如点击、光标移动和文本输入等。

这些产品属于能够执行多步骤任务的AI代理范畴,其革命性可能与ChatGPT的首次发布相当。

扎克伯格、奥特曼及其他人工智能开发者的高管表示,他们尚未触及传统缩放定律的极限。也因此,包括OpenAI在内的公司依旧投资数十亿美元建设数据中心,以尽可能提高预训练模型的性能。

然而,OpenAI研究员诺姆·布朗(Noam Brown)在上月的TEDAI大会上提出警告,认为开发更先进的模型可能在经济上变得不可持续。他表示:“我们真的会投入数千亿甚至万亿美元来训练模型吗?缩放模式在某个时刻会失效。”

在公开发布猎户座之前,OpenAI仍需完成复杂的安全测试。据员工透露,猎户座可能会在明年初发布,并可能放弃传统的“GPT”命名方式,以突显大语言模型改进的新特性。对此,OpenAI发言人未予置评。

数据匮乏成为模型训练的瓶颈

OpenAI的员工和研究人员指出,GPT进步放缓的原因之一在于高质量文本和其他数据的供应日益减少。大语言模型在预训练阶段需要这些数据来理解世界和不同概念之间的关系,以解决如撰写博文或修复编码错误等问题。

近年来,大语言模型主要依赖于网站、书籍等来源的公开文本数据进行预训练,但开发者已几乎耗尽了这类数据的潜力。为此,OpenAI组建了由曾负责预训练的尼克·赖德(Nick Ryder)领导的基础团队,致力于研究如何应对数据短缺问题,并探索缩放定律的持续适用性。

据OpenAI员工透露,猎户座部分使用了由其他OpenAI模型(如GPT-4和最近发布的推理模型)生成的AI数据进行训练。然而,这种合成数据也带来了新问题,可能导致猎户座在某些方面与前代模型过于相似。

OpenAI的研究人员正在利用其他工具,通过改进特定任务的处理方式来优化模型后期的表现。他们采用一种称为强化学习的方法,让模型从大量已正确解决的问题中学习,如数学和编码问题。

此外,研究人员还邀请人类评估员在编码或问题解决任务上测试预训练模型,并对其答案进行评分,这有助于研究人员调整模型,使其在写作和编码等请求上的表现更佳。这一过程称为带有人类反馈的强化学习,也曾帮助过早期的AI模型改进。

OpenAI及其他AI开发商通常依赖初创公司,如Scale AI和Turing,来管理成千上万名承包商,以处理这些评估工作。

OpenAI还开发了一种名为o1的推理模型,该模型在回答前会花费更多时间“思考”训练数据,这一过程称为测试时间计算。这意味着,即使不改变底层模型,给o1分配更多计算资源,也可以持续提高其响应质量。据知情人士透露,即使底层模型改进速度较慢,若OpenAI能保持持续改进,仍然可以实现更好的推理效果。

“这为模型扩展开辟了新维度,”布朗在TED大会上说。他补充道,研究人员可以通过“每次查询成本从1美分提高到10美分”来提升模型响应质量。

奥特曼也强调了推理模型的重要性,认为它可与大语言模型结合使用。“我希望推理能力能够解锁我们多年未能实现的突破,比如让模型在科学研究和复杂代码编写中做出贡献,”奥特曼在一场应用开发者活动中表示。

在最近接受Y Combinator首席执行官陈嘉兴(Garry Tan)采访时,奥特曼透露:“我们基本上知道如何实现通用人工智能——一种能达到人类能力的技术,其中一部分是创造性地运用现有模型。”

数学家和科学家们表示,o1对他们的研究工作有帮助,能作为合作伙伴提供反馈和启发。然而,据两位知情员工透露,由于o1的价格是非推理模型的六倍,因此其客户基础尚未普及。

突破瓶颈,提升推理能力

一些对AI开发商投资数千万美元的投资者疑虑大语言模型的改进速度是否开始趋于平稳。

风险投资家本·霍洛维茨(Ben Horowitz)在YouTube一段视频中表示:“我们正以相同的速度增加训练AI的图形处理单元,但在智能提升方面未见显著改善。”霍洛维茨的风投公司不仅是OpenAI的股东,还投资了Mistral和Safe Superintelligence等竞争对手。

霍洛维茨的同事马克·安德森(Marc Andreessen)在同一视频中指出:“许多聪明人在致力于突破瓶颈,探索如何提升推理能力。”

企业软件公司Databricks联合创始人兼主席伊翁·斯托伊卡(Ion Stoica)表示,大语言模型在某些方面可能已趋于稳定,但在其他领域仍有改进空间。他还开发了一个网站,供应用开发者评估不同的大语言模型。

斯托伊卡称,尽管AI在编码和解决复杂问题上不断进步,但在执行通用任务(如分析文本情感或描述医疗症状)时,进展似乎放缓。

“在常识性问题上,我们似乎看到大语言模型的表现趋于平稳。为实现进一步突破,我们需要更多的事实性数据,而合成数据帮助有限。”(小小)

延伸阅读
相关推荐
热点推荐
女子将敬酒服穿脏后,将吊牌重新焊接退货退款,商家:估计学的电焊专业

女子将敬酒服穿脏后,将吊牌重新焊接退货退款,商家:估计学的电焊专业

大象新闻
2026-02-11 19:45:21
“除夕3不摆,来年祸不兴”,这3样切记别上桌,不吉利,规矩要懂

“除夕3不摆,来年祸不兴”,这3样切记别上桌,不吉利,规矩要懂

小茉莉美食记
2026-02-12 10:30:06
罕见!山西6人被罚下场,专家:比赛没啥意思,但是冲突挺有意思

罕见!山西6人被罚下场,专家:比赛没啥意思,但是冲突挺有意思

南海浪花
2026-02-12 22:52:52
判了,无期!敛财3.8亿,伪装了7年的励志网红,最终还是露馅了

判了,无期!敛财3.8亿,伪装了7年的励志网红,最终还是露馅了

蜉蝣说
2025-10-21 09:19:12
李玮锋:董方卓水平不行曼联能花钱买他?李铁踢英超70分钟没体能

李玮锋:董方卓水平不行曼联能花钱买他?李铁踢英超70分钟没体能

念洲
2026-02-12 08:47:23
今天,国家外交部发出提示,建议中国公民春节期间不要去日本旅游

今天,国家外交部发出提示,建议中国公民春节期间不要去日本旅游

每日一段历史
2026-02-12 17:57:04
第一代小米SU7正式停产,总计交付超36万辆 雷军:部分产线正在改造,为新一代SU7做准备

第一代小米SU7正式停产,总计交付超36万辆 雷军:部分产线正在改造,为新一代SU7做准备

每日经济新闻
2026-02-10 23:09:18
警惕你身边那些整天叫嚣“基本盘”的人

警惕你身边那些整天叫嚣“基本盘”的人

守望的田野
2026-02-06 09:02:57
吃他汀猝死的人越来越多?医生苦劝:天冷吃他汀,必须多关注5点

吃他汀猝死的人越来越多?医生苦劝:天冷吃他汀,必须多关注5点

冷眼看世界728
2026-02-12 21:47:42
突发!金价一夜大变,2月12日最新报价,全国价差惊人

突发!金价一夜大变,2月12日最新报价,全国价差惊人

户外钓鱼哥阿旱
2026-02-12 05:06:57
爆冷!利物浦昔日王牌彻底凉了,26 岁就遭弃用

爆冷!利物浦昔日王牌彻底凉了,26 岁就遭弃用

奶盖熊本熊
2026-02-13 02:57:21
广州长隆发生坠落事故

广州长隆发生坠落事故

东莞好生活
2026-02-11 17:17:17
小鹏真把“大湾区揽胜”造出来了!官方:6座全是C位

小鹏真把“大湾区揽胜”造出来了!官方:6座全是C位

网上车市
2026-02-12 10:16:03
日媒透露,高市或在11月访华!话音刚落,58条中日航线全部取消

日媒透露,高市或在11月访华!话音刚落,58条中日航线全部取消

钦点历史
2026-02-12 20:35:07
当年轻人接管年货大权后,画风就变了!网友:一代人有一代人的年货

当年轻人接管年货大权后,画风就变了!网友:一代人有一代人的年货

另子维爱读史
2026-02-11 18:19:40
万万没想到,6年前反中乱港分子的幕后金主,竟是个“爱国”商人

万万没想到,6年前反中乱港分子的幕后金主,竟是个“爱国”商人

百态人间
2026-01-17 16:16:00
挖坟了!一女子网购敬酒服穿脏后焊接吊牌退货,网友扒出发货地址

挖坟了!一女子网购敬酒服穿脏后焊接吊牌退货,网友扒出发货地址

火山詩话
2026-02-12 08:23:01
正式落选!0次全明星,能进名人堂吗?

正式落选!0次全明星,能进名人堂吗?

篮球实录
2026-02-13 00:43:10
莫言:如果一个男人,不吸烟,不喝酒,不赌博,性格内向,不喜欢社交。从不参加同学聚会……

莫言:如果一个男人,不吸烟,不喝酒,不赌博,性格内向,不喜欢社交。从不参加同学聚会……

每日一首古诗词
2025-11-22 09:04:45
心脏最怕“缺镁”!医生提醒:心脏不好的,可多吃这5种高镁食物

心脏最怕“缺镁”!医生提醒:心脏不好的,可多吃这5种高镁食物

九哥聊军事
2026-02-12 21:41:25
2026-02-13 04:35:00

科技要闻

10倍速的一夜:三大模型春节前的暗战

头条要闻

钟南山:会用证据让全世界服气

头条要闻

钟南山:会用证据让全世界服气

体育要闻

31岁首次参加冬奥,10年前她是个水管工

娱乐要闻

《惊蛰无声》违规抢占排片遭影院控诉

财经要闻

“影子万科”如何掘金万科?

汽车要闻

开212 T01柴油版去穿越 连牧马人都跟不上

态度原创

本地
时尚
房产
家居
公开课

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

50+女人怎么穿更好看?过来人告诉你答案,越老越美赢麻了

房产要闻

999元开线上免税店?海南爆出免税大骗局,多人已被抓!

家居要闻

本真栖居 爱暖伴流年

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版
×