网易首页 > 网易科技 > 网易科技 > 正文

速度放缓!OpenAI新旗舰模型进步幅度没那么大

0
分享至

11月11日消息,尽管使用聊天机器人ChatGPT等人工智能产品的人数在激增,但支撑这些技术的底层模块的改进速度似乎正在放缓。为此,ChatGPT的开发者OpenAI正在开发新技术,以增强大语言模型等核心模块,从而应对这一挑战。

OpenAI即将推出的旗舰模型“猎户座”(Orion)所面临的挑战突显了公司当前遇到的难题。今年5月,OpenAI首席执行官萨姆·奥特曼(Sam Altman)在内部透露,他预计正在训练中的猎户座将显著优于一年前发布的上一代旗舰模型。据知情人士称,尽管猎户座的训练进度仅完成20%,但其智能和任务完成能力已与GPT-4不相上下。

不过,一些使用或测试过猎户座的OpenAI员工表示,尽管其性能确实超越了前代模型,但提升幅度远不及从GPT-3到GPT-4的跃升。一些研究人员指出,猎户座在处理特定任务时未必稳定优于前代模型。一位员工表示,猎户座在语言任务上表现出色,但在编码等任务中可能不如之前的模型。这种情况可能会带来问题,因为与OpenAI近期发布的其他模型相比,猎户座在数据中心的运行成本更高。

猎户座的表现正在考验人工智能领域的核心假设——缩放定律,即只要数据量和计算能力持续增加,大语言模型就能不断改进。面对GPT改进速度放缓带来的挑战,业界似乎正将重点转向初始训练后的模型优化,这可能会产生一种新的缩放定律。

Facebook母公司Meta首席执行官马克·扎克伯格(Mark Zuckerberg)在内的一些科技领袖认为,即使在技术未能进一步突破的最坏情况下,基于当前技术仍然有很大的开发空间来创建面向消费者和企业的产品。

OpenAI正在应对竞争对手Anthropic的威胁,将更多的代码编写功能嵌入其模型中,并开发能够模拟人类操作计算机的软件,以完成涉及浏览器和应用程序操作的白领任务,如点击、光标移动和文本输入等。

这些产品属于能够执行多步骤任务的AI代理范畴,其革命性可能与ChatGPT的首次发布相当。

扎克伯格、奥特曼及其他人工智能开发者的高管表示,他们尚未触及传统缩放定律的极限。也因此,包括OpenAI在内的公司依旧投资数十亿美元建设数据中心,以尽可能提高预训练模型的性能。

然而,OpenAI研究员诺姆·布朗(Noam Brown)在上月的TEDAI大会上提出警告,认为开发更先进的模型可能在经济上变得不可持续。他表示:“我们真的会投入数千亿甚至万亿美元来训练模型吗?缩放模式在某个时刻会失效。”

在公开发布猎户座之前,OpenAI仍需完成复杂的安全测试。据员工透露,猎户座可能会在明年初发布,并可能放弃传统的“GPT”命名方式,以突显大语言模型改进的新特性。对此,OpenAI发言人未予置评。

数据匮乏成为模型训练的瓶颈

OpenAI的员工和研究人员指出,GPT进步放缓的原因之一在于高质量文本和其他数据的供应日益减少。大语言模型在预训练阶段需要这些数据来理解世界和不同概念之间的关系,以解决如撰写博文或修复编码错误等问题。

近年来,大语言模型主要依赖于网站、书籍等来源的公开文本数据进行预训练,但开发者已几乎耗尽了这类数据的潜力。为此,OpenAI组建了由曾负责预训练的尼克·赖德(Nick Ryder)领导的基础团队,致力于研究如何应对数据短缺问题,并探索缩放定律的持续适用性。

据OpenAI员工透露,猎户座部分使用了由其他OpenAI模型(如GPT-4和最近发布的推理模型)生成的AI数据进行训练。然而,这种合成数据也带来了新问题,可能导致猎户座在某些方面与前代模型过于相似。

OpenAI的研究人员正在利用其他工具,通过改进特定任务的处理方式来优化模型后期的表现。他们采用一种称为强化学习的方法,让模型从大量已正确解决的问题中学习,如数学和编码问题。

此外,研究人员还邀请人类评估员在编码或问题解决任务上测试预训练模型,并对其答案进行评分,这有助于研究人员调整模型,使其在写作和编码等请求上的表现更佳。这一过程称为带有人类反馈的强化学习,也曾帮助过早期的AI模型改进。

OpenAI及其他AI开发商通常依赖初创公司,如Scale AI和Turing,来管理成千上万名承包商,以处理这些评估工作。

OpenAI还开发了一种名为o1的推理模型,该模型在回答前会花费更多时间“思考”训练数据,这一过程称为测试时间计算。这意味着,即使不改变底层模型,给o1分配更多计算资源,也可以持续提高其响应质量。据知情人士透露,即使底层模型改进速度较慢,若OpenAI能保持持续改进,仍然可以实现更好的推理效果。

“这为模型扩展开辟了新维度,”布朗在TED大会上说。他补充道,研究人员可以通过“每次查询成本从1美分提高到10美分”来提升模型响应质量。

奥特曼也强调了推理模型的重要性,认为它可与大语言模型结合使用。“我希望推理能力能够解锁我们多年未能实现的突破,比如让模型在科学研究和复杂代码编写中做出贡献,”奥特曼在一场应用开发者活动中表示。

在最近接受Y Combinator首席执行官陈嘉兴(Garry Tan)采访时,奥特曼透露:“我们基本上知道如何实现通用人工智能——一种能达到人类能力的技术,其中一部分是创造性地运用现有模型。”

数学家和科学家们表示,o1对他们的研究工作有帮助,能作为合作伙伴提供反馈和启发。然而,据两位知情员工透露,由于o1的价格是非推理模型的六倍,因此其客户基础尚未普及。

突破瓶颈,提升推理能力

一些对AI开发商投资数千万美元的投资者疑虑大语言模型的改进速度是否开始趋于平稳。

风险投资家本·霍洛维茨(Ben Horowitz)在YouTube一段视频中表示:“我们正以相同的速度增加训练AI的图形处理单元,但在智能提升方面未见显著改善。”霍洛维茨的风投公司不仅是OpenAI的股东,还投资了Mistral和Safe Superintelligence等竞争对手。

霍洛维茨的同事马克·安德森(Marc Andreessen)在同一视频中指出:“许多聪明人在致力于突破瓶颈,探索如何提升推理能力。”

企业软件公司Databricks联合创始人兼主席伊翁·斯托伊卡(Ion Stoica)表示,大语言模型在某些方面可能已趋于稳定,但在其他领域仍有改进空间。他还开发了一个网站,供应用开发者评估不同的大语言模型。

斯托伊卡称,尽管AI在编码和解决复杂问题上不断进步,但在执行通用任务(如分析文本情感或描述医疗症状)时,进展似乎放缓。

“在常识性问题上,我们似乎看到大语言模型的表现趋于平稳。为实现进一步突破,我们需要更多的事实性数据,而合成数据帮助有限。”(小小)

延伸阅读
相关推荐
热点推荐
某头部央企,年底大规模裁员!

某头部央企,年底大规模裁员!

地产八卦
2025-12-17 07:06:08
奥迪A6L终于开窍了!直降20.18万,网友:老车主集体破防

奥迪A6L终于开窍了!直降20.18万,网友:老车主集体破防

汽车网评
2025-12-17 21:24:45
伤亡700人,中方援建大桥被炸,中械军大胜,大批导弹成战利品

伤亡700人,中方援建大桥被炸,中械军大胜,大批导弹成战利品

爱情毕业了
2025-12-17 08:28:28
谁说制裁日本高官没有用?看看日本官方和他儿子的反应就知道了

谁说制裁日本高官没有用?看看日本官方和他儿子的反应就知道了

娱乐的宅急便
2025-12-17 11:26:56
2025最惨大撤退:18万家快递驿站,快把所有人得罪光了

2025最惨大撤退:18万家快递驿站,快把所有人得罪光了

金错刀
2025-12-14 15:34:35
苦等5年,蒙古熟鸭子还是飞了,中俄谁也不让步,坐视大项目泡汤

苦等5年,蒙古熟鸭子还是飞了,中俄谁也不让步,坐视大项目泡汤

科普100克克
2025-12-07 18:20:34
宣告奇迹出现刚2个月,蔡磊再破天花板,让整个科研界“沉默”了

宣告奇迹出现刚2个月,蔡磊再破天花板,让整个科研界“沉默”了

大眼妹妹
2025-11-27 20:17:22
糖尿病最怕的早餐!医生再三强调:宁可饿着,也别碰这5种早餐

糖尿病最怕的早餐!医生再三强调:宁可饿着,也别碰这5种早餐

读懂世界历史
2025-12-17 21:28:48
为什么当年的西方,要把先进的高铁技术转让给中国?

为什么当年的西方,要把先进的高铁技术转让给中国?

南权先生
2025-12-08 17:48:15
官方:2026年世界杯财政拨款7.27亿美元,冠军奖金5000万美元

官方:2026年世界杯财政拨款7.27亿美元,冠军奖金5000万美元

懂球帝
2025-12-17 21:00:05
2025年高校教师退休新规定出台

2025年高校教师退休新规定出台

化学人生
2025-12-17 20:54:20
台亿万富翁携妻钻进焚化炉,锁门启动焚烧,连3个孩子也被磨成粉

台亿万富翁携妻钻进焚化炉,锁门启动焚烧,连3个孩子也被磨成粉

麦大人
2023-12-25 17:18:01
泰军争议高地缴获大国造GAM-102LR反坦克导弹,柬军弃械溃逃

泰军争议高地缴获大国造GAM-102LR反坦克导弹,柬军弃械溃逃

老马拉车莫少装
2025-12-14 23:29:14
事实证明!陪马克龙回国的巩俐,可能已经走上了另一条大道

事实证明!陪马克龙回国的巩俐,可能已经走上了另一条大道

梦史
2025-12-13 11:46:11
反击战名将廖锡龙:坚持举报总后勤部副部长谷俊山,结果如何?

反击战名将廖锡龙:坚持举报总后勤部副部长谷俊山,结果如何?

大运河时空
2025-12-16 07:40:03
鞠婧祎偷鸡不成蚀把米!这下好了,全世界都知道内娱赚钱有多疯了

鞠婧祎偷鸡不成蚀把米!这下好了,全世界都知道内娱赚钱有多疯了

乐悠悠娱乐
2025-12-17 10:25:53
查尔斯举办圣诞节前宴会,王室成员都来了:小公主美出新高度。

查尔斯举办圣诞节前宴会,王室成员都来了:小公主美出新高度。

书中自有颜如玉
2025-12-17 14:37:17
人数不够,票价来凑?《阿凡达3》票价太高引争议,吃相真难看

人数不够,票价来凑?《阿凡达3》票价太高引争议,吃相真难看

娱乐圈笔娱君
2025-12-17 14:15:17
空缺246天!长安汽车总裁终落定,“老兵”赵非上任

空缺246天!长安汽车总裁终落定,“老兵”赵非上任

国际金融报
2025-12-16 20:09:28
笑了!柬泰冲突后,泰国驻华大使馆微博下面,全是一样的评论

笑了!柬泰冲突后,泰国驻华大使馆微博下面,全是一样的评论

消失的电波
2025-12-15 14:10:23
2025-12-17 23:08:49

科技要闻

特斯拉值1.6万亿靠画饼 Waymo值千亿靠跑单

头条要闻

捐赠博物馆价值8800万的名画现身拍卖市场 捐赠方发声

头条要闻

捐赠博物馆价值8800万的名画现身拍卖市场 捐赠方发声

体育要闻

短短一年,从争冠到0胜垫底...

娱乐要闻

狗仔曝热播剧姐弟恋真谈了???

财经要闻

重磅信号!收入分配制度或迎重大突破

汽车要闻

一车多动力+双姿态 长城欧拉5上市 限时9.18万元起

态度原创

本地
游戏
数码
公开课
军事航空

本地新闻

云游安徽|踏过战壕与石板,读一部活的淮北史

地表最强帕鲁诞生!幻兽帕鲁全新版本上线,新装备特效太强了

数码要闻

连续五年全国销量第一 添可洗地机为何被称一次性用品?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

最新现场:山东舰完成年度最后一次海上训练

无障碍浏览 进入关怀版
×