网易首页 > 网易号 > 正文 申请入驻

有重大进步但既贵又慢,最新推理模型o1能让OpenAI保持领先吗?

0
分享至

图片来源:OpenAI官网

蓝鲸新闻9月13日讯(记者 朱俊熹)千呼万唤中,OpenAI的"草莓"终于成熟。这个最新的推理大模型项目此前已传闻许久、剧透多次,它的正式命名是OpenAI o1,在部分基准测试中表现出超越人类博士级的水平。OpenAI也由此开启有别于GPT命名序列之外的全新大模型系列。

当地时间9月12日,OpenAI发布OpenAI o1的预览版本,称这是新开发的一系列AI模型中的第一个。据OpenAI介绍,该系列模型能够花更多时间思考后再做出反应。与此前的模型相比,在科学、编码和数学领域,它们可以推理复杂的任务,解决更难的问题。

"对于复杂的推理任务来说,这是一个重大进步,代表了人工智能能力的新水平。有鉴于此,我们将计数器重置为1,并将此系列命名为OpenAI o1。"OpenAI表示。

官方认为,o1是划时代的产品。按照OpenAI今年7月提出的一套对AI进行分级的五级系统,新模型o1已超越第一级的AI对话助手,到达第二级别的"推理者"。在这一级别,人工智能的水平相当于拥有博士学位但无法使用工具的人类,能够解决基本的问题。距离实现OpenAI关于通用人工智能的终极目标,o1还有三级之差。

在数学、编码等方面,OpenAI新模型的表现得到了大幅提升。在国际数学奥林匹克 (IMO) 资格考试中,该模型的正确率高达83%,而前一代大模型GPT-4o仅有13%。在模拟编程竞赛平台Codeforces的比赛中,新模型的表现超过了89%的测试者,而GPT-4o超过11%的测试者。在涵盖物理、化学、生物等多学科领域的GPQA基准测试中,新模型的得分能够超越具有博士学位的专家,成为首个实现这一成就的模型。

OpenAI的竞争对手们在推出AI大模型时,往往也会强调其推理能力。谷歌的AI研究实验室DeepMind在7月底宣布,其开发的两个AI系统能够共同解决数学中的高级推理问题,在今年的国际数学奥林匹克(IMO)中首次取得与银牌得主同等的成绩。另一AI初创企业Anthropic 6月推出了Claude 3.5 Sonnet模型,在推理、编码等测试中的得分也超过了GPT-4o,排在行业前列。

o1尚在初级阶段,难以完全避免错误

OpenAI称,o1模型尚处于早期阶段,付费用户目前能够使用的是o1-preview版本,还不具备ChatGPT的许多实用功能,如浏览网页获取信息、上传文件和图片等。对于很多常见情况,短期内GPT-4o的能力会更强。

参与o1项目的OpenAI研究科学家Noam Brown在社交媒体X上表示,"o1模型并不总是比GPT-4o好。许多任务并不需要推理,有时等待o1回复不如快速获得GPT-4o的响应值得。发布o1-preview的一个动机是看看哪些用例会变得流行,以及模型在哪些方面需要改进。"

OpenAI在介绍新模型时提到,它们被训练用更多时间来思考问题,然后再做出反应,就像人类一样。通过这样的训练,模型能够学会完善自己的思维过程,尝试不同的策略,并认识到自己的错误。

OpenAI的研究负责人Jerry Tworek告诉科技媒体The Verge,o1使用了全新的优化算法和专门为其量身定制的新训练数据集进行训练。OpenAI利用一种名为"强化学习"的技术,通过奖惩训练o1自行解决问题。之后再采用"思路链"的技术,将复杂的问题分解为更小的逻辑步骤,类似于人类逐步解决问题的方式。Jerry Tworek表示,借助新的训练方法,新模型会更加准确,幻觉问题减少,但依然存在。

在实际体验过程中,OpenAI o1-preview能够正确回答出"Strawberry"单词中有3个字母"r",而此前多数AI大模型在这一问题上都频频翻车。另外,像此前对其他大模型产品一样,很多用户依然拿"9.11和9.8哪个大"的问题去测试o1,而o1先是在思考后迅速给出"9.11比9.8大"的错误答案。在追问其"为什么"后,该模型花了25秒的思考时间,并显示出确认数值、比较数值大小、确保准确性等简要的思维描述,最终得出"9.8比9.11大"的正确回答。

图片来源:ChatGPT截图

OpenAI的首席执行官Sam Altman在社交媒体X上表示,"o1仍有缺陷,也仍有局限性。初次使用它时,比长时间使用后更令人印象深刻。"

OpenAI表示,新模型适用于医疗研究人员、物理学家、开发人员等群体,可以利用其增强的推理能力解决科学、编码、数学等领域的复杂问题。OpenAI还同步发布了速度更快、成本更低的o1-mini版本,在编码方面更为高效。

目前,o1-preview和o1-mini已在ChatGPT中面向Plus和Team等部分付费用户开放使用,但设有消息次数限制。OpenAI称,下周将向剩下的企业和教育用户开放,同时计划未来将向所有使用免费版本的用户提供o1-mini的访问权限。

入不敷出,OpenAI仍需巨额融资

在大模型飞跃的推理能力背后,同样意味着巨大的训练和运行成本。此前曾有消息称OpenAI可能会希望将部分成本转嫁给用户,将ChatGPT的订阅费用提高到原来的10至100倍。但现在看来,OpenAI的To C定价未发生改变,会员服务仍维持在每月最少20美元。而API调用收费确实出现大幅上调,o1-preview每百万tokens输入价格为15美元,是GPT-4o的3倍,输出价格为60美元,是GPT-4o的4倍。

更多的用户倾向于使用ChatGPT的免费版本,这正在让OpenAI陷入盈利困境。硅谷科技媒体The Information 在9月12日报道称,OpenAI的首席运营官Brad Lightcap最近向员工透露,ChatGPT已拥有超过1000万付费用户。但相较于8月底公布的每周超2亿的活跃用户数,这仍然意味着绝大多数用户使用的还是免费版ChatGPT。

数亿名用户在免费使用时带来的计算成本,叠加研发新模型时的巨额投入,OpenAI在实现快速进化的同时,也面临巨亏。据The Information估算,对ChatGPT的C端订阅费用和出售AI模型的收入进行合计,OpenAI未来12个月的收入有望达到约40亿美元,高于今年年中的34亿美元年化收入,但仍将亏损数十亿美元。

OpenAI也正在积极寻求新一轮融资。9月12日,彭博社援引知情人士称,OpenAI正洽谈以1500亿美元估值筹集65亿美元,同时还在商谈以循环信贷的方式向银行借款50亿美元。据多家外媒此前报道,OpenAI本轮融资的领投者为美国风投公司Thrive Capital,微软、苹果、英伟达三家巨头也在谈判加入,全球市值前三的公司有望齐聚OpenAI。

The Information在最新报道中指出,这份可能的投资名单还加上了阿联酋政府支持的投资基金MGX。该基金的创立方包括阿布扎比主权财富基金穆巴达拉、阿联酋AI巨头G42,后者今年4月与OpenAI最大股东微软达成了合作协议,微软对其投资15亿美元。OpenAI早期投资者Khosla Ventures也计划通过特殊目的公司参与到投资中。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
浙江久违的中锋外援复出!本轮踢河南队可能会登场,值得期待

浙江久违的中锋外援复出!本轮踢河南队可能会登场,值得期待

懂个球
2026-05-29 01:00:00
骑士队媒体:交易得到哈登,毁掉了骑士队争冠的最佳机会

骑士队媒体:交易得到哈登,毁掉了骑士队争冠的最佳机会

刘哥谈体育
2026-05-28 18:57:30
婚内强奸是强奸,那妻子抢工资是抢劫?付费同房是嫖娼?撕开婚姻最双标的底层真相

婚内强奸是强奸,那妻子抢工资是抢劫?付费同房是嫖娼?撕开婚姻最双标的底层真相

青苹果sht
2026-05-26 04:58:29
招生难!湖南21所民办本科何去何从:降费?合并?还是彻底出局?

招生难!湖南21所民办本科何去何从:降费?合并?还是彻底出局?

朗威谈星座
2026-05-28 14:20:57
896线激光雷达+三腔空气悬架,新车上市,29.29万起!

896线激光雷达+三腔空气悬架,新车上市,29.29万起!

科技堡垒
2026-05-26 10:53:48
水晶宫夺冠引发连锁反应,英格兰八支低级别球队赛程遭殃

水晶宫夺冠引发连锁反应,英格兰八支低级别球队赛程遭殃

星耀国际足坛
2026-05-28 23:46:35
特朗普称不希望台湾“独立”,赖清德狡辩:没有“台独”问题,国防部:是被现实狠狠打脸后变换话术的重新伪装

特朗普称不希望台湾“独立”,赖清德狡辩:没有“台独”问题,国防部:是被现实狠狠打脸后变换话术的重新伪装

每日经济新闻
2026-05-28 17:25:35
与水晶宫高层闹翻 51岁奥地利名帅告别:1年夺3冠 队史前120年0冠

与水晶宫高层闹翻 51岁奥地利名帅告别:1年夺3冠 队史前120年0冠

风过乡
2026-05-28 05:49:47
入侵前兆!荷兰战舰海空一体强闯中国领土,我军主动使用电磁压制

入侵前兆!荷兰战舰海空一体强闯中国领土,我军主动使用电磁压制

共工之锚
2026-05-28 12:30:57
官方:中国女篮球员王思雨加盟WNBL墨尔本南区飞人队

官方:中国女篮球员王思雨加盟WNBL墨尔本南区飞人队

懂球帝
2026-05-28 12:58:08
央视曝光升级版杀猪盘

央视曝光升级版杀猪盘

环球网资讯
2026-05-28 10:09:54
比赖清德还狂!若2028年她当台湾地区领导人,解放军出手武力统台

比赖清德还狂!若2028年她当台湾地区领导人,解放军出手武力统台

阿讯说天下
2026-05-26 13:40:22
28岁小伙模仿黄仁勋火了,面粉抹头扮白发,视频播放量轻松破百万

28岁小伙模仿黄仁勋火了,面粉抹头扮白发,视频播放量轻松破百万

丫头舫
2026-05-28 16:42:19
​欧协联决赛:巴列卡诺输掉决赛,却赢得全世界

​欧协联决赛:巴列卡诺输掉决赛,却赢得全世界

乐道足球C
2026-05-28 10:21:17
股市中小资金真正做大的唯一方式:死记这种“笨”方法,建议收藏

股市中小资金真正做大的唯一方式:死记这种“笨”方法,建议收藏

一方聊市
2026-05-26 11:00:03
年欠费超200亿元,全国多地追缴停车“逃单”

年欠费超200亿元,全国多地追缴停车“逃单”

第一财经资讯
2026-05-28 20:18:17
郑州3名女子做整形手术后集体崩溃:嘴歪、斑秃、脸部变形,“变成了蛤蟆一样的青蛙脸”,整形机构工作人员一问三不知

郑州3名女子做整形手术后集体崩溃:嘴歪、斑秃、脸部变形,“变成了蛤蟆一样的青蛙脸”,整形机构工作人员一问三不知

极目新闻
2026-05-28 18:07:32
镜头全删综艺下架,林志玲一夜之间被全面除名模糊立场必付出代价

镜头全删综艺下架,林志玲一夜之间被全面除名模糊立场必付出代价

乐悠悠娱乐
2026-05-28 12:58:40
山西吕梁一36岁男子钓场落水遇难,妻子称他是为救人被拖下水,家中还有8岁女儿和6岁儿子,尚不知爸爸已离世

山西吕梁一36岁男子钓场落水遇难,妻子称他是为救人被拖下水,家中还有8岁女儿和6岁儿子,尚不知爸爸已离世

极目新闻
2026-05-28 17:25:47
女明星景甜被爆料代孕的真相:男友的假“百亿富豪”身份被识破

女明星景甜被爆料代孕的真相:男友的假“百亿富豪”身份被识破

总在茶余后
2026-05-27 17:45:52
2026-05-29 04:08:49
蓝鲸新闻 incentive-icons
蓝鲸新闻
财经信息服务平台
133218文章数 193923关注度
往期回顾 全部

科技要闻

利润跌27%:快手只剩“可灵”这张牌?

头条要闻

男子疑遭家暴跳楼身亡 母亲:儿媳说"你不配活在世上"

头条要闻

男子疑遭家暴跳楼身亡 母亲:儿媳说"你不配活在世上"

体育要闻

唐斯经历的一切,此刻的他与尼克斯

娱乐要闻

林俊杰七七与大哥嫂子的瓜剪不断理还乱

财经要闻

小米仍需一次创业

汽车要闻

从智驾兜底到自研4nm芯片,再到迪迪虾,比亚迪智能化战略凭什么封神?

态度原创

艺术
数码
房产
手机
军事航空

艺术要闻

2026陕西省青年美术作品展 入选油画

数码要闻

宏碁推出Predator Atlas 8掌机:8" FHD+ 120Hz 500nits触屏

房产要闻

突发重磅!三亚新机场公司正式成立!

手机要闻

红米K100 Pro Max与荣耀Magic9标准版,均传出新消息!

军事要闻

美锁定伊朗打击新目标 考虑重启军事行动

无障碍浏览 进入关怀版