网易首页 > 网易号 > 正文 申请入驻

有重大进步但既贵又慢,最新推理模型o1能让OpenAI保持领先吗?

0
分享至

图片来源:OpenAI官网

蓝鲸新闻9月13日讯(记者 朱俊熹)千呼万唤中,OpenAI的"草莓"终于成熟。这个最新的推理大模型项目此前已传闻许久、剧透多次,它的正式命名是OpenAI o1,在部分基准测试中表现出超越人类博士级的水平。OpenAI也由此开启有别于GPT命名序列之外的全新大模型系列。

当地时间9月12日,OpenAI发布OpenAI o1的预览版本,称这是新开发的一系列AI模型中的第一个。据OpenAI介绍,该系列模型能够花更多时间思考后再做出反应。与此前的模型相比,在科学、编码和数学领域,它们可以推理复杂的任务,解决更难的问题。

"对于复杂的推理任务来说,这是一个重大进步,代表了人工智能能力的新水平。有鉴于此,我们将计数器重置为1,并将此系列命名为OpenAI o1。"OpenAI表示。

官方认为,o1是划时代的产品。按照OpenAI今年7月提出的一套对AI进行分级的五级系统,新模型o1已超越第一级的AI对话助手,到达第二级别的"推理者"。在这一级别,人工智能的水平相当于拥有博士学位但无法使用工具的人类,能够解决基本的问题。距离实现OpenAI关于通用人工智能的终极目标,o1还有三级之差。

在数学、编码等方面,OpenAI新模型的表现得到了大幅提升。在国际数学奥林匹克 (IMO) 资格考试中,该模型的正确率高达83%,而前一代大模型GPT-4o仅有13%。在模拟编程竞赛平台Codeforces的比赛中,新模型的表现超过了89%的测试者,而GPT-4o超过11%的测试者。在涵盖物理、化学、生物等多学科领域的GPQA基准测试中,新模型的得分能够超越具有博士学位的专家,成为首个实现这一成就的模型。

OpenAI的竞争对手们在推出AI大模型时,往往也会强调其推理能力。谷歌的AI研究实验室DeepMind在7月底宣布,其开发的两个AI系统能够共同解决数学中的高级推理问题,在今年的国际数学奥林匹克(IMO)中首次取得与银牌得主同等的成绩。另一AI初创企业Anthropic 6月推出了Claude 3.5 Sonnet模型,在推理、编码等测试中的得分也超过了GPT-4o,排在行业前列。

o1尚在初级阶段,难以完全避免错误

OpenAI称,o1模型尚处于早期阶段,付费用户目前能够使用的是o1-preview版本,还不具备ChatGPT的许多实用功能,如浏览网页获取信息、上传文件和图片等。对于很多常见情况,短期内GPT-4o的能力会更强。

参与o1项目的OpenAI研究科学家Noam Brown在社交媒体X上表示,"o1模型并不总是比GPT-4o好。许多任务并不需要推理,有时等待o1回复不如快速获得GPT-4o的响应值得。发布o1-preview的一个动机是看看哪些用例会变得流行,以及模型在哪些方面需要改进。"

OpenAI在介绍新模型时提到,它们被训练用更多时间来思考问题,然后再做出反应,就像人类一样。通过这样的训练,模型能够学会完善自己的思维过程,尝试不同的策略,并认识到自己的错误。

OpenAI的研究负责人Jerry Tworek告诉科技媒体The Verge,o1使用了全新的优化算法和专门为其量身定制的新训练数据集进行训练。OpenAI利用一种名为"强化学习"的技术,通过奖惩训练o1自行解决问题。之后再采用"思路链"的技术,将复杂的问题分解为更小的逻辑步骤,类似于人类逐步解决问题的方式。Jerry Tworek表示,借助新的训练方法,新模型会更加准确,幻觉问题减少,但依然存在。

在实际体验过程中,OpenAI o1-preview能够正确回答出"Strawberry"单词中有3个字母"r",而此前多数AI大模型在这一问题上都频频翻车。另外,像此前对其他大模型产品一样,很多用户依然拿"9.11和9.8哪个大"的问题去测试o1,而o1先是在思考后迅速给出"9.11比9.8大"的错误答案。在追问其"为什么"后,该模型花了25秒的思考时间,并显示出确认数值、比较数值大小、确保准确性等简要的思维描述,最终得出"9.8比9.11大"的正确回答。

图片来源:ChatGPT截图

OpenAI的首席执行官Sam Altman在社交媒体X上表示,"o1仍有缺陷,也仍有局限性。初次使用它时,比长时间使用后更令人印象深刻。"

OpenAI表示,新模型适用于医疗研究人员、物理学家、开发人员等群体,可以利用其增强的推理能力解决科学、编码、数学等领域的复杂问题。OpenAI还同步发布了速度更快、成本更低的o1-mini版本,在编码方面更为高效。

目前,o1-preview和o1-mini已在ChatGPT中面向Plus和Team等部分付费用户开放使用,但设有消息次数限制。OpenAI称,下周将向剩下的企业和教育用户开放,同时计划未来将向所有使用免费版本的用户提供o1-mini的访问权限。

入不敷出,OpenAI仍需巨额融资

在大模型飞跃的推理能力背后,同样意味着巨大的训练和运行成本。此前曾有消息称OpenAI可能会希望将部分成本转嫁给用户,将ChatGPT的订阅费用提高到原来的10至100倍。但现在看来,OpenAI的To C定价未发生改变,会员服务仍维持在每月最少20美元。而API调用收费确实出现大幅上调,o1-preview每百万tokens输入价格为15美元,是GPT-4o的3倍,输出价格为60美元,是GPT-4o的4倍。

更多的用户倾向于使用ChatGPT的免费版本,这正在让OpenAI陷入盈利困境。硅谷科技媒体The Information 在9月12日报道称,OpenAI的首席运营官Brad Lightcap最近向员工透露,ChatGPT已拥有超过1000万付费用户。但相较于8月底公布的每周超2亿的活跃用户数,这仍然意味着绝大多数用户使用的还是免费版ChatGPT。

数亿名用户在免费使用时带来的计算成本,叠加研发新模型时的巨额投入,OpenAI在实现快速进化的同时,也面临巨亏。据The Information估算,对ChatGPT的C端订阅费用和出售AI模型的收入进行合计,OpenAI未来12个月的收入有望达到约40亿美元,高于今年年中的34亿美元年化收入,但仍将亏损数十亿美元。

OpenAI也正在积极寻求新一轮融资。9月12日,彭博社援引知情人士称,OpenAI正洽谈以1500亿美元估值筹集65亿美元,同时还在商谈以循环信贷的方式向银行借款50亿美元。据多家外媒此前报道,OpenAI本轮融资的领投者为美国风投公司Thrive Capital,微软、苹果、英伟达三家巨头也在谈判加入,全球市值前三的公司有望齐聚OpenAI。

The Information在最新报道中指出,这份可能的投资名单还加上了阿联酋政府支持的投资基金MGX。该基金的创立方包括阿布扎比主权财富基金穆巴达拉、阿联酋AI巨头G42,后者今年4月与OpenAI最大股东微软达成了合作协议,微软对其投资15亿美元。OpenAI早期投资者Khosla Ventures也计划通过特殊目的公司参与到投资中。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国企业对包括智能电视、显示器及其组件的视频功能电子设备提起337调查申请

美国企业对包括智能电视、显示器及其组件的视频功能电子设备提起337调查申请

财联社
2026-02-28 16:19:17
董璇带张维伊参加于正生日宴!娜扎张慧雯坐C位,于正对她很偏爱

董璇带张维伊参加于正生日宴!娜扎张慧雯坐C位,于正对她很偏爱

查尔菲的笔记
2026-02-28 16:33:48
一旦战争爆发中国或将被围攻,对中国而言,最危险的不只战争

一旦战争爆发中国或将被围攻,对中国而言,最危险的不只战争

来科点谱
2026-01-23 11:04:18
周杰伦和田馥甄的瓜,冲上热搜第一

周杰伦和田馥甄的瓜,冲上热搜第一

背包旅行
2026-02-27 17:05:44
大马士革飞往上海机票涨至382万元?

大马士革飞往上海机票涨至382万元?

21世纪经济报道
2026-02-28 20:39:46
火箭爆冷输热火,还内讧!杜兰特砍历史第5神迹,一战看清3个现实

火箭爆冷输热火,还内讧!杜兰特砍历史第5神迹,一战看清3个现实

毒舌NBA
2026-03-01 07:22:35
晚饭七分饱被推翻了?医生调查:过了71岁,吃饭尽量要做到这3点

晚饭七分饱被推翻了?医生调查:过了71岁,吃饭尽量要做到这3点

健康科普365
2026-02-28 19:40:03
赵忠祥离世6年后,22年前不惜赌上清白陷害他的饶颖,如今怎样了

赵忠祥离世6年后,22年前不惜赌上清白陷害他的饶颖,如今怎样了

胡一舸南游y
2026-02-28 17:19:02
不惯着!女子回婆家过年,车被妯娌砸烂,报警硬刚到底,结局亮了

不惯着!女子回婆家过年,车被妯娌砸烂,报警硬刚到底,结局亮了

川渝视觉
2026-02-28 09:15:48
马斯克牵手39岁女下属,3年生4娃终被承认!拿下首富的女人不简单

马斯克牵手39岁女下属,3年生4娃终被承认!拿下首富的女人不简单

商务范
2026-02-05 18:12:38
火辣混血女藤井マリー,妩媚短发让人无法抗拒!

火辣混血女藤井マリー,妩媚短发让人无法抗拒!

大为看点丶
2026-02-22 16:15:04
阳光城集团创始人林腾蛟滞留香港

阳光城集团创始人林腾蛟滞留香港

地产微资讯
2026-02-28 16:28:21
放弃加拿大籍,错过孩子出生,这个24岁小伙让郭士强赛后点名

放弃加拿大籍,错过孩子出生,这个24岁小伙让郭士强赛后点名

星Xin辰大海
2026-02-28 15:53:19
港中大校长段崇智,默许港独学生暴行,被英国颁奖,如今怎么样?

港中大校长段崇智,默许港独学生暴行,被英国颁奖,如今怎么样?

鬼菜生活
2026-02-03 18:35:49
春搭:一种向光展开的身体宣言

春搭:一种向光展开的身体宣言

疾跑的小蜗牛
2026-02-28 21:59:56
加纳乔再惹争议:赛前晒“嗜血雄狮”遭群嘲,切尔西或将其清洗

加纳乔再惹争议:赛前晒“嗜血雄狮”遭群嘲,切尔西或将其清洗

星耀国际足坛
2026-02-28 15:23:23
西甲最新积分战报:巴萨狂轰4球,马竞绝杀,皇家社会险胜

西甲最新积分战报:巴萨狂轰4球,马竞绝杀,皇家社会险胜

足球狗说
2026-03-01 06:09:21
价格战再次打响!问界“降”7万,零跑4.6万!

价格战再次打响!问界“降”7万,零跑4.6万!

电动知家
2026-02-28 19:59:59
中国人月薪过万很普遍了吗?网友:沿海基本上都过万

中国人月薪过万很普遍了吗?网友:沿海基本上都过万

带你感受人间冷暖
2026-03-01 04:35:13
俄媒突发警告:美国打伊朗只是幌子,目的是逼解放军到太平洋决战

俄媒突发警告:美国打伊朗只是幌子,目的是逼解放军到太平洋决战

刚哥说法365
2026-02-28 21:07:26
2026-03-01 08:47:00
蓝鲸新闻 incentive-icons
蓝鲸新闻
财经信息服务平台
127541文章数 193669关注度
往期回顾 全部

科技要闻

狂揽1100亿美元!OpenAI再创融资神话

头条要闻

特朗普称哈梅内伊身亡 后者去年6月布局完整继承体系

头条要闻

特朗普称哈梅内伊身亡 后者去年6月布局完整继承体系

体育要闻

球队主力全报销?顶风摆烂演都不演了

娱乐要闻

周杰伦儿子正面照曝光,与父亲好像

财经要闻

冲突爆发 市场变天?

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

健康
亲子
数码
公开课
军事航空

转头就晕的耳石症,能开车上班吗?

亲子要闻

逆天,在医院上班怀孕都要提前申请了!

数码要闻

英特尔Bartlett Lake-S旗舰现身 无法在消费级主板上启动

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国以色列联合袭击伊朗 实时战况

无障碍浏览 进入关怀版