网易首页 > 网易号 > 正文 申请入驻

有重大进步但既贵又慢,最新推理模型o1能让OpenAI保持领先吗?

0
分享至

图片来源:OpenAI官网

蓝鲸新闻9月13日讯(记者 朱俊熹)千呼万唤中,OpenAI的"草莓"终于成熟。这个最新的推理大模型项目此前已传闻许久、剧透多次,它的正式命名是OpenAI o1,在部分基准测试中表现出超越人类博士级的水平。OpenAI也由此开启有别于GPT命名序列之外的全新大模型系列。

当地时间9月12日,OpenAI发布OpenAI o1的预览版本,称这是新开发的一系列AI模型中的第一个。据OpenAI介绍,该系列模型能够花更多时间思考后再做出反应。与此前的模型相比,在科学、编码和数学领域,它们可以推理复杂的任务,解决更难的问题。

"对于复杂的推理任务来说,这是一个重大进步,代表了人工智能能力的新水平。有鉴于此,我们将计数器重置为1,并将此系列命名为OpenAI o1。"OpenAI表示。

官方认为,o1是划时代的产品。按照OpenAI今年7月提出的一套对AI进行分级的五级系统,新模型o1已超越第一级的AI对话助手,到达第二级别的"推理者"。在这一级别,人工智能的水平相当于拥有博士学位但无法使用工具的人类,能够解决基本的问题。距离实现OpenAI关于通用人工智能的终极目标,o1还有三级之差。

在数学、编码等方面,OpenAI新模型的表现得到了大幅提升。在国际数学奥林匹克 (IMO) 资格考试中,该模型的正确率高达83%,而前一代大模型GPT-4o仅有13%。在模拟编程竞赛平台Codeforces的比赛中,新模型的表现超过了89%的测试者,而GPT-4o超过11%的测试者。在涵盖物理、化学、生物等多学科领域的GPQA基准测试中,新模型的得分能够超越具有博士学位的专家,成为首个实现这一成就的模型。

OpenAI的竞争对手们在推出AI大模型时,往往也会强调其推理能力。谷歌的AI研究实验室DeepMind在7月底宣布,其开发的两个AI系统能够共同解决数学中的高级推理问题,在今年的国际数学奥林匹克(IMO)中首次取得与银牌得主同等的成绩。另一AI初创企业Anthropic 6月推出了Claude 3.5 Sonnet模型,在推理、编码等测试中的得分也超过了GPT-4o,排在行业前列。

o1尚在初级阶段,难以完全避免错误

OpenAI称,o1模型尚处于早期阶段,付费用户目前能够使用的是o1-preview版本,还不具备ChatGPT的许多实用功能,如浏览网页获取信息、上传文件和图片等。对于很多常见情况,短期内GPT-4o的能力会更强。

参与o1项目的OpenAI研究科学家Noam Brown在社交媒体X上表示,"o1模型并不总是比GPT-4o好。许多任务并不需要推理,有时等待o1回复不如快速获得GPT-4o的响应值得。发布o1-preview的一个动机是看看哪些用例会变得流行,以及模型在哪些方面需要改进。"

OpenAI在介绍新模型时提到,它们被训练用更多时间来思考问题,然后再做出反应,就像人类一样。通过这样的训练,模型能够学会完善自己的思维过程,尝试不同的策略,并认识到自己的错误。

OpenAI的研究负责人Jerry Tworek告诉科技媒体The Verge,o1使用了全新的优化算法和专门为其量身定制的新训练数据集进行训练。OpenAI利用一种名为"强化学习"的技术,通过奖惩训练o1自行解决问题。之后再采用"思路链"的技术,将复杂的问题分解为更小的逻辑步骤,类似于人类逐步解决问题的方式。Jerry Tworek表示,借助新的训练方法,新模型会更加准确,幻觉问题减少,但依然存在。

在实际体验过程中,OpenAI o1-preview能够正确回答出"Strawberry"单词中有3个字母"r",而此前多数AI大模型在这一问题上都频频翻车。另外,像此前对其他大模型产品一样,很多用户依然拿"9.11和9.8哪个大"的问题去测试o1,而o1先是在思考后迅速给出"9.11比9.8大"的错误答案。在追问其"为什么"后,该模型花了25秒的思考时间,并显示出确认数值、比较数值大小、确保准确性等简要的思维描述,最终得出"9.8比9.11大"的正确回答。

图片来源:ChatGPT截图

OpenAI的首席执行官Sam Altman在社交媒体X上表示,"o1仍有缺陷,也仍有局限性。初次使用它时,比长时间使用后更令人印象深刻。"

OpenAI表示,新模型适用于医疗研究人员、物理学家、开发人员等群体,可以利用其增强的推理能力解决科学、编码、数学等领域的复杂问题。OpenAI还同步发布了速度更快、成本更低的o1-mini版本,在编码方面更为高效。

目前,o1-preview和o1-mini已在ChatGPT中面向Plus和Team等部分付费用户开放使用,但设有消息次数限制。OpenAI称,下周将向剩下的企业和教育用户开放,同时计划未来将向所有使用免费版本的用户提供o1-mini的访问权限。

入不敷出,OpenAI仍需巨额融资

在大模型飞跃的推理能力背后,同样意味着巨大的训练和运行成本。此前曾有消息称OpenAI可能会希望将部分成本转嫁给用户,将ChatGPT的订阅费用提高到原来的10至100倍。但现在看来,OpenAI的To C定价未发生改变,会员服务仍维持在每月最少20美元。而API调用收费确实出现大幅上调,o1-preview每百万tokens输入价格为15美元,是GPT-4o的3倍,输出价格为60美元,是GPT-4o的4倍。

更多的用户倾向于使用ChatGPT的免费版本,这正在让OpenAI陷入盈利困境。硅谷科技媒体The Information 在9月12日报道称,OpenAI的首席运营官Brad Lightcap最近向员工透露,ChatGPT已拥有超过1000万付费用户。但相较于8月底公布的每周超2亿的活跃用户数,这仍然意味着绝大多数用户使用的还是免费版ChatGPT。

数亿名用户在免费使用时带来的计算成本,叠加研发新模型时的巨额投入,OpenAI在实现快速进化的同时,也面临巨亏。据The Information估算,对ChatGPT的C端订阅费用和出售AI模型的收入进行合计,OpenAI未来12个月的收入有望达到约40亿美元,高于今年年中的34亿美元年化收入,但仍将亏损数十亿美元。

OpenAI也正在积极寻求新一轮融资。9月12日,彭博社援引知情人士称,OpenAI正洽谈以1500亿美元估值筹集65亿美元,同时还在商谈以循环信贷的方式向银行借款50亿美元。据多家外媒此前报道,OpenAI本轮融资的领投者为美国风投公司Thrive Capital,微软、苹果、英伟达三家巨头也在谈判加入,全球市值前三的公司有望齐聚OpenAI。

The Information在最新报道中指出,这份可能的投资名单还加上了阿联酋政府支持的投资基金MGX。该基金的创立方包括阿布扎比主权财富基金穆巴达拉、阿联酋AI巨头G42,后者今年4月与OpenAI最大股东微软达成了合作协议,微软对其投资15亿美元。OpenAI早期投资者Khosla Ventures也计划通过特殊目的公司参与到投资中。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美参议院:特朗普竞选集会遭枪击源于安全疏漏

美参议院:特朗普竞选集会遭枪击源于安全疏漏

界面新闻
2025-07-14 06:49:43
以色列凌晨开战,战机兵分三路千里奔袭,炸弹、导弹狂炸港口设施

以色列凌晨开战,战机兵分三路千里奔袭,炸弹、导弹狂炸港口设施

深度军备1
2025-07-13 22:07:28
1996年,姚文元刑满释放的当天,小心翼翼地问狱警:我能出去了吗

1996年,姚文元刑满释放的当天,小心翼翼地问狱警:我能出去了吗

z千年历史老号
2025-06-17 14:05:17
卢克文:请中国导演和编剧不要瞎模仿!

卢克文:请中国导演和编剧不要瞎模仿!

草莓解说体育
2025-07-13 20:14:07
比埃拉:我不是完全免费踢球,因为联赛不允许,我只会领最低工资

比埃拉:我不是完全免费踢球,因为联赛不允许,我只会领最低工资

直播吧
2025-07-13 22:58:09
官方:世俱杯冠军将可以在未来四年内的球衣上佩戴专属徽章

官方:世俱杯冠军将可以在未来四年内的球衣上佩戴专属徽章

雷速体育
2025-07-13 12:46:53
中年男人,若是还沉迷以下三件事,多半没什么大的出息了

中年男人,若是还沉迷以下三件事,多半没什么大的出息了

叶飞飞情感屋
2025-07-13 16:15:00
张雪峰提醒:没必要读研的6个专业!本科就很吃香考研是浪费时间

张雪峰提醒:没必要读研的6个专业!本科就很吃香考研是浪费时间

金哥说新能源车
2025-07-14 07:00:39
中国2名顶级科学家,将为美国效力,都是清华大学毕业,网友炸锅

中国2名顶级科学家,将为美国效力,都是清华大学毕业,网友炸锅

boss外传
2025-07-13 08:10:02
“牡丹花下死,做鬼也风流”!如今,谁也救不了44岁的宋小宝

“牡丹花下死,做鬼也风流”!如今,谁也救不了44岁的宋小宝

墨印斋
2025-07-08 05:24:55
拔出萝卜带出泥!杨少华去世仅4天,令人恶心的一幕就上演了

拔出萝卜带出泥!杨少华去世仅4天,令人恶心的一幕就上演了

小故事娱乐
2025-07-13 18:23:22
布鲁克林贝克汉姆与妻子漫步街头

布鲁克林贝克汉姆与妻子漫步街头

草莓解说体育
2025-07-13 20:36:25
王小骞一家西班牙度假!11岁矮小症女儿终于1米4了,打扮却很老气

王小骞一家西班牙度假!11岁矮小症女儿终于1米4了,打扮却很老气

小娱乐悠悠
2025-07-13 09:39:24
“俄乌战争”只剩垃圾时间,各国都在做最后的准备

“俄乌战争”只剩垃圾时间,各国都在做最后的准备

寻途
2025-07-10 20:34:30
1900亿核电项目中方断然撤资,昔日伙伴如今了,后悔已经来不及

1900亿核电项目中方断然撤资,昔日伙伴如今了,后悔已经来不及

流年拾光
2025-07-10 21:42:13
开拓者队记:虽然效力时间不长,但杨瀚森受到当地球迷不可思议的崇敬

开拓者队记:虽然效力时间不长,但杨瀚森受到当地球迷不可思议的崇敬

雷速体育
2025-07-14 08:38:11
男子返乡养蝉带动900余户创业:一晚最多捉1.3万只,1只1元,有人捉十几天就回本

男子返乡养蝉带动900余户创业:一晚最多捉1.3万只,1只1元,有人捉十几天就回本

鲁中晨报
2025-07-11 18:55:16
创造历史,辛纳是第一位在多种场地大满贯单打夺冠的意大利人

创造历史,辛纳是第一位在多种场地大满贯单打夺冠的意大利人

懂球帝
2025-07-14 02:40:06
江苏富豪重金为痴傻儿子娶妻,拜金女孩欣然答应,新婚当晚却愣住

江苏富豪重金为痴傻儿子娶妻,拜金女孩欣然答应,新婚当晚却愣住

温情邮局
2025-07-09 14:39:26
美国要向巴基斯坦出售最新战机!巴铁评论亮了!

美国要向巴基斯坦出售最新战机!巴铁评论亮了!

书中自有颜如玉
2025-07-14 00:41:08
2025-07-14 09:04:49
蓝鲸新闻 incentive-icons
蓝鲸新闻
财经信息服务平台
117283文章数 192951关注度
往期回顾 全部

科技要闻

知情人士:Manus一切正常 公司没跑路

头条要闻

宗馥莉被3名自称同父异母弟妹起诉 娃哈哈回应

头条要闻

宗馥莉被3名自称同父异母弟妹起诉 娃哈哈回应

体育要闻

张子宇正式首秀:11分钟13+4+2天赋碾压

娱乐要闻

38岁何洁近照曝光,与老公用餐甜蜜

财经要闻

探究新茶饮赛道爆发的“内核”

汽车要闻

小米YU7深度试驾:优点很多缺点也很多

态度原创

游戏
艺术
本地
公开课
军事航空

魔兽怀旧服:HICC开放在即,未来会开放经验buff吗?这点很重要

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

本地新闻

换个城市过夏天 | 枫叶之都的22℃清凉秘境

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

金正恩:朝鲜愿无条件支持俄罗斯

无障碍浏览 进入关怀版