网易首页 > 网易号 > 正文 申请入驻

有重大进步但既贵又慢,最新推理模型o1能让OpenAI保持领先吗?

0
分享至

图片来源:OpenAI官网

蓝鲸新闻9月13日讯(记者 朱俊熹)千呼万唤中,OpenAI的"草莓"终于成熟。这个最新的推理大模型项目此前已传闻许久、剧透多次,它的正式命名是OpenAI o1,在部分基准测试中表现出超越人类博士级的水平。OpenAI也由此开启有别于GPT命名序列之外的全新大模型系列。

当地时间9月12日,OpenAI发布OpenAI o1的预览版本,称这是新开发的一系列AI模型中的第一个。据OpenAI介绍,该系列模型能够花更多时间思考后再做出反应。与此前的模型相比,在科学、编码和数学领域,它们可以推理复杂的任务,解决更难的问题。

"对于复杂的推理任务来说,这是一个重大进步,代表了人工智能能力的新水平。有鉴于此,我们将计数器重置为1,并将此系列命名为OpenAI o1。"OpenAI表示。

官方认为,o1是划时代的产品。按照OpenAI今年7月提出的一套对AI进行分级的五级系统,新模型o1已超越第一级的AI对话助手,到达第二级别的"推理者"。在这一级别,人工智能的水平相当于拥有博士学位但无法使用工具的人类,能够解决基本的问题。距离实现OpenAI关于通用人工智能的终极目标,o1还有三级之差。

在数学、编码等方面,OpenAI新模型的表现得到了大幅提升。在国际数学奥林匹克 (IMO) 资格考试中,该模型的正确率高达83%,而前一代大模型GPT-4o仅有13%。在模拟编程竞赛平台Codeforces的比赛中,新模型的表现超过了89%的测试者,而GPT-4o超过11%的测试者。在涵盖物理、化学、生物等多学科领域的GPQA基准测试中,新模型的得分能够超越具有博士学位的专家,成为首个实现这一成就的模型。

OpenAI的竞争对手们在推出AI大模型时,往往也会强调其推理能力。谷歌的AI研究实验室DeepMind在7月底宣布,其开发的两个AI系统能够共同解决数学中的高级推理问题,在今年的国际数学奥林匹克(IMO)中首次取得与银牌得主同等的成绩。另一AI初创企业Anthropic 6月推出了Claude 3.5 Sonnet模型,在推理、编码等测试中的得分也超过了GPT-4o,排在行业前列。

o1尚在初级阶段,难以完全避免错误

OpenAI称,o1模型尚处于早期阶段,付费用户目前能够使用的是o1-preview版本,还不具备ChatGPT的许多实用功能,如浏览网页获取信息、上传文件和图片等。对于很多常见情况,短期内GPT-4o的能力会更强。

参与o1项目的OpenAI研究科学家Noam Brown在社交媒体X上表示,"o1模型并不总是比GPT-4o好。许多任务并不需要推理,有时等待o1回复不如快速获得GPT-4o的响应值得。发布o1-preview的一个动机是看看哪些用例会变得流行,以及模型在哪些方面需要改进。"

OpenAI在介绍新模型时提到,它们被训练用更多时间来思考问题,然后再做出反应,就像人类一样。通过这样的训练,模型能够学会完善自己的思维过程,尝试不同的策略,并认识到自己的错误。

OpenAI的研究负责人Jerry Tworek告诉科技媒体The Verge,o1使用了全新的优化算法和专门为其量身定制的新训练数据集进行训练。OpenAI利用一种名为"强化学习"的技术,通过奖惩训练o1自行解决问题。之后再采用"思路链"的技术,将复杂的问题分解为更小的逻辑步骤,类似于人类逐步解决问题的方式。Jerry Tworek表示,借助新的训练方法,新模型会更加准确,幻觉问题减少,但依然存在。

在实际体验过程中,OpenAI o1-preview能够正确回答出"Strawberry"单词中有3个字母"r",而此前多数AI大模型在这一问题上都频频翻车。另外,像此前对其他大模型产品一样,很多用户依然拿"9.11和9.8哪个大"的问题去测试o1,而o1先是在思考后迅速给出"9.11比9.8大"的错误答案。在追问其"为什么"后,该模型花了25秒的思考时间,并显示出确认数值、比较数值大小、确保准确性等简要的思维描述,最终得出"9.8比9.11大"的正确回答。

图片来源:ChatGPT截图

OpenAI的首席执行官Sam Altman在社交媒体X上表示,"o1仍有缺陷,也仍有局限性。初次使用它时,比长时间使用后更令人印象深刻。"

OpenAI表示,新模型适用于医疗研究人员、物理学家、开发人员等群体,可以利用其增强的推理能力解决科学、编码、数学等领域的复杂问题。OpenAI还同步发布了速度更快、成本更低的o1-mini版本,在编码方面更为高效。

目前,o1-preview和o1-mini已在ChatGPT中面向Plus和Team等部分付费用户开放使用,但设有消息次数限制。OpenAI称,下周将向剩下的企业和教育用户开放,同时计划未来将向所有使用免费版本的用户提供o1-mini的访问权限。

入不敷出,OpenAI仍需巨额融资

在大模型飞跃的推理能力背后,同样意味着巨大的训练和运行成本。此前曾有消息称OpenAI可能会希望将部分成本转嫁给用户,将ChatGPT的订阅费用提高到原来的10至100倍。但现在看来,OpenAI的To C定价未发生改变,会员服务仍维持在每月最少20美元。而API调用收费确实出现大幅上调,o1-preview每百万tokens输入价格为15美元,是GPT-4o的3倍,输出价格为60美元,是GPT-4o的4倍。

更多的用户倾向于使用ChatGPT的免费版本,这正在让OpenAI陷入盈利困境。硅谷科技媒体The Information 在9月12日报道称,OpenAI的首席运营官Brad Lightcap最近向员工透露,ChatGPT已拥有超过1000万付费用户。但相较于8月底公布的每周超2亿的活跃用户数,这仍然意味着绝大多数用户使用的还是免费版ChatGPT。

数亿名用户在免费使用时带来的计算成本,叠加研发新模型时的巨额投入,OpenAI在实现快速进化的同时,也面临巨亏。据The Information估算,对ChatGPT的C端订阅费用和出售AI模型的收入进行合计,OpenAI未来12个月的收入有望达到约40亿美元,高于今年年中的34亿美元年化收入,但仍将亏损数十亿美元。

OpenAI也正在积极寻求新一轮融资。9月12日,彭博社援引知情人士称,OpenAI正洽谈以1500亿美元估值筹集65亿美元,同时还在商谈以循环信贷的方式向银行借款50亿美元。据多家外媒此前报道,OpenAI本轮融资的领投者为美国风投公司Thrive Capital,微软、苹果、英伟达三家巨头也在谈判加入,全球市值前三的公司有望齐聚OpenAI。

The Information在最新报道中指出,这份可能的投资名单还加上了阿联酋政府支持的投资基金MGX。该基金的创立方包括阿布扎比主权财富基金穆巴达拉、阿联酋AI巨头G42,后者今年4月与OpenAI最大股东微软达成了合作协议,微软对其投资15亿美元。OpenAI早期投资者Khosla Ventures也计划通过特殊目的公司参与到投资中。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
突然异动!002484,垂直涨停!000636,年内大涨近2倍!

突然异动!002484,垂直涨停!000636,年内大涨近2倍!

证券时报e公司
2026-05-28 12:22:10
伊朗革命卫队据报向美油轮开火

伊朗革命卫队据报向美油轮开火

财联社
2026-05-28 09:24:07
突发,小米降价99%,成价格屠夫!

突发,小米降价99%,成价格屠夫!

科技每日推送
2026-05-28 09:45:30
4名医务人员死亡!中疾控深夜紧急发文……

4名医务人员死亡!中疾控深夜紧急发文……

华医网
2026-05-28 05:40:48
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
苏提达王后48岁生日,大街小巷大肆宣扬,婆婆死后终于戴上了皇冠

苏提达王后48岁生日,大街小巷大肆宣扬,婆婆死后终于戴上了皇冠

聪明的橙子hj
2026-05-27 18:04:06
南部战区对荷兰侵入舰机警示电子干扰,专家:已相当克制

南部战区对荷兰侵入舰机警示电子干扰,专家:已相当克制

环球网资讯
2026-05-27 22:59:11
“100%NFC”果汁产品,配料表前两位是水和浓缩果汁,好想来最新回应:已在全国门店下架涉事产品

“100%NFC”果汁产品,配料表前两位是水和浓缩果汁,好想来最新回应:已在全国门店下架涉事产品

鲁中晨报
2026-05-28 14:38:10
女上司误会我被富婆包养,我笑着说:那是我亲妈!她直接傻眼了

女上司误会我被富婆包养,我笑着说:那是我亲妈!她直接傻眼了

千秋文化
2026-05-25 19:33:07
一个Skill卖了40万+,小红书又出现一门暴利的好生意?

一个Skill卖了40万+,小红书又出现一门暴利的好生意?

运营研究社
2026-05-27 15:39:34
阿斯:马斯坦托诺恐无缘阿根廷世界杯名单,蒙铁尔也将落选

阿斯:马斯坦托诺恐无缘阿根廷世界杯名单,蒙铁尔也将落选

懂球帝
2026-05-28 16:41:48
上海建工集团原副总裁张惠忠被查

上海建工集团原副总裁张惠忠被查

上观新闻
2026-05-28 20:34:18
TyC:巴萨7000万欧+费兰报价阿尔瓦雷斯,已被马竞拒绝

TyC:巴萨7000万欧+费兰报价阿尔瓦雷斯,已被马竞拒绝

懂球帝
2026-05-28 12:26:20
押上全部积蓄,回报超50倍,《给阿嬷的情书》投资人:当初只是不想看导演停拍

押上全部积蓄,回报超50倍,《给阿嬷的情书》投资人:当初只是不想看导演停拍

草莓解说体育
2026-05-28 15:33:17
方媛状态不对劲!被怀疑产后抑郁,对外沟通困难像极了重度解离

方媛状态不对劲!被怀疑产后抑郁,对外沟通困难像极了重度解离

萌神木木
2026-05-26 13:59:49
巴萨8000万豪赌戈登:拉什福德梦碎,转会暗战藏着多少算计?

巴萨8000万豪赌戈登:拉什福德梦碎,转会暗战藏着多少算计?

落夜足球
2026-05-28 13:06:18
黑龙江富豪惨遭灭门,保姆装死逃过一劫,保姆:凶手怎么会是他?

黑龙江富豪惨遭灭门,保姆装死逃过一劫,保姆:凶手怎么会是他?

林林故事揭秘
2025-04-10 17:37:49
塞尔维亚或迎巨变,数万民众涌上首都街头,武契奇十年统治恐终结

塞尔维亚或迎巨变,数万民众涌上首都街头,武契奇十年统治恐终结

近史博览
2026-05-25 01:28:35
属鸡人的后半辈子,特别强调1981年的木鸡,不是一般的准!

属鸡人的后半辈子,特别强调1981年的木鸡,不是一般的准!

阿龙美食记
2026-05-25 22:28:10
原子弹炸后,百年内不能住人,为何如今广岛和长崎住满了人

原子弹炸后,百年内不能住人,为何如今广岛和长崎住满了人

抽象派大师
2026-05-28 00:09:53
2026-05-28 21:07:00
蓝鲸新闻 incentive-icons
蓝鲸新闻
财经信息服务平台
133211文章数 193923关注度
往期回顾 全部

科技要闻

利润跌27%:快手只剩“可灵”这张牌?

头条要闻

20万飞天茅台搭售40万黔茅酒 老板参加"峰会"后称被耍

头条要闻

20万飞天茅台搭售40万黔茅酒 老板参加"峰会"后称被耍

体育要闻

如果雷霆拼图是这水平 马刺确实打不过

娱乐要闻

林俊杰七七与大哥嫂子的瓜剪不断理还乱

财经要闻

长鑫科技IPO过会,市值会到几万亿?

汽车要闻

新款吉利星愿6.18万起售 一镜到底寻找爆款密码

态度原创

本地
家居
游戏
房产
公开课

本地新闻

用剪纸的方式,打开江苏扬州

家居要闻

蜂鸟餐椅 线面交错

kun哥爆料《丝之歌》实体版发售日!DLC或将官宣

房产要闻

突发重磅!三亚新机场公司正式成立!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版