网易首页 > 网易号 > 正文 申请入驻

有重大进步但既贵又慢,最新推理模型o1能让OpenAI保持领先吗?

0
分享至

图片来源:OpenAI官网

蓝鲸新闻9月13日讯(记者 朱俊熹)千呼万唤中,OpenAI的"草莓"终于成熟。这个最新的推理大模型项目此前已传闻许久、剧透多次,它的正式命名是OpenAI o1,在部分基准测试中表现出超越人类博士级的水平。OpenAI也由此开启有别于GPT命名序列之外的全新大模型系列。

当地时间9月12日,OpenAI发布OpenAI o1的预览版本,称这是新开发的一系列AI模型中的第一个。据OpenAI介绍,该系列模型能够花更多时间思考后再做出反应。与此前的模型相比,在科学、编码和数学领域,它们可以推理复杂的任务,解决更难的问题。

"对于复杂的推理任务来说,这是一个重大进步,代表了人工智能能力的新水平。有鉴于此,我们将计数器重置为1,并将此系列命名为OpenAI o1。"OpenAI表示。

官方认为,o1是划时代的产品。按照OpenAI今年7月提出的一套对AI进行分级的五级系统,新模型o1已超越第一级的AI对话助手,到达第二级别的"推理者"。在这一级别,人工智能的水平相当于拥有博士学位但无法使用工具的人类,能够解决基本的问题。距离实现OpenAI关于通用人工智能的终极目标,o1还有三级之差。

在数学、编码等方面,OpenAI新模型的表现得到了大幅提升。在国际数学奥林匹克 (IMO) 资格考试中,该模型的正确率高达83%,而前一代大模型GPT-4o仅有13%。在模拟编程竞赛平台Codeforces的比赛中,新模型的表现超过了89%的测试者,而GPT-4o超过11%的测试者。在涵盖物理、化学、生物等多学科领域的GPQA基准测试中,新模型的得分能够超越具有博士学位的专家,成为首个实现这一成就的模型。

OpenAI的竞争对手们在推出AI大模型时,往往也会强调其推理能力。谷歌的AI研究实验室DeepMind在7月底宣布,其开发的两个AI系统能够共同解决数学中的高级推理问题,在今年的国际数学奥林匹克(IMO)中首次取得与银牌得主同等的成绩。另一AI初创企业Anthropic 6月推出了Claude 3.5 Sonnet模型,在推理、编码等测试中的得分也超过了GPT-4o,排在行业前列。

o1尚在初级阶段,难以完全避免错误

OpenAI称,o1模型尚处于早期阶段,付费用户目前能够使用的是o1-preview版本,还不具备ChatGPT的许多实用功能,如浏览网页获取信息、上传文件和图片等。对于很多常见情况,短期内GPT-4o的能力会更强。

参与o1项目的OpenAI研究科学家Noam Brown在社交媒体X上表示,"o1模型并不总是比GPT-4o好。许多任务并不需要推理,有时等待o1回复不如快速获得GPT-4o的响应值得。发布o1-preview的一个动机是看看哪些用例会变得流行,以及模型在哪些方面需要改进。"

OpenAI在介绍新模型时提到,它们被训练用更多时间来思考问题,然后再做出反应,就像人类一样。通过这样的训练,模型能够学会完善自己的思维过程,尝试不同的策略,并认识到自己的错误。

OpenAI的研究负责人Jerry Tworek告诉科技媒体The Verge,o1使用了全新的优化算法和专门为其量身定制的新训练数据集进行训练。OpenAI利用一种名为"强化学习"的技术,通过奖惩训练o1自行解决问题。之后再采用"思路链"的技术,将复杂的问题分解为更小的逻辑步骤,类似于人类逐步解决问题的方式。Jerry Tworek表示,借助新的训练方法,新模型会更加准确,幻觉问题减少,但依然存在。

在实际体验过程中,OpenAI o1-preview能够正确回答出"Strawberry"单词中有3个字母"r",而此前多数AI大模型在这一问题上都频频翻车。另外,像此前对其他大模型产品一样,很多用户依然拿"9.11和9.8哪个大"的问题去测试o1,而o1先是在思考后迅速给出"9.11比9.8大"的错误答案。在追问其"为什么"后,该模型花了25秒的思考时间,并显示出确认数值、比较数值大小、确保准确性等简要的思维描述,最终得出"9.8比9.11大"的正确回答。

图片来源:ChatGPT截图

OpenAI的首席执行官Sam Altman在社交媒体X上表示,"o1仍有缺陷,也仍有局限性。初次使用它时,比长时间使用后更令人印象深刻。"

OpenAI表示,新模型适用于医疗研究人员、物理学家、开发人员等群体,可以利用其增强的推理能力解决科学、编码、数学等领域的复杂问题。OpenAI还同步发布了速度更快、成本更低的o1-mini版本,在编码方面更为高效。

目前,o1-preview和o1-mini已在ChatGPT中面向Plus和Team等部分付费用户开放使用,但设有消息次数限制。OpenAI称,下周将向剩下的企业和教育用户开放,同时计划未来将向所有使用免费版本的用户提供o1-mini的访问权限。

入不敷出,OpenAI仍需巨额融资

在大模型飞跃的推理能力背后,同样意味着巨大的训练和运行成本。此前曾有消息称OpenAI可能会希望将部分成本转嫁给用户,将ChatGPT的订阅费用提高到原来的10至100倍。但现在看来,OpenAI的To C定价未发生改变,会员服务仍维持在每月最少20美元。而API调用收费确实出现大幅上调,o1-preview每百万tokens输入价格为15美元,是GPT-4o的3倍,输出价格为60美元,是GPT-4o的4倍。

更多的用户倾向于使用ChatGPT的免费版本,这正在让OpenAI陷入盈利困境。硅谷科技媒体The Information 在9月12日报道称,OpenAI的首席运营官Brad Lightcap最近向员工透露,ChatGPT已拥有超过1000万付费用户。但相较于8月底公布的每周超2亿的活跃用户数,这仍然意味着绝大多数用户使用的还是免费版ChatGPT。

数亿名用户在免费使用时带来的计算成本,叠加研发新模型时的巨额投入,OpenAI在实现快速进化的同时,也面临巨亏。据The Information估算,对ChatGPT的C端订阅费用和出售AI模型的收入进行合计,OpenAI未来12个月的收入有望达到约40亿美元,高于今年年中的34亿美元年化收入,但仍将亏损数十亿美元。

OpenAI也正在积极寻求新一轮融资。9月12日,彭博社援引知情人士称,OpenAI正洽谈以1500亿美元估值筹集65亿美元,同时还在商谈以循环信贷的方式向银行借款50亿美元。据多家外媒此前报道,OpenAI本轮融资的领投者为美国风投公司Thrive Capital,微软、苹果、英伟达三家巨头也在谈判加入,全球市值前三的公司有望齐聚OpenAI。

The Information在最新报道中指出,这份可能的投资名单还加上了阿联酋政府支持的投资基金MGX。该基金的创立方包括阿布扎比主权财富基金穆巴达拉、阿联酋AI巨头G42,后者今年4月与OpenAI最大股东微软达成了合作协议,微软对其投资15亿美元。OpenAI早期投资者Khosla Ventures也计划通过特殊目的公司参与到投资中。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
杭州一业主群来了位豪气的邻居!砸1600万,完成小区外立面升级,无须业主出钱,改造后成面向高管的长租房

杭州一业主群来了位豪气的邻居!砸1600万,完成小区外立面升级,无须业主出钱,改造后成面向高管的长租房

大风新闻
2025-12-31 12:16:05
中资半导体企业,被英国政府强迫出售超80%股权!知情人士:预计损失重大,年底前需走完出售审批流程

中资半导体企业,被英国政府强迫出售超80%股权!知情人士:预计损失重大,年底前需走完出售审批流程

每日经济新闻
2025-12-31 00:46:25
西安事变真相:蒋家7侄阵亡护蒋,双方死伤超600,血债被记五十四年

西安事变真相:蒋家7侄阵亡护蒋,双方死伤超600,血债被记五十四年

磊子讲史
2025-12-30 18:03:15
国企纷纷成立人民武装部,释放出哪些重要信号?

国企纷纷成立人民武装部,释放出哪些重要信号?

李昕言温度空间
2025-12-30 20:11:21
白嫖摄影师后续:单位传开已社死,朋友曝更多,白嫖只是冰山一角

白嫖摄影师后续:单位传开已社死,朋友曝更多,白嫖只是冰山一角

天天热点见闻
2025-12-31 06:36:45
普京官宅遇袭第三天,王毅外长告示全世界,用10个字定义中俄现状

普京官宅遇袭第三天,王毅外长告示全世界,用10个字定义中俄现状

桑启红原
2025-12-31 12:13:14
二胎宝宝夭折商家拒退1100元摄影套餐费,还称“老大可以拍”,家长:很受刺激,难以接受

二胎宝宝夭折商家拒退1100元摄影套餐费,还称“老大可以拍”,家长:很受刺激,难以接受

极目新闻
2025-12-31 13:50:47
东部战区军演,“越海杀器”震撼出鞘

东部战区军演,“越海杀器”震撼出鞘

环球网资讯
2025-12-31 06:45:40
涨价5毛后半年少卖7个亿,国民饮料背刺打工人,3400家经销商出走

涨价5毛后半年少卖7个亿,国民饮料背刺打工人,3400家经销商出走

财经八卦
2025-12-30 21:23:26
打假“斩杀线”——“饥寒交迫的美国”

打假“斩杀线”——“饥寒交迫的美国”

老头和你随便聊聊
2025-12-30 13:33:00
人来世间到底是干什么的?你一定要看一看

人来世间到底是干什么的?你一定要看一看

金沛的国学笔记
2025-12-29 17:44:07
最新!法国、英国、加拿大、丹麦、芬兰等十国外长发布联合声明

最新!法国、英国、加拿大、丹麦、芬兰等十国外长发布联合声明

每日经济新闻
2025-12-31 07:50:06
伊朗,突发!崩盘、失控!发生了什么?

伊朗,突发!崩盘、失控!发生了什么?

证券时报
2025-12-31 08:07:06
普京遇袭!特朗普愤怒!莫斯科天空瘫痪!战争目标扩大!

普京遇袭!特朗普愤怒!莫斯科天空瘫痪!战争目标扩大!

汉唐智库
2025-12-30 09:37:04
密集通报!10余省份超1700人被处理

密集通报!10余省份超1700人被处理

上观新闻
2025-12-31 12:09:08
迅猛龙直播掉美颜上热搜:当百万粉丝看到她素颜,反应绝了

迅猛龙直播掉美颜上热搜:当百万粉丝看到她素颜,反应绝了

手工制作阿歼
2025-12-31 11:40:42
国家明令要求!2026年起,小区物业必须给业主发这5大补贴!

国家明令要求!2026年起,小区物业必须给业主发这5大补贴!

今朝牛马
2025-12-30 15:36:19
对岸开始发颠,一口气发布大量空中监视画面,包括歼16D电子战型

对岸开始发颠,一口气发布大量空中监视画面,包括歼16D电子战型

三叔的装备空间
2025-12-30 15:40:00
明年起,年龄将不再是“免罪金牌”,14周岁以上未成年人及70周岁以上老年人可能被执行行政拘留

明年起,年龄将不再是“免罪金牌”,14周岁以上未成年人及70周岁以上老年人可能被执行行政拘留

鲁中晨报
2025-12-31 10:41:03
45岁富哥“北京肖哥”去世,前一天还晒老婆,死因曝光仇人都惋惜

45岁富哥“北京肖哥”去世,前一天还晒老婆,死因曝光仇人都惋惜

嫹笔牂牂
2025-12-31 07:07:52
2025-12-31 14:16:49
蓝鲸新闻 incentive-icons
蓝鲸新闻
财经信息服务平台
124651文章数 193517关注度
往期回顾 全部

科技要闻

老罗,演砸了,也封神了?

头条要闻

杭州一业主群来了豪气邻居 砸1600万给小区外立面升级

头条要闻

杭州一业主群来了豪气邻居 砸1600万给小区外立面升级

体育要闻

2025全球射手榜:姆巴佩66球 梅西第6C罗第9

娱乐要闻

告别2025年!大S、方大同离世青春退场

财经要闻

朱光耀:美关税政策正使WTO名存实亡

汽车要闻

奇瑞QQ3量产版曝光! 轴距2米7配8155芯片

态度原创

艺术
本地
时尚
旅游
公开课

艺术要闻

中国博物馆全书!看遍中国8000年顶流审美

本地新闻

即将过去的2025年,对重庆的影响竟然如此深远

是颜值派更是实力派,李斯丹妮的高能生活不设限

旅游要闻

淮水之上 出山店水库冬景如画

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版