网易首页 > 网易号 > 正文 申请入驻

OpenAI并未让DeepSeek惊出一身冷汗

0
分享至


出品 | 虎嗅科技组

作者 | 房晓楠

编辑 | 苗正卿

头图 | 视觉中国

“OpenAI的创新好像到瓶颈期了。”一位业界人士这样说道。

今日凌晨,预热了很久的OpenAI o3模型完整版终于面世,且与以往直播“挤牙膏”式的依次、慢吞发布方式不同的是,这次o3和o4-mini是同时发布。

在OpenAI官方的陈述中,o3和o4-mini的亮点主要在于可以组合调用ChatGPT中的各个工具,像是网络搜索、Python、图像分析、文件解释和图像生成等。这可以看作是OpenAI开始后发补足自身在Agent能力上的探索。

其中,o3作为推理模型,在编程、数学、科学、视觉感知等多个维度的基准测试中都刷新了纪录。比如在Codeforces、SWE-bench、MMMU基准测试中,视觉任务准确率高达87.5%,而MathVista达到75.4%。

其实分数、榜单,这些都是常规操作。相较于以往,这次的最大不同在于,o3和o4-mini将上传的图像直接集中到思维链中,这就意味着,图像不仅仅是被看到,还能被用来作为思考过程中的一部分。

从OpenAI团队成员、中科大校友Jiahui Yu发布的帖文来看,“用图像思考”应该是OpenAI去年9月发布o系列模型以来,就在研发计划中,之前还悄悄推出了o1 Vision并进行了初步预览,但并没有取得很好的效果,也没有引起关注,直到这次在o3和o4-mini上实现了这一能力。

根据外部专家评估,o3作为o1系列模型的继任者,其在复杂问题上的错误率要比后者低20%,适合在生物学、数学和工程领域的复杂问题查询。

针对这一点,国外一位医学博士在测评后发帖表示,这一点确实有很大进步,当他向o3来提问一些颇具挑战性的临床或医学问题时,回答精准、全面,符合对一位该领域真正专家的期望。

对于那些想亲自测评、体验的用户来说,OpenAI官方已经表示,目前ChatGPT的Plus、Pro会员以及Team用户,即日起就可以直接体验o3、o4-mini,以及o4-mini-high,而之前的o1、o3-mini和o3-mini-high已默默退出舞台。这一操作也被有些网友戏称为“内部赛马”,新的产品出来后,之前的通通让路。

到目前为止,之前预告要发布的GPT‑4.1全家桶系列、o3、o4-mini模型就已经全部亮相展示了。据Sam Altman表示,o3和o4-mini可能是ChatGPT在GPT-5发布之前的最后独立AI推理模型了,期间大概率是不会再有其他新款模型出来了,另外他也说了,预计将在几周内将o3-pro升级到专业版。

在OpenAI官方的宣传口径中,o3和o4-mini是OpenAI所有模型中最为强大、智能的模型,一些开发者、用户在使用时,也感受到了进步。但是,创新能力似乎并没有达到预期。

“OpenAI的步调已经不再挺胸阔步了,更不知所措。”在看完OpenAI这次发布的新品后,一位业内人士这样感叹道。

虽然o3、o4-mini模型作为新产品,效果不错,但相较于OpenAI以往的激进和高举旗帜式前进,如今在创新上面呈现出明显的心有余而力不足。

其实前两天在GPT4.1系列套餐发布后,不少业内人士就向虎嗅表示,“暂时还没看到有什么特别亮眼的突破。”“对o3期待值没有那么高。”

或者这种“失望”要来得更早一点。

去年12月,o3在OpenAI的系列直播尾声亮相,Sam Altman称其为“一个非常、非常聪明的模型”,完全将O1甩在身后,更是在ARC-AGI测试这一旨在评估AI系统适应新任务和展示流动智力能力的测试中,获得87.5%的成绩,也是首次超越人类平均水平(85%),令业界感到震惊,被认为是在通往AGI的道路上迎来了新突破。但在业界开发者看来,似乎并不是这样。

“这就好比高考成绩不能代表工作业务能力。”一位开源领域人士锐评道。而且,如今的行业趋势已经进入到对数据高要求、对Agent全适配方向中,这就意味着私有化和混合模型推理为主的时代到来了。但是OpenAI对于开源的态度,众所周知。

尤其是在年初,当DeepSeek-R1凭借着超低的训练成本和性能媲美o1精彩亮相时,无疑是给了OpenAI一记响亮的耳光,而DeepSeek的全方位、无死角开源,像是又给了OpenAI再一记更响亮的耳光。

之后,这两记耳光不仅打得OpenAI黯然失色,还乱了它的阵脚和节奏,模型命名混乱、功能创新不足、尝试开源但态度暧昧不明,再加上内部人员高频流失,等等,无疑正在让它慢慢失去竞争优势,再不复一年之前被视为通往AGI的正确的、领先的道路引领者角色……

而官方也说了,此次发布的GPT4.1系列、o3,以及o4-mini是GPT-5正式发布前的最后一次模型发布了,也被视为GPT-5时刻的关键一步,可以理解为是GPT-5的前菜,主打“量大管饱”。但是,在技术的攀登道路上,量变能够引起质变并非唯一真理,更何况,这个量还远远不足。

“GPT-5应该是多个GPT4.1组成的吧。”一位业内人士这样戏谑道,一直传GPT-5或将在5月发布,到底OpenAI还能不能重回巅峰,只有到时候揭晓了。

本文来自虎嗅,原文链接:https://www.huxiu.com/article/4248481.html?f=wyxwapp

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
今晚冲队史首冠!广厦官方更新社媒:我们向往巅峰,我们沉稳应战

今晚冲队史首冠!广厦官方更新社媒:我们向往巅峰,我们沉稳应战

雷速体育
2025-05-17 13:33:22
印巴空战后,歼10C新客户出现?外媒:美国盟友有望买24架

印巴空战后,歼10C新客户出现?外媒:美国盟友有望买24架

第一军情
2025-05-17 10:48:04
一觉醒来,俞灏明的前任们都怒了!你官宣就官宣,怎么还内涵前任

一觉醒来,俞灏明的前任们都怒了!你官宣就官宣,怎么还内涵前任

小娱乐悠悠
2025-05-17 15:20:25
单次季后赛至少5次40+有多难?NBA仅11人,灭霸詹18年8次40+

单次季后赛至少5次40+有多难?NBA仅11人,灭霸詹18年8次40+

大卫的篮球故事
2025-05-16 17:58:04
33岁孙杨预赛比20岁潘展乐快了1秒多,赛后发声:激动、忐忑,渴望比赛

33岁孙杨预赛比20岁潘展乐快了1秒多,赛后发声:激动、忐忑,渴望比赛

潇湘晨报
2025-05-17 11:46:37
雅安纪委监委回应“黄杨钿甜耳环事件”

雅安纪委监委回应“黄杨钿甜耳环事件”

鲁中晨报
2025-05-17 13:07:07
疑印度阵风飞行员家属:他最后一条信息是“去给巴基斯坦一个教训”,失联后全家被禁足

疑印度阵风飞行员家属:他最后一条信息是“去给巴基斯坦一个教训”,失联后全家被禁足

不掉线电波
2025-05-16 21:36:42
两中国人在日本驾车冲撞放学小学生,驾车逃逸被通缉

两中国人在日本驾车冲撞放学小学生,驾车逃逸被通缉

吃瓜体
2025-05-17 11:31:55
小米刚上架的399元新机,把全网友都看傻了

小米刚上架的399元新机,把全网友都看傻了

锋潮评测
2025-05-16 16:32:19
伯恩茅斯官方:20岁后卫怀森将在赛季结束后加盟皇家马德里

伯恩茅斯官方:20岁后卫怀森将在赛季结束后加盟皇家马德里

直播吧
2025-05-17 18:09:14
被谢贤养了12年,用青春换来2000万的Coco,已经走上了另一条大道

被谢贤养了12年,用青春换来2000万的Coco,已经走上了另一条大道

八斗小先生
2025-05-17 11:47:35
尼克斯如何用5年耐心结束25年等待? 放弃超巨执念改走实用路线

尼克斯如何用5年耐心结束25年等待? 放弃超巨执念改走实用路线

直播吧
2025-05-17 15:08:19
周末突发大利空,周一美股将腥风血雨,上次这种利空大跌6%

周末突发大利空,周一美股将腥风血雨,上次这种利空大跌6%

鹏哥投研
2025-05-17 16:52:42
惊!20岁印度大学生飞机上强奸新加坡空姐,不料被乘客发现…

惊!20岁印度大学生飞机上强奸新加坡空姐,不料被乘客发现…

晓风说
2025-05-17 13:51:24
难以置信!网传王树国校长来江西宣传招生了,通知下发后响应寥寥

难以置信!网传王树国校长来江西宣传招生了,通知下发后响应寥寥

火山诗话
2025-05-17 08:49:02
美国收到3条坏消息,中国大幅抛售美债,特朗普迫不及待想要访华

美国收到3条坏消息,中国大幅抛售美债,特朗普迫不及待想要访华

说天说地说实事
2025-05-17 17:42:56
杜特尔特盟友在选举中排名靠前,政治分析人士:“看起来,菲律宾当局失败了”

杜特尔特盟友在选举中排名靠前,政治分析人士:“看起来,菲律宾当局失败了”

上观新闻
2025-05-17 15:13:03
油价大降0.91元/升,跌回解放前,创3年新低的油价5月19日又大降

油价大降0.91元/升,跌回解放前,创3年新低的油价5月19日又大降

猪友巴巴
2025-05-17 14:30:03
无奈!36岁男子落石被砸身亡后续!官方:司机酒驾,自然落石!

无奈!36岁男子落石被砸身亡后续!官方:司机酒驾,自然落石!

梦史
2025-05-17 14:45:17
网传深圳一41岁优质剩女征婚,要求男方年薪50万,两个月没人搭理

网传深圳一41岁优质剩女征婚,要求男方年薪50万,两个月没人搭理

火山诗话
2025-05-17 17:56:10
2025-05-17 19:39:00
虎嗅APP incentive-icons
虎嗅APP
个性化商业资讯与观点交流平台
24120文章数 686183关注度
往期回顾 全部

科技要闻

王树国:梁文锋如果读博 还有DeepSeek吗?

头条要闻

四座四合院、七栋别墅 将被强拆的"英之园"已成打卡地

头条要闻

四座四合院、七栋别墅 将被强拆的"英之园"已成打卡地

体育要闻

三年过去了,布伦森的打脸还没停

娱乐要闻

汪小菲婚礼在亭子里办仪式好热闹

财经要闻

关键时刻,央妈出手了

汽车要闻

小米汽车回应前保险杠变形 免费取送车和修复

态度原创

艺术
手机
房产
公开课
军事航空

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

手机要闻

小米 Civi5 Pro 手机完整规格曝光:厚度 7.45mm...

房产要闻

三年血亏468万!天河、黄埔网红盘,跌到底了吗?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

央视披露歼-10CE为何能击落多架战机

无障碍浏览 进入关怀版