网易首页 > 网易号 > 正文 申请入驻

OpenAI还能扛起人工智能的大旗吗?

0
分享至

出品|虎嗅科技组

作者|孙晓晨

编辑|苗正卿

头图|视觉中国

OpenAI在一周时间内相继发布GPT-4.1系列模型(包括GPT-4.1、GPT-4.1 mini以及GPT-4.1 nano)、OpenAI o3和o4-mini,但是新模型似乎并未如预想般“石破天惊”,反而将OpenAI拖入争论之中。

实际上,单独观察此次接连发布的新模型,其功能依然“能打”。

首先是GPT-4.1系列模型,据OpenAI介绍,GPT-4.1系列模型相较于GPT-4o升级明显,其在编码、指令遵循和长文本处理方面实现了重大改进,尤其在长文本处理方面,该系列模型支持高达一百万Token上下文,且无额外费用。

而OpenAI o3和o4-mini能够代理地使用并整合ChatGPT内的所有工具,包括网络搜索、Python、图像分析、文件解读和图像生成。此外,o3和o4-mini还将上传图像直接整合到其思维链中,不仅仅能“看到”图像,而且还能“用图像思考”。在OpenAI的宣传中,o3和o4-mini甚至被称为“迄今为止OpenAI最智能、功能最强大的模型”。

新模型的实际使用体验也不错。国外博主Clive Chan表示,在自己所有的工作流程(如光标操作等)中,4.1基本上已经取代了 o3-mini,且表现优异。医学博士Dr. Datta也指出,在为医院放射科构建代理型工作流程过程中,GPT-4.1 nano在降低成本的同时实现了响应速度显著提升。他表示“在放射学和医学领域,延迟是应用的最大障碍。模型生成报告的时间不能超过10秒。通过GPT-4.1 nano,我们现在甚至能在复杂的报告生成和网络搜索的结构化提取中实现低于10秒的响应时间。”

AI&I播客主持人Dan Shipper则通过具体的使用案例表达了对o3模型的赞许,称其“速度快、主动性强、极其聪明”。此外,博主Malte Landwehr表示,o3、o4-mini和o4-mini-high是OpenAI在其专注于德语的LLM基准测试中表现最佳的模型。

可见,OpenAI的新模型在实用价值以及性能上受到了众多用户的欣赏。但是,尽管享受着诸多肯定,OpenAI在接连发布新模型之后,批评与质疑的声音也更加刺耳。

首先,新模型在实际表现上依然存在误差,而且未完全超越竞品。GPT-4.1系列模型的百万级Token上下文功能似乎并非完全可靠,当输入接近上限时,模型准确率会出现大幅回落。还有博主列举了一部分基准测试数据,这些数据均显示GPT 4.1并没有击败Gemini 2.5 pro。

沃顿商学院教授Ethan Mollick则指出“o3的一个潜在问题是,它认为自己使用了工具,即使实际上并未使用,这导致了一些幻觉,即它假设推理链中暗示的工作实际上已经完成。”他也表示,Gemini 2.5并没有出现同样的问题。

另外,尽管OpenAI宣称o3和o4-mini能“用图像思考”,但有博主直接表示“尽管推出了新版本,但它仍然无法在网络上执行反向图像搜索功能。与谷歌相比,这一差距正在以比预期更快的速度扩大。”

在竞争日益激烈的AI行业中,这些表示新模型不及竞品的指责无疑直刺OpenAI的神经。此外,由于新模型虽然效果不错,但是缺乏亮眼表现,作为行业龙头的OpenAI也被认为正在遭遇创新瓶颈。

除了产品遭到质疑,OpenAI的产品策略也受到诟病。混乱的命名方式和难以确定功能指向的众多模型给用户带来了糟糕的选择体验,有网友表示自己甚至都无法确定最新的模型,指责OpenAI的模型命名缺乏逻辑且无序。而此次在GPT-4.5之后推出的GPT-4.1系列模型,也因为其版本号的倒退,被认为是在GPT-5难产时的过渡品。

AI安全问题也在本周新模型发布后受到关注。人工智能安全研究小组Truthful AI成员Owain Evans指出“GPT-4.1显示出比GPT-4o(以及我们测试过的任何其他模型)更高的不对齐响应率。它似乎还表现出了一些新的恶意行为,例如诱骗用户分享密码。”

反观OpenAI最近的一系列动作,新模型的争议貌似无伤大雅。之前便有消息表示,OpenAI正开发社交网络平台,尽管这意味着与马斯克的竞争关系将更加紧张,但也表明其正在展开更广阔的市场策略,结合其考虑以30亿美元收购人工智能编程工具Windsurf的行为,OpenAI可谓“野心勃勃”。在这样的背景下,接连发布新模型似乎并非公司精力所在。然而作为一家科技公司,产品表现无疑决定了公司的市场地位。而OpenAI究竟是否真正遭遇了创新瓶颈,还能否坐稳行业的第一把交椅,估计还要等GPT-5的表现才能见分晓。

本文来自虎嗅,原文链接:https://www.huxiu.com/article/4263014.html?f=wyxwapp

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
沉默5天后!菲防长再发声,中国的制裁:成他心里过不去的坎儿

沉默5天后!菲防长再发声,中国的制裁:成他心里过不去的坎儿

瓦伦西亚月亮
2026-06-28 16:46:58
上海403分本科线“引全网怒喷”——凭啥沪爷高考,拿的是站票?

上海403分本科线“引全网怒喷”——凭啥沪爷高考,拿的是站票?

妍妍教育日记
2026-06-26 08:45:06
下周主线已定!光通信全线调整,资金全跑去了这两个方向!

下周主线已定!光通信全线调整,资金全跑去了这两个方向!

证券市场周刊
2026-06-28 15:09:59
越南电车亏损39亿美元:宁要越南烂车,不要中国电车,美国图啥

越南电车亏损39亿美元:宁要越南烂车,不要中国电车,美国图啥

王新喜
2026-06-27 06:48:38
上海市民骑哈啰单车称遭遇“价格刺客”,骑79分钟收费30元!哈啰回应:建议用户骑行前留意价格信息,避免误骑高价车辆

上海市民骑哈啰单车称遭遇“价格刺客”,骑79分钟收费30元!哈啰回应:建议用户骑行前留意价格信息,避免误骑高价车辆

三湘都市报
2026-06-28 19:30:46
黄博文:如果坚持这样打下去,我们一定会成为一支强队的

黄博文:如果坚持这样打下去,我们一定会成为一支强队的

懂球帝
2026-06-28 21:27:47
当着20万人面,亲华总统宣布辞职,下台前感谢中国,承诺不会反水

当着20万人面,亲华总统宣布辞职,下台前感谢中国,承诺不会反水

影孖看世界
2026-06-28 18:01:05
贝林厄姆世界杯火热表现后隔空喊话穆里尼奥:我在皇马踢的不同

贝林厄姆世界杯火热表现后隔空喊话穆里尼奥:我在皇马踢的不同

本泽体育
2026-06-28 15:32:22
申花4-1、西海岸3-1!中超积分榜:第4到第6同分,申花力压上港

申花4-1、西海岸3-1!中超积分榜:第4到第6同分,申花力压上港

中超伪球迷
2026-06-28 21:05:19
A股:大家要准备好了,明天(6月29日),不出意外要这么走了

A股:大家要准备好了,明天(6月29日),不出意外要这么走了

财经大拿
2026-06-28 11:42:42
打脸黄一鸣!大佬承认孩子身份,私密聊天曝出,王思聪显狼狈

打脸黄一鸣!大佬承认孩子身份,私密聊天曝出,王思聪显狼狈

一盅情怀
2026-06-28 13:28:56
俄鹰派敦促对乌进行核打击,布达诺夫:你动核武器试试

俄鹰派敦促对乌进行核打击,布达诺夫:你动核武器试试

史政先锋
2026-06-27 21:48:03
民主刚果3-1战胜乌兹!韩国队正式出局 韩媒解脱:煎熬终于结束了

民主刚果3-1战胜乌兹!韩国队正式出局 韩媒解脱:煎熬终于结束了

风过乡
2026-06-28 09:32:20
农商银行宣布退市!定期存款、养老钱 还能安全取出吗?

农商银行宣布退市!定期存款、养老钱 还能安全取出吗?

牛锅巴小钒
2026-06-28 19:49:59
笑喷!吴艳妮:早上比赛太早我赖床睡过头了 不化妆了直接素颜上场

笑喷!吴艳妮:早上比赛太早我赖床睡过头了 不化妆了直接素颜上场

818体育
2026-06-28 15:08:57
66年首次!泰王携王后公主空降法国,苏提达一袭藏青泰服,太亮眼

66年首次!泰王携王后公主空降法国,苏提达一袭藏青泰服,太亮眼

叮当当科技
2026-06-28 18:28:04
以色列的重大胜利黎巴嫩将彻底铲除真主党

以色列的重大胜利黎巴嫩将彻底铲除真主党

海子侃生活
2026-06-28 09:49:22
小仙女为了8000元“举报全班师生”,老师被停职,全班学生延毕

小仙女为了8000元“举报全班师生”,老师被停职,全班学生延毕

妍妍教育日记
2026-06-28 08:10:07
大佬减仓了。。

大佬减仓了。。

格隆汇
2026-06-28 13:45:06
这件事,比“集体免职”更讽刺的,是长达两年多时间的“沉默”!

这件事,比“集体免职”更讽刺的,是长达两年多时间的“沉默”!

走读新生
2026-06-28 22:09:49
2026-06-28 23:00:49
虎嗅APP incentive-icons
虎嗅APP
个性化商业资讯与观点交流平台
26553文章数 687841关注度
往期回顾 全部

科技要闻

DeepSeek最新论文:如何让大模型跑得更快

头条要闻

养老院取名"如家" 没被如家酒店投诉反被一女子投诉

头条要闻

养老院取名"如家" 没被如家酒店投诉反被一女子投诉

体育要闻

韩国可算确定被淘汰了

娱乐要闻

曾沛慈拿下《乘风2026》年度总冠军

财经要闻

省钱,我只服梁文锋

汽车要闻

搭载华为乾崑六件套 东风奕派M8预售19.98万起

态度原创

手机
家居
教育
艺术
公开课

手机要闻

iOS 27 Beta 2曝光百度视觉搜索组件,新机蓄势待发中

家居要闻

绿意盎然 自然之境

教育要闻

明日提前批第1次志愿填报!注意事项来啦↘

艺术要闻

她不用笔,她用刀

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版