网易首页 > 网易号 > 正文 申请入驻

OpenAI发布GPT-4.1系列模型,超越前辈4o,但未超越竞争对手

0
分享至

GPT-4.1 来了。

北京时间4 月 15 号凌晨,OpenAI 直播发布了名为 GPT-4.1 的多模态系列模型。

它有三个版本:GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano。其中 mini 和 nano 的效率更高、速度更快、成本更低,但牺牲了准确性。

OpenAI 表示,“它们编码和指令遵循方面取得了重大进展。完整的GPT-4.1 模型在几乎所有维度上均优于 GPT-4o 系列模型。”

仅从基准测试成绩来看,GPT-4.1 的纸面性能虽然比自家前辈有所提升,但如果跟谷歌、Anthropic 等竞争对手的旗舰模型相比,还是有一定的差距。

看来想要完全超越竞争对手,OpenAI 只能尽快拿出 o3 完全体了。

值得注意的是,GPT-4.1 系列模型目前只能通过 OpenAI 的 API 获取,无法在 ChatGPT 上使用。

与此同时OpenAI 还宣布,将很快停止通过 API 提供其有史以来最大的 AI 模型 GPT-4.5。该模型是今年 2 月刚刚发布的,其运行成本十分昂贵,API 定价也高达每百万输入 75 美元,每百万输出 150 美元。

今年7 月 14 日之后,API 开发者必须将 GPT-4.5 服务转移到 OpenAI 的其他模型,首选替代方案是 GPT-4.1。这暂时不会影响通过 ChatGPT 使用 GPT-4.5。

GPT-4.1 系列模型的上下文窗口提高到了 100 万 token(包含文本、图像或视频的组合),这意味着它们可以一次性输入大约 75 万个单词。此前的 GPT-4o 最多支持 12.8 万 token。

但OpenAI 也承认,GPT-4.1 处理的输入 token 越多,可靠性就越低,更容易出错。

在该公司自己的测试OpenAI-MRCR 中,随着 token 的数量从 8000 增长到 100 万,模型的准确率从 84% 左右下降到了不足 50%。该公司表示,GPT-4.1 也比 GPT-4o 更“直接”,有时需要更具体、更明确的提示。

定价方面,GPT-4.1 每百万输入 token 成本为 2 美元,每百万输出 token 成本为 8 美元。GPT-4.1 mini 每百万输入 token 成本为 0.4 美元,每百万输出 token 成本为 1.6 美元;GPT-4.1 nano 每百万输入 token 成本为 0.1 美元,每百万输出 token 成本为 0.4 美元。

综合来看,GPT-4.1 的成本比 GPT-4o 低 26%。同时,OpenAI 还将新模型的即时缓存折扣输入提高到了 75%(之前为 50%)。

性能方面,GPT-4.1 可以一次性生成比 GPT-4o 更多的 token(最多 32768 个 token),在最受程序员关心的 SWE-bench Verified 上的得分在 52% 到 54.6% 之间。这个成绩低于谷歌 Gemini 2.5 Pro 的 63.8% 和 Anthropic Claude 3.7 Sonnet 的 62.3%。

对于需要编辑大型文件的API 开发者来说,GPT-4.1 在跨多种格式的代码差异分析方面更加可靠。在 Aider 的多语言差异基准测试中,GPT-4.1 的得分是 GPT-4o 的两倍多,甚至比 GPT-4.5 还高出 8%。

“我们专门训练了GPT-4.1,使其能够更可靠地遵循差异格式,这使得开发人员只需让模型输出更改的行,而无需重写整个文件,从而节省成本和延迟。”OpenAI 写道。

这一点在指令遵循上也有所体现。

OpenAI 在博客中介绍称,GPT-4.1 能更可靠地遵循指令,并且“已经在各种指令遵循评估中测量到了显著的改进”。

OpenAI 开发了一个内部教学跟踪评估系统,以跟踪模型在多个维度和几个关键教学跟踪类别中的表现,包括格式遵循、避免负面指示、有序遵循指令、遵守内容要求、排序和过度自信。

这些类别是根据开发人员的反馈得出的,这些反馈是关于哪些指令遵循方面对他们来说最相关且最重要。在每个类别中,OpenAI 将其分为简单、中等和困难提示。GPT-4.1 在困难提示方面的表现尤其优于 GPT-4o。

多轮指令遵循对许多开发者来说至关重要。对于模型而言,在对话中保持连贯性并跟踪用户之前输入的内容至关重要。

“我们已经训练了GPT-4.1,使其能够更好地从对话中的过往消息中识别信息,从而实现更自然的对话。Scale 的 MultiChallenge 基准测试是衡量这一能力的有效指标,GPT-4.1 的表现比 GPT-4o 提高了 10.5%。”OpenAI 表示。

GPT-4.1 在前端编码方面也比 GPT-4o 有了显著提升,能够创建功能更强大、更美观的 Web 应用。在 OpenAI 的评估中,相比 GPT-4o,测试人员更喜欢 GPT-4.1 创建的网站。

在另一项评估中,OpenAI 使用 Video-MME 测试了 GPT-4.1,该模型旨在衡量模型“理解”视频内容的能力。

OpenAI 声称,GPT-4.1 在“长篇无字幕”视频类别中达到了72% 的最高准确率,高于 GPT-4o 的 65.3%。

在衡量真实世界软件工程技能的SWE-bench Verified 测试中,GPT-4.1 完成了 54.6% 的任务,而 GPT-4o(2024-11-20)的完成率为 33.2%。这反映了模型在探索代码库、完成任务以及生成可运行并通过测试的代码方面的能力有所提升。

OpenAI 还表示,除了上述基准测试之外,GPT-4.1 在遵循代码格式方面表现更佳,可靠性更高,并且减少了无关编辑的频率。在内部评估中,代码中的无关编辑从 GPT-4o 的 9% 下降到了 GPT-4.1 的 2%。

此外,根据OpenAI 不久前发布的更新日志,OpenAI 将很快从 ChatGPT 中淘汰其两年多前推出的 AI 模型 GPT-4。

OpenAI 表示,自今年 4 月 30 日起,GPT-4 将被 ChatGPT 当前的默认模型 GPT-4o 完全取代。如有需要,GPT-4 仍可通过 OpenAI 的 API 访问。

GPT-4o 最初于 2024 年 5 月作为旗舰模型推出,可实时推理音频、视觉和文本。

OpenAI 在更新日志中写道:“在针对性评估中,GPT-4o 在写作、编码、STEM 等方面始终超越 GPT-4。最近的升级进一步提高了 GPT-4o 的指令遵循、问题解决和对话流程,使其成为 GPT-4 的自然继承者。”

GPT-4 于 2023 年 3 月推出,适用于 ChatGPT 和微软的 Copilot 聊天机器人,具备多模态功能,能够同时理解图像和文本,是广泛部署的 OpenAI 模型的首个版本。

如今,随着OpenAI 刚刚发布的 GPT-4.1 系列模型,以及传闻中待发布的 o3 和 o4-mini 推理模型,GPT-4 的正式退役也在情理之中。

不过,如今OpenAI 面对的竞争压力远远大于 GPT-4 初亮相的时候。在 Gemini 2.5 Pro、Claude 3.7 Sonnet 和 DeepSeek 的夹击之下,新 GPT 和 o 系列模型任重而道远。

参考资料:

https://openai.com/index/gpt-4-1/

https://techcrunch.com/2025/04/14/openai-plans-to-wind-down-gpt-4-5-its-largest-ever-ai-model-in-its-api/

https://techcrunch.com/2025/04/14/openais-new-gpt-4-1-models-focus-on-coding/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
给女儿留过亿财产后,张雪峰身家被扒底朝天,李雪琴的话有人信了

给女儿留过亿财产后,张雪峰身家被扒底朝天,李雪琴的话有人信了

爱下厨的阿酾
2026-03-26 20:14:43
马龙刚到香港,张怡宁直接破例,这场家宴藏着体坛最真的交情

马龙刚到香港,张怡宁直接破例,这场家宴藏着体坛最真的交情

大鱼娱乐观
2026-03-25 23:45:34
你见过哪些闷声发大财的人?网友:干这个买三套房子,两个门面

你见过哪些闷声发大财的人?网友:干这个买三套房子,两个门面

夜深爱杂谈
2026-02-01 18:57:04
华人离境后人间蒸发!在新西兰买的房产竟不要了

华人离境后人间蒸发!在新西兰买的房产竟不要了

发现新西兰
2026-03-26 12:47:12
明天买不到了,今夜早点挂单吧

明天买不到了,今夜早点挂单吧

风风顺
2026-03-27 04:10:03
带孙 8 年,我终于明白,和儿子儿媳相处,最不该做的 3 件事

带孙 8 年,我终于明白,和儿子儿媳相处,最不该做的 3 件事

朗威谈星座
2026-03-26 17:49:39
断网之后,俄罗斯的普通人更快乐了!有人信吗?

断网之后,俄罗斯的普通人更快乐了!有人信吗?

走读新生
2026-03-25 10:58:41
FCC一纸禁令:60%家用路由器将被断供,你的Wi-Fi要涨价了

FCC一纸禁令:60%家用路由器将被断供,你的Wi-Fi要涨价了

赛博兰博
2026-03-25 14:31:11
儿子说接我们养老却先接岳父母住新房:我做个狠心决定,儿子慌了

儿子说接我们养老却先接岳父母住新房:我做个狠心决定,儿子慌了

奶茶麦子
2026-03-27 00:34:12
零出场10人!大连板凳藏着一支隐形军团 多名小妖去别队能打主力

零出场10人!大连板凳藏着一支隐形军团 多名小妖去别队能打主力

刀锋体育
2026-03-26 23:03:03
今年春天爆火的“Samba鞋”,百搭时髦又耐看!

今年春天爆火的“Samba鞋”,百搭时髦又耐看!

时尚穿搭生活馆
2026-03-26 22:08:27
炸锅!名宿开骂:英格兰 4 大废物不配入选,巨星落选有猫腻

炸锅!名宿开骂:英格兰 4 大废物不配入选,巨星落选有猫腻

奶盖熊本熊
2026-03-27 05:35:00
泰国U23国脚乌萨马谈红牌:中国球员先用力推我,还出言不逊

泰国U23国脚乌萨马谈红牌:中国球员先用力推我,还出言不逊

懂球帝
2026-03-26 16:09:08
巴基斯坦外长说美伊正进行间接谈判

巴基斯坦外长说美伊正进行间接谈判

新华社
2026-03-26 18:55:07
51岁男子突发心梗猝死!不想得心梗,牢记晚饭4不吃,睡前4不要!

51岁男子突发心梗猝死!不想得心梗,牢记晚饭4不吃,睡前4不要!

健康之光
2026-03-20 17:05:06
又跌了,下一轮大行情才刚刚开启!

又跌了,下一轮大行情才刚刚开启!

金投网
2026-03-26 17:26:35
这才是地球禁区!30秒毁全身细胞,剧毒万年不散,内部画面罕曝光

这才是地球禁区!30秒毁全身细胞,剧毒万年不散,内部画面罕曝光

历史的烟火
2026-03-16 17:16:46
岳云鹏现身上海,气场跟以前完全不一样了,助理当街抽烟也不避讳

岳云鹏现身上海,气场跟以前完全不一样了,助理当街抽烟也不避讳

仙味少女心
2026-03-24 16:47:29
回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

就一点
2025-11-22 10:36:39
美团:2025年营收3,648.5亿元人民币 同比增长8.1%

美团:2025年营收3,648.5亿元人民币 同比增长8.1%

财联社
2026-03-26 17:40:04
2026-03-27 06:24:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16491文章数 514798关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:对伊朗能源设施空袭再推迟10天

头条要闻

特朗普:对伊朗能源设施空袭再推迟10天

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

时尚
健康
房产
家居
军事航空

400万人爱过的女孩,被黄谣网暴180天后

转头就晕的耳石症,能开车上班吗?

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

家居要闻

傍海而居 静观蝴蝶海

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版