网易首页 > 网易号 > 正文 申请入驻

OpenAI 推出 GPT-4.1,撞期智谱 Z.ai

0
分享至

GPT 家族再添新成员。GPT-4.1 性能全面超越 GPT-4o,编码、指令跟踪及长上下文能力显著优化。

作者丨洪雨欣、梁丙鉴

编辑丨陈彩娴

就在今天,OpenAI API 中推出了三个新模型:GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano。这些模型的性能全面超越 GPT-4o 和 GPT-4o mini,在编码和指令跟踪方面均有显著提升。除此之外,它们还拥有更大的上下文窗口,支持多达 100 万个上下文tokens。

GPT-4.1 在 SWE-bench Verified 上的得分为 54.6% ,比 GPT-4o提高了21.4% ,比 GPT-4.5 提高了 26.6%,使其成为领先的编码模型。

在衡量指令遵循能力的标准当中,GPT-4.1 得分为 38.3%,比 GPT-4o 提高了10.5%。

在 Video-MME 多模态长上下文理解的基准中,GPT-4.1 创造了新的先进成果——在长篇无字幕类别中得分为 72.0%,比 GPT-4o 提高了6.7%。

针对模型的优化,GPT-4.1 模型系列以更低的成本提供了卓越的性能。这些模型在延迟曲线的每个点上都实现了性能的提升。

同日,智谱开源了其32B/9B 系列 GLM 模型,在代码生成、指令遵循等方面与GPT4.1短兵相接。

该批模型涵盖基座、推理、沉思模型,现已通过全新平台 Z.ai 免费开放体验,并同步上线智谱 MaaS 平台。

此次开源,OpenAI和智谱均干劲十足。GPT-4.1在代码任务、指令遵循、长上下文理解等多项领域均击败 GPT-4o。Z.ai 在指令微调和搜索代码上的基准指标上已接近甚至超越 GPT-4o。

1

代码生成

GPT-4.1 在各种代码任务上都比 GPT-4o 表现得更好,包括代理解决编码任务、前端编码、减少无关编辑、遵循差异格式、确保一致的工具使用等等。

在衡量真实世界软件工程技能的 SWE-bench Verified 测试中,GPT-4.1 完成了 54.6% 的任务,而 GPT-4o 的完成率为 33.2%。这反映了模型在探索代码库、完成任务以及生成可运行并通过测试的代码方面的能力有所提升。

对于需要编辑大型文件的 API 开发者来说,GPT-4.1 在跨多种格式的代码差异分析方面更加准确。在Aider 的多语言差异基准测试中,GPT-4.1 的得分是 GPT-4o 的两倍多,甚至比 GPT-4.5 还高出 8%。OpenAI专门训练了 GPT-4.1遵循差异格式的能力,开发人员无需重写整个文件,从而节省成本和延迟。

GPT-4.1 在前端代码方面也比 GPT-4o 有了显著提升,能够创建功能更强大、更美观的 Web 应用。在我们的面对面对比中,付费人工评分员 80% 的评分结果显示,GPT-4.1 的网站比 GPT-4o 的网站更受欢迎。

除了上述基准测试之外,GPT-4.1 在遵循格式方面表现更佳,准确性更高,并且减少了无关编辑的频率。在OpenAI的内部评估中,代码中的无关编辑从 GPT-4o 的 9% 下降到了 GPT-4.1 的 2%。

2

指令遵循

OpenAI开发了一个内部教学跟踪评估系统,将每个类别分为简单、中等和困难提示。GPT-4.1 在困难提示方面的表现尤其优于 GPT-4o。

GPT-4.1 能够更好地从过往对话中识别信息,从而实现更自然的对话。在 MultiChallenge 的基准测试中,GPT-4.1 的表现比GPT-4o 提高 10.5%。

GPT-4.1 在 IFEval 上的得分也为 87.4%,而 GPT-4o 的得分为 81.0%。IFEval 使用带有可验证指令的提示(例如,指定内容长度或避免使用某些术语或格式)。

智谱的 GLM-Z1-32B-0414 在IFEVAL上也表现优异,以84.5%的分数和GPT o1-mini分庭抗礼。

3

长上下文理解

GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 最多可以处理 100 万个上下文tokens,而之前的 GPT-4o 型号最多可以处理 128,000 个。100 万个tokens相当于整个 React 代码库的 8 个以上副本,因此长上下文非常适合处理大型代码库或大量长文档。

GPT-4.1 能够准确地处理长达 100 万个上下文中的信息。此外,它能比 GPT-4o 更准确地识别相关文本,并忽略长短上下文中的干扰项。长上下文理解是法律、编码、客户支持以及许多其他领域应用的关键能力。

下图是 GPT-4.1 检索位于上下文窗口内各个位置的隐藏信息(“针”)的能力。GPT-4.1 能够始终如一地准确检索所有位置和所有上下文长度的针,最大检索tokens数可达 100 万个。无论这些tokens在输入中的位置如何,它都能有效地提取与当前任务相关的细节。

为了进一步展示信息理解的能力,OpenAI开源了一个新的评估平台:OpenAI-MRCR(多轮共指,上下文中发现并区分隐藏的多个针头的能力)。

GPT-4.1 在上下文长度高达 128K 个 token 时的表现优于 GPT-4o,并且即使长度高达 100 万个 token 时也能保持强劲的性能。

在 Graphwalks (一个用于评估多跳长上下文推理的数据集)的基准测试中,GPT-4.1 达到了 61.7% 的准确率,与 o1 的性能相当,并轻松击败了 GPT-4o。

值得注意的是,智谱此番在小模型性能上也有所突破。尺寸仅为9B的GLM-Z1-9B-0414虽然参数量更少,但在数学推理及通用任务上依然表现出色。在AIME的基准测试中,以76.4%的高分击败DeepSeek-R1-Distill-Qwen-7B。

4

图像理解

GPT-4.1 系列在图像理解方面非常强大,尤其是 GPT-4.1 mini 代表了重大的飞跃,在图像基准测试中经常击败 GPT-4o。

在Video -MME(长篇无字幕)的测试中,模型会根据 30-60 分钟长的无字幕视频回答多项选择题。GPT-4.1 的表现达到了最佳水平,得分为 72.0%,高于 GPT-4o 的 65.3%。

5

定价

GPT-4.1 的成本比 GPT-4o 低 26%,而 GPT-4.1 nano 是 OpenAI 迄今为止最便宜、速度最快的模型。除了标准per-token 的成本外,还提供了无需额外付费的长上下文请求。

定价方面,智谱 Z.ai 整体低于GPT4.1。本次上线的基座模型提供GLM-4-Air-250414 和 GLM-4-Flash-250414两个版本,其中后者完全免费。推理模型分为三个版本,分别满足不同场景需求:

  • GLM-Z1-AirX(极速版):定位国内最快推理模型,推理速度可达200 tokens/秒,比常规快 8 倍;

  • GLM-Z1-Air(高性价比版):价格仅为DeepSeek-R1 的 1/30,适合高频调用场景;

  • GLM-Z1-Flash(免费版):支持免费使用,旨在进一步降低模型使用门槛。

更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

基座大模型「六进二」:南阶跃,北智谱

智谱 AI 狂飙:与商业化博弈的一年

价格战之后,智谱来到商业化的下一站

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
山东烟台“最美女律师”迟宗琳遇车祸去世,年仅42岁:生前常免费帮弱势群体打官司,还率一家七口登记捐献遗体角膜,如今名字与父亲同刻纪念墙

山东烟台“最美女律师”迟宗琳遇车祸去世,年仅42岁:生前常免费帮弱势群体打官司,还率一家七口登记捐献遗体角膜,如今名字与父亲同刻纪念墙

极目新闻
2026-05-25 11:29:35
实锤了!前经纪人直播证实鹿晗关晓彤分手,曝出3个不官宣原因!

实锤了!前经纪人直播证实鹿晗关晓彤分手,曝出3个不官宣原因!

阿凫爱吐槽
2026-05-25 23:40:40
央视科普的“高钾晚餐”火了!连吃7天,腰围直接缩7cm

央视科普的“高钾晚餐”火了!连吃7天,腰围直接缩7cm

健身狂人
2026-05-22 00:01:54
女星谢依霖辟谣老公患渐冻症,否认对方隐瞒遗传病史:生第二胎时才发现患肌无力,无论何时遭遇病痛都会陪伴他

女星谢依霖辟谣老公患渐冻症,否认对方隐瞒遗传病史:生第二胎时才发现患肌无力,无论何时遭遇病痛都会陪伴他

鲁中晨报
2026-05-25 18:34:05
骑马造势的车企原董事长落马了

骑马造势的车企原董事长落马了

中国新闻周刊
2026-05-24 23:46:09
窦靖童:姑姑对我的影响大过父母,我的音乐之路也是姑姑指引的!

窦靖童:姑姑对我的影响大过父母,我的音乐之路也是姑姑指引的!

玖宇维
2026-05-25 07:22:20
相亲角来了个印度小伙,全程拽得不行,张嘴就吹自己是印度高种姓

相亲角来了个印度小伙,全程拽得不行,张嘴就吹自己是印度高种姓

西楼知趣杂谈
2026-05-25 11:51:00
毕福剑67岁近况曝光:离开央视7年后的变化

毕福剑67岁近况曝光:离开央视7年后的变化

君笙的拂兮
2026-05-24 22:27:51
终于知道苹果直营店的员工每天都很有活力的原因了,网友:门槛高

终于知道苹果直营店的员工每天都很有活力的原因了,网友:门槛高

另子维爱读史
2026-05-23 08:00:45
纪委态度明确!上班时段抽空接送孩童,公职人员此举算不算违纪

纪委态度明确!上班时段抽空接送孩童,公职人员此举算不算违纪

复转这些年
2026-05-22 21:32:20
马刺拖入天王山!却有人要离队?西决16+6,薪资2.2亿,不如新秀

马刺拖入天王山!却有人要离队?西决16+6,薪资2.2亿,不如新秀

你的篮球频道
2026-05-25 11:31:36
乌克兰重创新罗西斯克港!摧毁黑海最重要的俄罗斯石油枢纽

乌克兰重创新罗西斯克港!摧毁黑海最重要的俄罗斯石油枢纽

项鹏飞
2026-05-23 21:09:22
在美国硅谷卖菜的山东大娘忙活一年收入曝光,大娘回应投诉问题

在美国硅谷卖菜的山东大娘忙活一年收入曝光,大娘回应投诉问题

观察者海风
2026-05-25 17:44:46
冰雕连被拍进电影后,新一轮骂战又开始了:我们该怎么打开英雄

冰雕连被拍进电影后,新一轮骂战又开始了:我们该怎么打开英雄

浪子说
2026-05-25 00:55:03
武契奇刚下飞机就去长城了 在纪念品商店买买买

武契奇刚下飞机就去长城了 在纪念品商店买买买

看看新闻Knews
2026-05-24 21:47:25
是巧合,还是冥冥中自有天意?3位航天员连“名字”都这么巧

是巧合,还是冥冥中自有天意?3位航天员连“名字”都这么巧

快看张同学
2026-03-13 10:37:40
寄生虫太多,开水都烫不死的4种食物,很多人却吃得停不下嘴

寄生虫太多,开水都烫不死的4种食物,很多人却吃得停不下嘴

熊猫医学社
2026-05-21 11:35:03
山姆超市 大妈拿桶接免费可乐,购物车上还有几个空桶,少年看呆

山姆超市 大妈拿桶接免费可乐,购物车上还有几个空桶,少年看呆

凡知
2026-05-25 13:54:50
高智商有多可怕?网友:他的大脑一个总工,一个副总工,一个监工

高智商有多可怕?网友:他的大脑一个总工,一个副总工,一个监工

另子维爱读史
2026-05-24 21:07:55
徐帆回应离婚几个月后,68岁冯小刚再惹争议,养女徐朵成导火索!

徐帆回应离婚几个月后,68岁冯小刚再惹争议,养女徐朵成导火索!

乡野小珥
2026-05-18 08:58:28
2026-05-26 00:40:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7302文章数 20754关注度
往期回顾 全部

科技要闻

华为:没有先进光刻机也能造出高端芯片

头条要闻

特朗普强制要求中东多国与以建交 称美伊谈判进展顺利

头条要闻

特朗普强制要求中东多国与以建交 称美伊谈判进展顺利

体育要闻

如果不好好守门,他可能早就继承家业了

娱乐要闻

李晨郑恺跑男停宣:12年元老被边缘化

财经要闻

起底煤矿“暗面”:假整改、假数据

汽车要闻

启境GT7定档5月29日预售 提供三电机版本

态度原创

数码
亲子
艺术
旅游
公开课

数码要闻

599元 荣耀Earbuds耳夹式耳机Pro发布:支持YOYO助手唤醒

亲子要闻

还有多少“儿童牙膏”在玩概念游戏? | 新京报快评

艺术要闻

他把葡萄画成了美少女

旅游要闻

美丽中国行|“无废细胞”激活绿色基因——三亚探索旅游城市可持续发展新路

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版