网易首页 > 网易号 > 正文 申请入驻

OpenAI 发布新版 GPT-4.1 AI 模型专注于编程

0
分享至

OpenAI 周一发布了名为 GPT-4.1 的新模型系列。没错,“4.1”,仿佛该公司的命名方式还不够让人困惑似的。目前有 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano,OpenAI 表示它们在编码和指令执行方面都“表现出色”。这些多模态模型可以通过 OpenAI 的 API 获取,但ChatGPT上是无法使用的。

它们拥有一个包含 100 万个词元的上下文窗口,这意味着它们可以一次性输入大约 75 万个单词(比《战争与和平》还要长)。

GPT-4.1 的到来正值 OpenAI 的竞争对手Google和 Anthropic 加紧构建复杂编程模型之际。Google最近发布的Gemini 2.5 Pro也拥有 100 万个词元上下文窗口,在热门编码基准测试中名列前茅。Anthropic 的Claude 3.7 Sonnet和中国 AI 初创公司DeepSeek 的升级版 V3也同样名列前茅。

训练能够执行复杂软件工程任务的AI编码模型是包括OpenAI在内的许多科技巨头的目标。OpenAI的宏伟目标是打造“代理软件工程师”,正如其首席财务官Sarah Friar上个月在伦敦举行的一次科技峰会上所说。该公司声称,其未来的模型将能够端到端地编写整个应用程序,处理质量保证、错误测试和文档编写等方面的工作。GPT-4.1 是朝着这个方向迈出的一步。

OpenAI 的一位发言人表示:“我们根据直接反馈对 GPT-4.1 进行了优化,使其更适合实际使用,从而改进了开发者最关心的领域:前端编码、减少不必要的编辑、可靠地遵循格式、遵循响应结构和顺序、保持一致的工具使用等等。这些改进使开发者能够构建出在实际软件工程任务中表现更出色的代理。”

OpenAI 声称,完整的 GPT-4.1 模型在包括 SWE-bench 在内的编码基准测试中均优于其GPT-4o 和 GPT-4o mini 模型。据称,GPT-4.1 mini 和 nano 效率更高、速度更快,但准确性有所降低。OpenAI 表示,GPT-4.1 nano 是其迄今为止速度最快、成本最低的模型。

GPT-4.1 每百万输入词元成本为 2 美元,每百万输出词元成本为 8 美元。GPT-4.1 mini 每百万输入词元成本为 0.40 美元,每百万输出词元成本为 1.60 美元;GPT-4.1 nano 每百万输入词元成本为 0.10 美元,每百万输出词元成本为 0.40 美元。

根据 OpenAI 的内部测试,GPT-4.1 可以一次性生成比 GPT-4o 更多的词元(32768 对 16384),在 SWE-bench Verified(SWE-bench 的人工验证子集)上的得分在 52% 到 54.6% 之间。(OpenAI 在一篇博文中指出,一些 SWE-bench Verified 问题的解决方案无法在其基础架构上运行,因此得分范围有所不同。)这些数字略低于Google和 Anthropic 在同一基准测试中分别报告的 Gemini 2.5 Pro(63.8%)和 Claude 3.7 Sonnet(62.3%)的得分。

在另一项评估中,OpenAI 使用 Video-MME 测试了 GPT-4.1,该模型旨在衡量模型“理解”视频内容的能力。OpenAI 声称,GPT-4.1 在“长篇无字幕”视频类别中达到了 72% 的最高准确率。

虽然 GPT-4.1 在基准测试中得分相当不错,并且“知识截止”时间也较新,使其能够更好地参考时事(截至 2024 年 6 月),但必须牢记,即使是当今一些最好的模型,在处理一些专家不会犯错的任务时也会遇到困难。例如,许多研究表明 ,代码生成模型通常 无法修复安全漏洞和 bug,甚至会引入这些漏洞。

OpenAI 也承认,GPT-4.1 处理的输入词元越多,其可靠性就越低(即更容易出错)。在该公司自己的测试 OpenAI-MRCR 中,该模型的准确率从 8000 个词元时的 84% 左右下降到 1024 个词元时的 50%。该公司表示,GPT-4.1 也比 GPT-4o 更“直白”,有时需要更具体、更明确的提示。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
江苏出乎意料,南京也没想到,宝应已成江淮亮眼新名片

江苏出乎意料,南京也没想到,宝应已成江淮亮眼新名片

周哥一影视
2026-06-28 00:38:40
女生长的太漂亮是什么体验?网友:母以子贵,父以女荣

女生长的太漂亮是什么体验?网友:母以子贵,父以女荣

另子维爱读史
2026-03-10 22:56:08
经济下行,到处都是陷阱。

经济下行,到处都是陷阱。

老陆不老
2026-06-27 20:08:16
大多数中年人一旦失业,手里有一二百万存款,他们会选择躺平

大多数中年人一旦失业,手里有一二百万存款,他们会选择躺平

富书
2026-06-26 14:07:27
儿子无用、女儿流浪,72岁的成龙,终是为自己的年少轻狂付出代价

儿子无用、女儿流浪,72岁的成龙,终是为自己的年少轻狂付出代价

兵鉴史
2026-06-28 02:37:22
大量硼砂,别再给家里人吃了!这10类食物最易掺硼砂,超危险

大量硼砂,别再给家里人吃了!这10类食物最易掺硼砂,超危险

笑熬浆糊111
2026-04-13 00:05:12
中国U17国少第四期集训名单分析

中国U17国少第四期集训名单分析

林子说事
2026-06-27 15:31:05
为什么英国政坛会深陷政治失序泥潭?

为什么英国政坛会深陷政治失序泥潭?

风铃草语
2026-06-27 20:06:13
星陪伴 | AI涨到上游材料!六类AI材料全梳理

星陪伴 | AI涨到上游材料!六类AI材料全梳理

新浪财经
2026-06-26 20:14:49
英格兰小组排名两种算法:碰巴西还是碰西德法?

英格兰小组排名两种算法:碰巴西还是碰西德法?

甜度百分百21
2026-06-28 00:44:14
巴尔韦德被换下后显得非常失望,全程没有与贝尔萨交流

巴尔韦德被换下后显得非常失望,全程没有与贝尔萨交流

懂球帝
2026-06-27 10:05:41
美国政府禁止 GPT 5.6 发布

美国政府禁止 GPT 5.6 发布

AI范儿
2026-06-26 08:02:47
儿子出国后16年没联系,我癌症住院时,主治医生摘下口罩:妈

儿子出国后16年没联系,我癌症住院时,主治医生摘下口罩:妈

五元讲堂
2025-06-12 15:16:01
段永平坐不住了,晒图直夸 “蛮可爱的”!新品发售遇冷,罕见“破发”,泡泡玛特股价巨震

段永平坐不住了,晒图直夸 “蛮可爱的”!新品发售遇冷,罕见“破发”,泡泡玛特股价巨震

都市快报橙柿互动
2026-06-27 08:02:12
2026上海全市中考人数13.8万,考上市重点有多难?

2026上海全市中考人数13.8万,考上市重点有多难?

朗威谈星座
2026-06-28 00:12:17
北京一位空姐嫁给了打工仔,婚后一年,她才得知丈夫真实身份

北京一位空姐嫁给了打工仔,婚后一年,她才得知丈夫真实身份

千秋文化
2026-06-21 19:49:55
全球首款0.7nm芯片发布!国产还怎么追?

全球首款0.7nm芯片发布!国产还怎么追?

牲产队
2026-06-26 17:44:56
苹果最薄、最抗造的iPhone来了,价格却被砍一刀?

苹果最薄、最抗造的iPhone来了,价格却被砍一刀?

灰度测试中
2026-06-27 02:47:01
达沃斯大连之夜原版现场向市民免费开放10天

达沃斯大连之夜原版现场向市民免费开放10天

半岛晨报
2026-06-27 12:54:12
网红董赤赤栽了:1300万粉丝、54万债务,她的结局比想象中惨得多

网红董赤赤栽了:1300万粉丝、54万债务,她的结局比想象中惨得多

橙星文娱
2026-06-03 11:31:20
2026-06-28 04:56:49
cnBeta.COM incentive-icons
cnBeta.COM
提供IT行业即时资讯
68872文章数 70219关注度
往期回顾 全部

科技要闻

GPT-5.6发布,你暂时用不了!Mythos也放行

头条要闻

金价大跌 有商家资产缩水百万:跌掉一辆迈巴赫

头条要闻

金价大跌 有商家资产缩水百万:跌掉一辆迈巴赫

体育要闻

世界杯最火门将,站到了阿根廷和梅西面前

娱乐要闻

四提白玉兰终封后,杨紫:仍觉不真实

财经要闻

OpenAI推迟IPO重创软银!

汽车要闻

搭载华为乾崑ADS 5 全新猛士M817上市售29.99万起

态度原创

本地
旅游
数码
艺术
公开课

本地新闻

世界杯球迷节:比球赛更好玩的派对

旅游要闻

住在昆明几十年,最舍不得的城市烟火,全都藏在这条老巷里!

数码要闻

存储芯片大涨 苹果美光打口水战

艺术要闻

看完他的局部,我原谅了整个世界的不完美

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版