网易首页 > 网易号 > 正文 申请入驻

让GPT-4.1「头皮发麻的考试」!OpenAI给大模型上强度,AI能赢吗?

0
分享至

新智元报道

编辑:定慧

【新智元导读】当AI模型拥有千万级Token的超长记忆力时,如何检验它们的真正实力?OpenAI给出了新答案:MRCR基准测试。这不再是简单的「大海捞针」,而是要求模型在海量文本中,区分并找到多个一模一样的「针」中的特定一个,难度堪称「AI 界的奥运会」。MRCR不仅有助于揭示当前AI的能力边界,也将促使下一代更强大、更可靠模型的诞生。

雕塑在大理石块中已经完成,甚至在我开始工作之前就已经存在。

它就在那里,我只需要凿去多余的材料。

——米开朗基罗

当被问及是如何创作出如此美丽的雕塑时,米开朗基罗说「雕塑已经存在,我只是需要凿去多余的材料」。

当21世纪的一个AI模型去理解一个非常长的上下文时,冥冥之中与15世纪的雕塑家发生了共鸣。

一个「超长的上下文」就像米开朗基罗手里的大理石,AI必须凿去无关信息以揭示其中的本质。

4月15日,时,更多的人关注模型的能力以及各系列「奇怪的」命名规则。

如果再加上OpenAI最近发布的o3和o4-mini,以后操纵一个AI聊天界面估计不亚于开宇宙飞船。

除了新模型,OpenAI还公布了一个叫做MRCR的评测标准数据集,如果说以前检测模型上下文能力的测试叫做「大海捞针」的话。

新的MRCR标准就是针对AI模型上下文能力的「奥运会」级别测评。

在信息海洋中「大海捞针」

「大海捞针」是翻译过来的,原文叫做The Needle In a Haystack,最早还得追溯到GPT-4那个「年代」(感叹下,AI发展的如此快,上一个里程碑时刻都要用年代来感知了,其实也就是2023年的事情)

最早是Greg Kamradt为了测试GPT-4的上下文能力提出的。

「The needle in a haystack」就是指将特定的、想要检索的信息(needle)嵌入到超长且复杂的文本(haystack)中。

AI能否从这块大理石(haystack)中凿出美丽的雕像?

Greg Kamradt评估了GPT-4的能力。当输入tokens大于100k,这些信息「针」被嵌入在文档的百分之十至百分之五十之间时,GPT-4的大海捞针的能力开始显著下降。

但在GPT4.1中,这个能力得到了「巨大」的提升,有多大?

上图是OpenAI发布GPT4.1时同时公布的信息,展示了 GPT-4.1在上下文窗口中不同位置检索一小段隐藏信息(「针」)的能力。

横轴是Input tokens从10K一直到1M,纵轴是「针」的位置。

测试结果全部蓝色,全部成功!

GPT-4.1能够在所有位置和所有上下文长度下一致且准确地检索到针,上下文长度一直到100万个tokens。

什么意思呢?就是说GPT4.1能够有效地提取与手头任务相关的任何细节,无论这些细节在输入中的位置如何。

看来现在的大模型处理2年前的「大海捞针」已经毫无压力了。

并且PGT4.1的上下文窗口来到了「史诗级」的10M,1000万tokens!是上述测试时的10倍。

用OpenAI的话,这个长度的上下文可以塞得下8个完整的React代码库。

那么,模型真的可以处理这么长的上下文吗?

2年前的「大海捞针」标准还能有效测试如今的大模型吗?

终极「躲猫猫」游戏,OpenAI MRCR登场!

标准的「大海捞针」测试虽然有用,但对于如今的大模型可能有点太「温柔」了。

如果想要找的不止一根针呢?如果这些针长得一模一样呢?如果要求找的不是特定的一根针,而是特定顺序的几根呢?

欢迎来到OpenAI MRCR的世界——一场为顶级AI大模型设计的终极「躲猫猫」游戏!

OpenAI MRCR增加了任务难度,MRCR(Multi-round co-reference resolution,多轮共指消解)是一个用于评估大语言模型区分隐藏在长上下文中的多个目标能力的数据集。

MRCR数据集把「大海捞针」的难度提升到了一个全新的境界,来看一下OpenAI提供的例子。

任务是给定了一段用户和模型之间的长对话,比如先写一首关于「tapirs」的诗,再写一首关于「rocks」的诗,然后再写一首关于「tapirs」的诗,以此类推。。。来增加这个上下文的难度。

最后的要求是:将「aYooSG8CQg」加到第二首关于「tapirs」的诗前面。

这个测试非常具有挑战性,因为:

  • 刺激项(针:也就是aYooSG8CQg)与干扰项(haystack:也就是长对话上下文)来自相同的分布。

  • 所有AI助手的回答都是由gpt4o生成的,因此刺激项很容易与干扰项混淆。

  • 模型必须区分刺激项之间的顺序:比如模型能分别出关于tapirs的诗是第几首。

  • 刺激项数量越多,任务就越困难。

  • 上下文越长,任务的难度也越大。

这个测试不仅对于GPT4.1,而且对于其他推理模型也相当困难。

MRCR不仅仅是测试模型能不能「找到」信息,更是考验它在极端干扰下,能否精确地、鲁棒地、有区别地定位到目标信息。

这就像在极其嘈杂的环境中,让你准确听出并复述某个特定人的特定一句话。

OpenAI也给出了在不同难度下(不同的针数),模型的准确性随着上下文的增大,迅速的降低。

比如2个针的情况下,在GPT4.1、GPT4.1-mini以及GPT4.1 nano的准确性同步降低。

在4针和8针的情况下,当上下文足够大的时候,GPT4.1 mini的准确性甚至稍微超过了GPT4.1。

在这个「严苛」的测试中,也许并不是模型越大越好。

AI 的「考试」永无止境

从GPT3.5的简单的问答到DeepSeek-R1、OpenAI-o1的复杂的推理,从基础的语言理解到极限的「大海捞针」再到更严格的MRCR,AI 大模型的基准测试就像一场永无止境的「考试」。

像OenAI-MRCR这样的创新性基准,不断地为这些聪明的AI模型设置新的、更难的挑战。

这些测试基准本身不是目的,它们的真正价值在于:

  • 揭示能力边界: 让我们更清楚地认识到当前 AI 的能力极限在哪里。

  • 驱动技术进步: 激励研究者们开发出更强大、更可靠、更能应对真实世界复杂性的 AI 模型。

  • 促进审慎应用: 了解模型的强项和弱点,有助于我们更负责任、更有效地使用这项强大的技术。

GPT4.1已经可以从10M上下文中找到关键的信息,未来AI大模型的能力上限在哪里呢?

AI的未来充满了无限可能,而这些严苛的基准测试,正是照亮前行道路,指引AI模型稳步向前的「灯塔」。

参考资料:

https://huggingface.co/datasets/openai/mrcr

https://openai.com/index/gpt-4-1/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
继张雪峰之后,中医大师黄贵华被曝心梗去世,社交账号已变黑白

继张雪峰之后,中医大师黄贵华被曝心梗去世,社交账号已变黑白

180视角
2026-03-26 11:52:12
我就不信张一山没有后悔过吗?这么美的前任拱手让出去了

我就不信张一山没有后悔过吗?这么美的前任拱手让出去了

喜欢历史的阿繁
2026-03-26 09:20:58
我有一个朋友在张雪峰公司上班他说张雪峰根本不是大家看到的样子

我有一个朋友在张雪峰公司上班他说张雪峰根本不是大家看到的样子

乐悠悠娱乐
2026-03-26 10:27:07
俄罗斯警告日本!俄输油重港接连遭攻击,“现场浓烟滚滚”;俄乌战场惊现持枪机器人:身高180cm,可AI评估战场并侦察射击

俄罗斯警告日本!俄输油重港接连遭攻击,“现场浓烟滚滚”;俄乌战场惊现持枪机器人:身高180cm,可AI评估战场并侦察射击

每日经济新闻
2026-03-26 15:53:05
汽车出海闯进新周期,广汽首个服务品牌GAC CARE捉住“决胜点”

汽车出海闯进新周期,广汽首个服务品牌GAC CARE捉住“决胜点”

功夫AUTO
2026-03-26 11:51:12
袁家军会见王兴兴

袁家军会见王兴兴

新京报政事儿
2026-03-26 16:45:34
张雪峰助理万霞:十年相伴,生死相隔最痛的人!

张雪峰助理万霞:十年相伴,生死相隔最痛的人!

天光破云来
2026-03-26 11:55:41
高速统一限速3月26日正式落地!五档限速+清理非标不会再乱扣分!

高速统一限速3月26日正式落地!五档限速+清理非标不会再乱扣分!

沙雕小琳琳
2026-03-26 09:41:30
突发传闻:封锁霍尔木兹的伊朗关键人物被击毙

突发传闻:封锁霍尔木兹的伊朗关键人物被击毙

桂系007
2026-03-26 16:19:32
张雪峰猝然离世,办公室内景曝光,摆设奇怪,写真照被指像遗照,生前的话字字催泪

张雪峰猝然离世,办公室内景曝光,摆设奇怪,写真照被指像遗照,生前的话字字催泪

笔墨V
2026-03-26 14:53:51
伊朗:击中击落美以202架飞机;以方:坦格西里身亡,他负责封锁霍尔木兹!想快速抽身,特朗普:打伊朗不是战争,是“军事行动”

伊朗:击中击落美以202架飞机;以方:坦格西里身亡,他负责封锁霍尔木兹!想快速抽身,特朗普:打伊朗不是战争,是“军事行动”

每日经济新闻
2026-03-26 17:27:09
上海一女子“闪婚”拿到价值近千万房产99%份额,“闪离”后起诉分割房产,法院判了!

上海一女子“闪婚”拿到价值近千万房产99%份额,“闪离”后起诉分割房产,法院判了!

环球网资讯
2026-03-26 08:13:14
广东一男子买啤酒抽中电动车大奖,将中奖二维码发网上询问后被他人扫走核销,网友:“这下又上了一课”

广东一男子买啤酒抽中电动车大奖,将中奖二维码发网上询问后被他人扫走核销,网友:“这下又上了一课”

洪观新闻
2026-03-26 10:56:49
伊朗官媒发布《为众人复仇》AI短片:一枚伊朗导弹在哈梅内伊等人注视下,精准炸毁幻化成羊头恶魔的美国自由女神像

伊朗官媒发布《为众人复仇》AI短片:一枚伊朗导弹在哈梅内伊等人注视下,精准炸毁幻化成羊头恶魔的美国自由女神像

大象新闻
2026-03-26 09:45:03
比国足还惨!意大利已12年未踢世界杯,仅剩33岁维拉蒂踢过世界杯

比国足还惨!意大利已12年未踢世界杯,仅剩33岁维拉蒂踢过世界杯

小金体坛大视野
2026-03-26 11:16:02
坚决反对中国任何城市申办奥运会,国际奥委会这次怕是真失算了

坚决反对中国任何城市申办奥运会,国际奥委会这次怕是真失算了

南权先生
2026-03-25 15:25:11
突发心梗,吃丹参滴丸有用吗?医生:这2种药才是心梗急救药!

突发心梗,吃丹参滴丸有用吗?医生:这2种药才是心梗急救药!

健康科普365
2026-03-26 09:57:24
引而不发才是王道,封锁霍尔木兹海峡,伊朗打完了最后一张牌……

引而不发才是王道,封锁霍尔木兹海峡,伊朗打完了最后一张牌……

家传编辑部
2026-03-26 10:34:27
美团:2025年营收3,648.5亿元人民币 同比增长8.1%

美团:2025年营收3,648.5亿元人民币 同比增长8.1%

财联社
2026-03-26 17:40:04
塞尔维亚购买中国超音速导弹?国防部:正常军贸合作,不针对第三方

塞尔维亚购买中国超音速导弹?国防部:正常军贸合作,不针对第三方

澎湃新闻
2026-03-26 17:24:26
2026-03-26 18:08:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14819文章数 66721关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
亲子
手机
本地
游戏

家居要闻

傍海而居 静观蝴蝶海

亲子要闻

售卖“增高神药”让孩子“猛长20厘米”?多家店铺被立案调查!

手机要闻

顶配Ultra旗舰!vivo X300 Ultra配置公布:骁龙8E5+2K/144Hz直屏、8.19mm机身

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

又一经典最终幻想游戏将停运!开服至今已六年有余

无障碍浏览 进入关怀版