网易首页 > 网易号 > 正文 申请入驻

在涌现推理ARC-AGI测试上,中国主流大模型还远落后与美国大模型

0
分享至



在大多数主流AI基准测试上,中国模型已经能和美国顶尖实验室正面较量,但有一张考卷,目前仍在清晰地划出两者之间的差距。

ARC-AGI-2的最新半私营排行榜数据显示,中国主要AI模型的得分全部低于12%,不仅远落后于当前榜首谷歌DeepMind的Gemini 3.1 Pro(约85%),甚至低于美国前沿实验室在2025年7月已经达到的水平。




数字背后的真实差距

具体数字并不好看。Moonshot AI的Kimi K2.5以12%排在中国模型最前列,每次任务成本约0.28美元。MiniMax的M2.5和智谱AI的GLM-5均只拿到5%,DeepSeek V3.2得分更低,仅为4%,不过其每任务成本只需0.12美元,是几款中国模型里最便宜的。

相比之下,Anthropic的Claude Opus 4.6拿到约70%,OpenAI的GPT-5.2(高配)约为45%,谷歌DeepMind的Gemini 3.1 Pro则以约85%居于榜首。这些高分模型的代价是显著更高的运行成本,每次任务通常在1到10美元之间。

值得注意的是,阿里巴巴的Qwen 3 Max Thinking目前甚至未能出现在这张榜单上。ARC奖组织方规定,参与半私营测试的供应商必须签署可信的数据保留协议,Qwen 3 Max Thinking暂未满足这一要求,因此被排除在外。

ARC-AGI测的到底是什么



理解这组数字的意义,需要先弄清楚ARC-AGI在测什么。

ARC-AGI全称“抽象与推理语料库”,由AI安全研究员弗朗索瓦·肖莱设计,核心思路是让模型面对它从未见过的视觉推理题,考察其能否从少量样例中抽象出规律并举一反三。

这和MMLU、GSM8K那类基准测试有根本区别。后者考的是知识储备和特定问题的解题能力,可以通过大量训练数据“刷分”。ARC-AGI考的是涌现推理,也就是模型在没有“背过答案”的情况下,能否真正理解并解决陌生问题。这正是研究者认为与通用人工智能最相关的能力维度。

正因如此,ARC-AGI的得分很难通过简单扩大训练规模或针对性优化来提升,它更像是一面照出模型底层推理架构的镜子。

两种不同的优先级

这组数据让一个长期存在的争议变得更加具体:中美AI公司在技术路线上究竟有多大的本质差异?

Anthropic首席执行官达里奥·阿莫代曾公开表示,很多中国AI模型是专门针对特定基准测试优化的,而非面向真实应用场景。这种策略在某些标准化评估中能产生亮眼成绩,但遇到ARC-AGI这类考察开放性推理的题目,优势就难以为继。

这个判断当然带有竞争方的立场,不能全盘接受,但数据本身确实提供了一定支撑。中国模型在成本效率上表现突出,DeepSeek V3.2每任务0.12美元的价格,是同等性能区间里极具竞争力的存在。快速迭代、压低成本、在主流评测中保持竞争力,这套打法在商业落地层面相当有效。

但ARC-AGI考的不是这个。它问的是:当你遇到一个完全陌生的问题时,你能不能想清楚?

一个还没有定论的问题

当然,ARC-AGI也不是衡量AI能力的唯一标尺,这一点需要说清楚。

批评者指出,ARC-AGI的题目设计本身带有特定的文化和认知预设,且高分并不直接等同于在实际工作中更有用。一个在ARC-AGI上得85分的模型,不一定比得12分的模型更擅长写代码、做分析或回答复杂的专业问题。

此外,中国模型在推理链长度、多步骤逻辑和数学竞赛类题目上的进步速度,在过去一年内已经相当惊人。从这个角度看,ARC-AGI上的差距是否代表一种根本性的能力天花板,还是只是尚未被专门攻克的一个特定方向,目前仍然是开放问题。

但无论如何,这张榜单呈现的差距是真实存在的。在通往通用智能的路上,抽象推理这道关卡,中国AI还需要找到自己的答案。

信息来源:https://officechai.com/ai/chinese-models-including-kimi-minimax-and-deepseek-score-lower-than-12-on-arc-agi-2-lesser-than-us-frontier-labs-scores-from-july-2025/

作品声明:仅在头条发布,观点不代表平台立场

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
28岁北京独子王荻娶50岁德国妻子,宁断香火也要成婚,现状太意外

28岁北京独子王荻娶50岁德国妻子,宁断香火也要成婚,现状太意外

谈史论天地
2026-02-25 06:53:06
李莉评论区被冲,过往言论被反复吐槽,伊朗半小时灭以,回旋镖!

李莉评论区被冲,过往言论被反复吐槽,伊朗半小时灭以,回旋镖!

眼光很亮
2026-03-01 15:39:43
你有什么无心插柳的经历?网友:卖兽药的,一个半月,赚了190万

你有什么无心插柳的经历?网友:卖兽药的,一个半月,赚了190万

夜深爱杂谈
2026-02-24 20:10:07
3月1日全国严查启动!61号令落地,老板个体户别再抱任何侥幸

3月1日全国严查启动!61号令落地,老板个体户别再抱任何侥幸

牛锅巴小钒
2026-03-06 01:17:27
霍尔木兹海峡切断,不到24小时,中国油市行情生变,邻国股市狂跌

霍尔木兹海峡切断,不到24小时,中国油市行情生变,邻国股市狂跌

南宗历史
2026-03-04 11:55:16
谢娜撕薛之谦,张杰前女友参战,一场瓜见三位选秀歌手的人生差距

谢娜撕薛之谦,张杰前女友参战,一场瓜见三位选秀歌手的人生差距

日不西沉
2026-03-05 07:43:56
两会|代表建议:因性侵害未成年人获刑的犯罪分子,出狱后佩戴电子定位装置

两会|代表建议:因性侵害未成年人获刑的犯罪分子,出狱后佩戴电子定位装置

新欧洲
2026-03-04 19:48:08
王励勤也没想到,刘国梁会因两会的这一提议,实现了“口碑暴涨”

王励勤也没想到,刘国梁会因两会的这一提议,实现了“口碑暴涨”

以茶带书
2026-03-05 17:03:55
俄罗斯在乌克兰遭遇2023年11月以来最惨单月

俄罗斯在乌克兰遭遇2023年11月以来最惨单月

刀刀观察
2026-03-04 00:12:07
深夜美股下挫,超3000只个股下跌,热门中概股走低,哔哩哔哩跌超9%!黄金跌破5100美元,国际油价大涨

深夜美股下挫,超3000只个股下跌,热门中概股走低,哔哩哔哩跌超9%!黄金跌破5100美元,国际油价大涨

每日经济新闻
2026-03-05 23:22:05
日本正研判是否派自卫队去霍尔木兹海峡,一旦美方要求支援,日方能采取何种对策;目前日本44艘相关船只滞留波斯湾

日本正研判是否派自卫队去霍尔木兹海峡,一旦美方要求支援,日方能采取何种对策;目前日本44艘相关船只滞留波斯湾

极目新闻
2026-03-05 13:50:51
军统中统屡渗延安屡败,戴笠坦言:因毛泽东身边有位红色福尔摩斯

军统中统屡渗延安屡败,戴笠坦言:因毛泽东身边有位红色福尔摩斯

唠叨说历史
2026-03-03 11:55:40
18年后王晶才敢说,陈冠希电脑里的秘密,不是修出来的

18年后王晶才敢说,陈冠希电脑里的秘密,不是修出来的

西楼知趣杂谈
2026-02-26 22:32:58
老挝待了三个月,我被问懵了:“你们中国人是不是都没有家?”

老挝待了三个月,我被问懵了:“你们中国人是不是都没有家?”

天下霸奇
2026-02-24 07:59:23
涨粉近5000万,新“抖音一哥”诞生了!

涨粉近5000万,新“抖音一哥”诞生了!

TOP电商
2026-03-04 16:55:32
某鱼惊现“天价笔”:800元一支的中性笔,藏着多少肮脏暗语?

某鱼惊现“天价笔”:800元一支的中性笔,藏着多少肮脏暗语?

戗词夺理
2026-01-24 16:05:41
科威特附近海域一艘油轮发生爆炸

科威特附近海域一艘油轮发生爆炸

新华社
2026-03-05 11:41:43
阿塞拜疆放狠话,伊朗:不是我干的

阿塞拜疆放狠话,伊朗:不是我干的

观察者网
2026-03-05 21:59:11
“当心砸了你儿子的饭碗”,无知母亲晒公务员儿子做农活,被群嘲

“当心砸了你儿子的饭碗”,无知母亲晒公务员儿子做农活,被群嘲

妍妍教育日记
2026-02-24 18:13:37
医保统一政策落地!70-80 岁老人看病,这 3 件事越早知道越省心

医保统一政策落地!70-80 岁老人看病,这 3 件事越早知道越省心

生活不过如此呀
2026-03-05 23:20:03
2026-03-06 02:36:49
侃故事的阿庆
侃故事的阿庆
几分钟看完一部影视剧,诙谐幽默的娓娓道来
736文章数 7811关注度
往期回顾 全部

科技要闻

独家|林俊旸辞职 我们和认识他的人聊了聊

头条要闻

伊朗:已作好准备应对美国地面行动

头条要闻

伊朗:已作好准备应对美国地面行动

体育要闻

不开玩笑,没人想在季后赛碰上黄蜂

娱乐要闻

谢娜下场撕薛之谦,张杰前女友爆猛料

财经要闻

“十五五”开局之年,这么干!

汽车要闻

15.98万元起 第三代领克03大尾翼版上市

态度原创

数码
本地
艺术
游戏
公开课

数码要闻

安克首款智能盾磁吸充电宝预售:支持屏显、边充边监测,349元

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

艺术要闻

他偏要画最难的部分——这位韩国画师,只画手脚与人体,惊艳了无数人!

今天是《生化危机5》发售17周年

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版