网易首页 > 网易号 > 正文 申请入驻

高中生用「我的世界」评测SOTA模型!Claude暂时领先,DeepSeek紧随其后

0
分享至

新智元报道

编辑:定慧

【新智元导读】AI频频刷新基准测试纪录,却算不清「strawberry」里到底有几个字母r,在人类看来很简单的问题却频频出错。这种反差促使创意测评兴起,例如由一名高中生开发的MC-Bench,用Minecraft方块「竞技场」模式评价AI能力。这种新的测评范式,或许更贴合人类对AI直观、创造性能力的实际期待。

「strawberry中有多少个r」和「在LSAT法学考试中获得88分」哪个更难?

对于现如今的LMMs来说,通过各种人类「听着就头痛,看又看不懂」的基准测试似乎已是家常便饭。

比如DeepSeek-R1发布时在6大基准测试(包含AIME、MMLU、MATH-500等)中超过o1取得领先。

但是对于人类来说依靠直觉和下意识就能回答的问题,LLM们似乎集体有点「发懵」。

很难理解OpenAI的GPT-4能够在LSAT考试中获得第88百分位的成绩,但却无法数清楚「strawberry」中有多少r。

除了复杂的基准测试,另外一种评价模型好坏的方式就是「竞技场模式」。

比如可以在Chatbot Arena进行上提问投票,选出面对相同问题时的「最佳模型」。

但是这种依靠Chat模式的评测依然不太直观,于是各种各样的创意评测就诞生了。

创意评测的魅力

Minecraft Benchmark(或 MC-Bench)像一个竞技场,在一对一的挑战中针对相同提示生成Minecraft作品。

「对决双方」由用户投票选择哪个模型做得更好。

并且只有在投票后才能看到每个Minecraft建筑是由哪个AI制作的。

目前MC-Bench的榜单上,Claude3.7暂时领先,deepseek-r1位列第5,但是考虑到DeepSeek-R1的发布时间,Claude3.7、GPT-4.5和Gemini2.0都相当于是「新一代」的模型了,期待DeepSeek-R2出来后的榜单!

像MC-Bench这样的创意评测,优势非常明显:普通人也能轻松参与,像「选美」一样简单直接。

创造MC-Bench项目的仅仅是一名高中生Adi Singh,在将Minecraft用于AI评测这件事情上,Adi Singh觉得Minecraft的价值不在游戏本身。

而是作为有史以来最畅销的电子游戏,即使对于没玩过Minecraft游戏的人来说,仍然可以选择自己更喜欢的「方块样子」。

MC-Bench是合作开发的,除了Adi Singh外,贡献者还有7位,包括了「提示词创意官」、技术主管和开发者们。

并获得了Anthropic、Google和阿里巴巴等公司的技术支持。

传统LLM评测:严肃认真但未必管用

传统的AI基准测试技术被证明不足,主要体现在以下几个方面:

  • 主场优势 (Overfitting to benchmarks):传统的 AI 基准测试往往基于特定类型的任务设计,这些任务对 AI 模型来说相对固定且简单,这种过拟合就像一名「只会背题」的学生。

  • 测试任务过于狭窄:传统的测试任务多集中于单一维度的能力评估,如语言理解、逻辑推理、数学计算。

  • 缺乏真实环境与开放性:传统的基准测试通常使用高度抽象化或理论化的环境,而这些环境往往不能反映现实世界中问题的开放性和不确定性。

  • 难以衡量通用性与泛化能力:传统 AI 基准测试往往无法有效衡量模型的通用性或泛化能力。

因此AI构建者正在转向更有创意的方法来评估Gen-AI模型的能力。

AI开发者们表示,我们也想玩点「新鲜的」。

MC-Bench的本质是在测试AI模型的文本理解和编码能力。

通过类似Chatbot Arena的方式来进行模型评比。

对于为何选择游戏,选择Minecraft,Adi Singh觉得「游戏可能只是一种测试能动性推理的媒介,比现实生活更安全,也更适合测试目的,因此在我看来更为理想」。

从Adi Singh个人网站来看,他对于使用Minecraft方块进行AI评测应该是「蓄谋已久」,Adi Singh展示很多利用大模型生成Minecraft方块的精彩案例。

比如,gpt-4.5根据提示「构建一艘在云层中飞行的蒸汽朋克风格飞艇」。

再比如,claude-3.7-sonnet有一个令人印象非常深刻的Minecraft模型,根据提示「韩国友谊之钟」生成。

并且,社区成员对MC-Bench的评价也很高。

比如目前就职于OpenAI的基础研究员Aidan McLaughlin,对Minecraft Bench给予了很高的评价:你应该密切关注MC-Bench!

Aid an McLaughlin同时给出了他认为最佳的人工智能基准应具有:

  • 审计数据的乐趣 (与其他所有基准测试都不同)

  • 测试真正关心的功能 (代码、美学、意识)

  • 甚至可以辨别顶级型号之间的性能差异

游戏测评AI似乎依然是「主流创意」

在Claude 3.7 Sonnet发布时说过,模型降低了在数学、竞赛和编程方面的特化程度,有「更好」的思考能力。

那么如何评测新模型的「思考」能力呢?

答案就是游戏《宝可梦》,这不是开玩笑。

Claude通过配备了透过程序来操控游戏的特定「按钮」。

甚至还在Twitch上直播了Claude玩游戏的全过程,可以看到它如何学习、思考并采取行动。

不论是传统的基准测试,还是类似MC-Bench的创意测试。

对于生成式AI的能力评测,目前依然没有一个「一劳永逸」的标准。

传统基准测试的评估结果多采用单一的客观分数(如准确率),忽视了人类实际感受和主观评价的维度。

在生成式AI中,美学感知、创造力、直观性往往更加重要,但这些因素很难在传统的标准化测试中体现出来。

也许类似MC-Bench这样的创意评测会给未来的AI评测带来新的「范式」。

而新的AI评测「范式」也许会加速推动AI的发展。

参考资料:

https://mcbench.ai/

https://techcrunch.com/2025/03/20/a-high-schooler-built-a-website-that-lets-you-challenge-ai-models-to-a-minecraft-build-off/

https://finance.yahoo.com/news/high-schooler-built-website-lets-201110310.html

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
虎跳峡遗体距水面仅40厘米,家属含泪放弃打捞!水下虹吸太可怕

虎跳峡遗体距水面仅40厘米,家属含泪放弃打捞!水下虹吸太可怕

匹夫来搞笑
2026-04-01 01:32:50
五星级酒店带人不登记可以吗?网友:又是上网涨见识的一天!

五星级酒店带人不登记可以吗?网友:又是上网涨见识的一天!

深度报
2026-02-22 22:52:56
好心塞!自己推掉的角色被接替的人演红了,这10位演员肠子都悔青

好心塞!自己推掉的角色被接替的人演红了,这10位演员肠子都悔青

上官晚安
2026-03-30 19:11:16
天空:曼联计划在今夏阵容重建中套现超1亿英镑,预计8人离队

天空:曼联计划在今夏阵容重建中套现超1亿英镑,预计8人离队

懂球帝
2026-04-01 00:35:07
为什么感觉美国在走向衰落?那是因为你是中国人

为什么感觉美国在走向衰落?那是因为你是中国人

扶苏聊历史
2025-12-19 10:02:54
邵佳一:队员打出了自己的极限;战术被提前曝光的事情以后不会再发生

邵佳一:队员打出了自己的极限;战术被提前曝光的事情以后不会再发生

懂球帝
2026-03-31 16:48:25
韩媒:中国队也被非洲球队“教育”了,被喀麦隆的节奏彻底压制

韩媒:中国队也被非洲球队“教育”了,被喀麦隆的节奏彻底压制

懂球帝
2026-03-31 16:48:25
张雪峰二婚妻子付幸:几个月婚姻分走数亿,11岁女儿遗产继承复杂

张雪峰二婚妻子付幸:几个月婚姻分走数亿,11岁女儿遗产继承复杂

眼光很亮
2026-03-27 16:04:09
法国对特朗普指责“不配合”表“惊讶”

法国对特朗普指责“不配合”表“惊讶”

澎湃新闻
2026-04-01 02:25:03
比亚迪,减员10万人

比亚迪,减员10万人

大佬灼见
2026-03-31 11:28:05
人民日报评张雪机车夺冠

人民日报评张雪机车夺冠

澎湃新闻
2026-03-31 11:05:13
广州长隆野生动物园的狮子在暴雨中营业?园方工作人员:打开了笼道给它避雨,淋雨是它的自发行为

广州长隆野生动物园的狮子在暴雨中营业?园方工作人员:打开了笼道给它避雨,淋雨是它的自发行为

极目新闻
2026-03-31 11:48:35
白捡了一个大宝贝!国王弃将如今在骑士的表现真是渐入佳境?

白捡了一个大宝贝!国王弃将如今在骑士的表现真是渐入佳境?

稻谷与小麦
2026-04-01 00:28:55
消息人士:意大利国防部拒绝美军机使用其空军基地,因美方没有事先沟通或取得授权,不符合意美两国军事条约的规定范围

消息人士:意大利国防部拒绝美军机使用其空军基地,因美方没有事先沟通或取得授权,不符合意美两国军事条约的规定范围

潇湘晨报
2026-03-31 17:59:18
央视怒批!“绝望的文盲”丢脸到国外,冯远征的话终于有人信了

央视怒批!“绝望的文盲”丢脸到国外,冯远征的话终于有人信了

人间无味啊
2026-03-13 03:17:17
美CEO炫耀掏1千万给员工发“加班委屈费”!笑称不想被枪杀,网友:人均才40抠死了!

美CEO炫耀掏1千万给员工发“加班委屈费”!笑称不想被枪杀,网友:人均才40抠死了!

英国报姐
2026-03-30 21:31:02
去世仅过去10个月,52岁辛柏青高调传出喜讯 朱媛媛终于可以放心

去世仅过去10个月,52岁辛柏青高调传出喜讯 朱媛媛终于可以放心

小兰聊历史
2026-03-31 15:33:40
小孩子能口无遮拦到什么程度!网友:恨不得当场找个地缝钻进去

小孩子能口无遮拦到什么程度!网友:恨不得当场找个地缝钻进去

夜深爱杂谈
2026-03-28 19:52:52
这俩人虽说是不违反法律吧,但是纯膈应人啊

这俩人虽说是不违反法律吧,但是纯膈应人啊

岁月有情1314
2026-03-30 14:37:46
全红婵离队真相曝光:并非逃避,而是19岁少女的清醒自救!

全红婵离队真相曝光:并非逃避,而是19岁少女的清醒自救!

一只会笑的云
2026-03-31 18:33:21
2026-04-01 02:52:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14861文章数 66731关注度
往期回顾 全部

科技要闻

华为2025年销售收入8809亿,净利润680亿元

头条要闻

伊朗总统:愿意结束战争 前提是诉求得到满足

头条要闻

伊朗总统:愿意结束战争 前提是诉求得到满足

体育要闻

县城修车工,用20年成为世界冠军

娱乐要闻

《月鳞绮纪》空降 鞠婧祎却被举报偷税

财经要闻

油价暴涨 我们的生活成本会飙升多少?

汽车要闻

腾势Z9GT到底GT在哪?

态度原创

亲子
艺术
教育
健康
军事航空

亲子要闻

春天养好肝,和我一起种地来呗

艺术要闻

震撼!他笔下的美女,色彩美得让人无法自拔!

教育要闻

微专题:高考地理中的地理实验

干细胞抗衰4大误区,90%的人都中招

军事要闻

特朗普:即使霍尔木兹海峡仍关闭 也愿意结束战争

无障碍浏览 进入关怀版