网易首页 > 网易号 > 正文 申请入驻

高中生用「我的世界」评测SOTA模型!Claude暂时领先,DeepSeek紧随其后

0
分享至

新智元报道

编辑:定慧

【新智元导读】AI频频刷新基准测试纪录,却算不清「strawberry」里到底有几个字母r,在人类看来很简单的问题却频频出错。这种反差促使创意测评兴起,例如由一名高中生开发的MC-Bench,用Minecraft方块「竞技场」模式评价AI能力。这种新的测评范式,或许更贴合人类对AI直观、创造性能力的实际期待。

「strawberry中有多少个r」和「在LSAT法学考试中获得88分」哪个更难?

对于现如今的LMMs来说,通过各种人类「听着就头痛,看又看不懂」的基准测试似乎已是家常便饭。

比如DeepSeek-R1发布时在6大基准测试(包含AIME、MMLU、MATH-500等)中超过o1取得领先。

但是对于人类来说依靠直觉和下意识就能回答的问题,LLM们似乎集体有点「发懵」。

很难理解OpenAI的GPT-4能够在LSAT考试中获得第88百分位的成绩,但却无法数清楚「strawberry」中有多少r。

除了复杂的基准测试,另外一种评价模型好坏的方式就是「竞技场模式」。

比如可以在Chatbot Arena进行上提问投票,选出面对相同问题时的「最佳模型」。

但是这种依靠Chat模式的评测依然不太直观,于是各种各样的创意评测就诞生了。

创意评测的魅力

Minecraft Benchmark(或 MC-Bench)像一个竞技场,在一对一的挑战中针对相同提示生成Minecraft作品。

「对决双方」由用户投票选择哪个模型做得更好。

并且只有在投票后才能看到每个Minecraft建筑是由哪个AI制作的。

目前MC-Bench的榜单上,Claude3.7暂时领先,deepseek-r1位列第5,但是考虑到DeepSeek-R1的发布时间,Claude3.7、GPT-4.5和Gemini2.0都相当于是「新一代」的模型了,期待DeepSeek-R2出来后的榜单!

像MC-Bench这样的创意评测,优势非常明显:普通人也能轻松参与,像「选美」一样简单直接。

创造MC-Bench项目的仅仅是一名高中生Adi Singh,在将Minecraft用于AI评测这件事情上,Adi Singh觉得Minecraft的价值不在游戏本身。

而是作为有史以来最畅销的电子游戏,即使对于没玩过Minecraft游戏的人来说,仍然可以选择自己更喜欢的「方块样子」。

MC-Bench是合作开发的,除了Adi Singh外,贡献者还有7位,包括了「提示词创意官」、技术主管和开发者们。

并获得了Anthropic、Google和阿里巴巴等公司的技术支持。

传统LLM评测:严肃认真但未必管用

传统的AI基准测试技术被证明不足,主要体现在以下几个方面:

  • 主场优势 (Overfitting to benchmarks):传统的 AI 基准测试往往基于特定类型的任务设计,这些任务对 AI 模型来说相对固定且简单,这种过拟合就像一名「只会背题」的学生。

  • 测试任务过于狭窄:传统的测试任务多集中于单一维度的能力评估,如语言理解、逻辑推理、数学计算。

  • 缺乏真实环境与开放性:传统的基准测试通常使用高度抽象化或理论化的环境,而这些环境往往不能反映现实世界中问题的开放性和不确定性。

  • 难以衡量通用性与泛化能力:传统 AI 基准测试往往无法有效衡量模型的通用性或泛化能力。

因此AI构建者正在转向更有创意的方法来评估Gen-AI模型的能力。

AI开发者们表示,我们也想玩点「新鲜的」。

MC-Bench的本质是在测试AI模型的文本理解和编码能力。

通过类似Chatbot Arena的方式来进行模型评比。

对于为何选择游戏,选择Minecraft,Adi Singh觉得「游戏可能只是一种测试能动性推理的媒介,比现实生活更安全,也更适合测试目的,因此在我看来更为理想」。

从Adi Singh个人网站来看,他对于使用Minecraft方块进行AI评测应该是「蓄谋已久」,Adi Singh展示很多利用大模型生成Minecraft方块的精彩案例。

比如,gpt-4.5根据提示「构建一艘在云层中飞行的蒸汽朋克风格飞艇」。

再比如,claude-3.7-sonnet有一个令人印象非常深刻的Minecraft模型,根据提示「韩国友谊之钟」生成。

并且,社区成员对MC-Bench的评价也很高。

比如目前就职于OpenAI的基础研究员Aidan McLaughlin,对Minecraft Bench给予了很高的评价:你应该密切关注MC-Bench!

Aid an McLaughlin同时给出了他认为最佳的人工智能基准应具有:

  • 审计数据的乐趣 (与其他所有基准测试都不同)

  • 测试真正关心的功能 (代码、美学、意识)

  • 甚至可以辨别顶级型号之间的性能差异

游戏测评AI似乎依然是「主流创意」

在Claude 3.7 Sonnet发布时说过,模型降低了在数学、竞赛和编程方面的特化程度,有「更好」的思考能力。

那么如何评测新模型的「思考」能力呢?

答案就是游戏《宝可梦》,这不是开玩笑。

Claude通过配备了透过程序来操控游戏的特定「按钮」。

甚至还在Twitch上直播了Claude玩游戏的全过程,可以看到它如何学习、思考并采取行动。

不论是传统的基准测试,还是类似MC-Bench的创意测试。

对于生成式AI的能力评测,目前依然没有一个「一劳永逸」的标准。

传统基准测试的评估结果多采用单一的客观分数(如准确率),忽视了人类实际感受和主观评价的维度。

在生成式AI中,美学感知、创造力、直观性往往更加重要,但这些因素很难在传统的标准化测试中体现出来。

也许类似MC-Bench这样的创意评测会给未来的AI评测带来新的「范式」。

而新的AI评测「范式」也许会加速推动AI的发展。

参考资料:

https://mcbench.ai/

https://techcrunch.com/2025/03/20/a-high-schooler-built-a-website-that-lets-you-challenge-ai-models-to-a-minecraft-build-off/

https://finance.yahoo.com/news/high-schooler-built-website-lets-201110310.html

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
世界杯场场爆满,数万票价不减热度,美国经济真的不行了吗?

世界杯场场爆满,数万票价不减热度,美国经济真的不行了吗?

青松解局
2026-07-02 15:16:40
后来才明白,电动车充满电后不拔,不是充电,是在给电池“加班”

后来才明白,电动车充满电后不拔,不是充电,是在给电池“加班”

沙雕小琳琳
2026-07-02 19:46:52
台湾男星亮出一本老族谱,仅凭古老地名,找到广东失联两百年宗亲

台湾男星亮出一本老族谱,仅凭古老地名,找到广东失联两百年宗亲

无情有思可
2026-07-03 12:34:52
WC!不要1亿,5年8150万,火箭赢麻了

WC!不要1亿,5年8150万,火箭赢麻了

体育新角度
2026-07-03 10:55:44
奴隶主为何要亲自下场繁育黑奴?直到今天美国还在为此买单!

奴隶主为何要亲自下场繁育黑奴?直到今天美国还在为此买单!

莫地方
2026-07-02 00:11:13
印度教授:中国光欺负日本算什么本事?有能耐就冲美日印澳一块来

印度教授:中国光欺负日本算什么本事?有能耐就冲美日印澳一块来

据说说娱乐
2026-07-02 16:07:09
但斌最新演讲:不要错失一个伟大的时代

但斌最新演讲:不要错失一个伟大的时代

格隆汇
2026-07-02 20:28:43
狄波拉凌晨护儿媳,狠话曝光对王菲态度

狄波拉凌晨护儿媳,狠话曝光对王菲态度

孤城落日
2026-07-03 13:20:53
原来医护工作者不吃这些东西,真不是迷信,网友:芒果真不能吃!

原来医护工作者不吃这些东西,真不是迷信,网友:芒果真不能吃!

另子维爱读史
2026-07-01 23:26:24
SK海力士韩股涨幅扩大至10%

SK海力士韩股涨幅扩大至10%

每日经济新闻
2026-07-03 13:00:08
她是大家熟悉的演员,不拍戏在法国洗碗谋生,如今遭遇高温热得慌

她是大家熟悉的演员,不拍戏在法国洗碗谋生,如今遭遇高温热得慌

潋滟晴方DAY
2026-07-01 23:20:19
“双恩”发挥出色!瑞士时隔88年再赢淘汰赛!

“双恩”发挥出色!瑞士时隔88年再赢淘汰赛!

五星体育
2026-07-03 13:46:04
省市合并,又一枪打响了

省市合并,又一枪打响了

国民经略
2026-07-02 11:55:33
不救菲防长了?马科斯对华改口,中方在岛礁清场,南海划设禁航区

不救菲防长了?马科斯对华改口,中方在岛礁清场,南海划设禁航区

你的雷达站
2026-07-01 20:20:54
西安赛格商场回应商户坠亡:原违约金1154.6万元,不存在“违规索要高额10倍违约金”;前员工:他旗下有2000多名员工,对大家都很关心

西安赛格商场回应商户坠亡:原违约金1154.6万元,不存在“违规索要高额10倍违约金”;前员工:他旗下有2000多名员工,对大家都很关心

大象新闻
2026-07-03 08:50:04
国台办:某些人上蹿下跳,对特朗普总统的涉台表态阳奉阴违,在台湾问题上制造杂音,对大陆对台政策污蔑抹黑,用心险恶,我们对此坚决反对

国台办:某些人上蹿下跳,对特朗普总统的涉台表态阳奉阴违,在台湾问题上制造杂音,对大陆对台政策污蔑抹黑,用心险恶,我们对此坚决反对

政知新媒体
2026-07-02 11:30:28
Papi酱把公司全关了,只留七个人

Papi酱把公司全关了,只留七个人

卢松松
2026-06-30 15:54:25
葡萄牙2-1克罗地亚,赛后诞生4个不可思议,还有2个不争的事实

葡萄牙2-1克罗地亚,赛后诞生4个不可思议,还有2个不争的事实

兰亭墨未干
2026-07-03 12:51:27
印度哥哥迎来日本小妹妹,这场外交好戏不简单

印度哥哥迎来日本小妹妹,这场外交好戏不简单

牛弹琴
2026-07-03 07:11:26
她是赖昌星“色贿”的牺牲品,给杨前线做情妇生儿子,现状如何?

她是赖昌星“色贿”的牺牲品,给杨前线做情妇生儿子,现状如何?

小蒋爱唠嗑
2026-05-23 01:17:54
2026-07-03 14:35:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15594文章数 66945关注度
往期回顾 全部

科技要闻

特斯拉交付超预期7.4万辆,股价却大跌7.5%

头条要闻

齐达内儿子被梅西打穿后一度崩溃 淘汰赛又被灌进2球

头条要闻

齐达内儿子被梅西打穿后一度崩溃 淘汰赛又被灌进2球

体育要闻

韩国人,为什么恨透了洪明甫?

娱乐要闻

黄晓明深夜约会美女,分手原因曝光

财经要闻

AI“鬼故事”不断,市场开始重估?

汽车要闻

极氪9X五座版官宣,如图!

态度原创

健康
艺术
家居
教育
时尚

这4类消化病患者 吃粘食管住嘴

艺术要闻

当代画家 张奇人物油画作品选

家居要闻

传奇筑 日常诗

教育要闻

高分扎堆,“分数通胀”是怎么产生的?

盛夏,穿这三组配色呀!

无障碍浏览 进入关怀版