网易首页 > 网易号 > 正文 申请入驻

火了!高中生用Minecraft做AI基准,用户看图投票决定大模型排名

0
分享至

机器之心报道

编辑:蛋酱

偶然发现了一个很有趣的 AI 基准测试,点开链接,竟然是一个 MineCraft 作品投票页面?

如图所示,这些作品都是 AI 完成的,灰色框中的文字对应的是提示词。黑框是可点击的选项 ——A、B 或者持平。

网站地址:https://mcbench.ai/

来都来了,先投个票吧。投票之前,作品都是「匿名」的。只有在投票后,我们才能看到每个 Minecraft 作品是由哪个模型完成的。

在这个基准里,主要看三个维度:指令遵循、代码完成度和创造力。

AI 技术飞速演进的时代,传统的人工智能基准测试显然不够用了。总有人能想出一些新颖的测试方法,比如的沙盒建造游戏 Minecraft。

这就是我们刚刚看到的 Minecraft Benchmark(MC-Bench)。作为用户,我们能够参与的部分就是:投票。累计票数中的 ELO 分数决定了每个模型的排名。

有趣的是,无论采用哪种指标,排行榜的收敛程度都很高:Claude 3.7 & 3.5 和 GPT-4.5 都是断层领先。

从技术上讲,MC-Bench 是一个编程基准,因为模型需要编写代码来创建所提示的构建,如「冰霜雪人」(Frosty the Snowman)或「原始沙滩上迷人的热带海滨小屋」(a charming tropical beach hut on a pristine sandy shore)。

Prompt:"build a detailed steampunk-style airship flying among the clouds"(一艘在云层中飞行的详细蒸汽朋克风格飞艇)

创办 MC-Bench 的 Adi Singh 是个高中生,在他看来,用 Minecraft 做测试基准的价值并不在于游戏本身,而在于「人们对它的熟悉程度」,毕竟它是有史以来最畅销的视频游戏。

对于大多数 MC-Bench 用户来说,评价雪人是否更好看要比研究代码更容易,这使得该项目具有更广泛的吸引力,从而有可能收集更多数据,以了解哪些模型的得分始终更高。

退一万步说,即使是没有玩过这款游戏的人,也可以评估出哪个菠萝的块状表现形式更好,请参考下面这个例子:

「目前,我们只是在进行简单的构建,以思考我们自 GPT-3 时代以来已经走了多远,但(我们)可以看到自己正在扩展到这些较长形式的计划和目标导向型任务。游戏可能只是一种测试智能体推理的媒介,它比现实生活中更安全,测试目的也更可控,因此在我看来更理想。」

研究人员经常在标准化评估中对人工智能模型进行测试,其中很多测试都会给人工智能带来主场优势。由于人工智能模型的训练方式,它们天生就擅长解决某些具体的问题,尤其是需要死记硬背或基础推理的问题。

简单地说,OpenAI 的 GPT-4 可以在 LSAT 考试中取得第 88 百分位数的成绩,但却无法辨别「Strawberry」一词中有多少个 「R」。Anthropic 的 Claude 3.7 Sonnet 在一项标准化软件工程基准测试中取得了 62.3% 的准确率,但在玩《口袋妖怪》时却比大多数的五岁孩子还差。

所以一些开放式的游戏反而能「另辟蹊径」,提供检验 AI 性能的新颖视角。在此之前,已经有很多知名游戏被加入 AI 基准测试的名单,比如《口袋妖怪》(Pokémon Red)、《街头霸王》(Street Fighter)和《猜字游戏》(Pictionary)。

《先别骂队友,上交如何让 DeepSeek R1 在分手厨房再也不糊锅?》

《Claude 玩宝可梦,卡关就「装死」重启,大模型:逃避可耻但有用》

MC-Bench 的作者表示,他其实希望能够让用户自由提示、自由投票,但这个玩法「又慢又贵」,目前阶段还不现实。

社区给 MC-Bench 的评价还是很高的,特别指出了它在「3D 空间理解和创造力」评估层面的价值。

MC-Bench 的网站目前列出了八位「特别鸣谢」的贡献者:Anthropic、谷歌、OpenAI 和阿里为该项目使用其产品运行基准提示提供了补贴,但这些公司在其他方面并无关联。

MC-Bench 团队还表示,面向研究人员,他们愿意开放后端查看权限,最终他们还将完全开放数据以供下载。

https://techcrunch.com/2025/03/20/a-high-schooler-built-a-website-that-lets-you-challenge-ai-models-to-a-minecraft-build-off/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中日战争还没打响,中国可能就先“输”了。

中日战争还没打响,中国可能就先“输”了。

别人都叫我阿腈
2026-03-26 08:03:09
马斯克花440亿买Twitter,2年后估值只剩94亿

马斯克花440亿买Twitter,2年后估值只剩94亿

报错免疫体
2026-03-26 00:32:36
越南5年免签新政策4.1开始实施

越南5年免签新政策4.1开始实施

创作者_cLg1
2026-03-26 09:42:32
炸了!樊振东获德甲天价年薪,1个决定改写世界乒乓格局

炸了!樊振东获德甲天价年薪,1个决定改写世界乒乓格局

乒乓助手
2026-03-24 00:05:50
三甲医院“接管”细胞治疗,80%企业即将退潮

三甲医院“接管”细胞治疗,80%企业即将退潮

深蓝观
2026-03-25 11:21:02
43分6板7助!东契奇一战刷爆多项NBA纪录,追平哈登,致敬乔丹

43分6板7助!东契奇一战刷爆多项NBA纪录,追平哈登,致敬乔丹

世界体育圈
2026-03-26 11:49:39
特朗普支持率公布

特朗普支持率公布

第一财经资讯
2026-03-25 08:31:57
A股:周四中午传来4大消息!A股或开启更大级别调整行情?

A股:周四中午传来4大消息!A股或开启更大级别调整行情?

股市皆大事
2026-03-26 12:24:53
韩媒臆想:中国队欢呼吧,国际足联同意他们替补世界杯

韩媒臆想:中国队欢呼吧,国际足联同意他们替补世界杯

体坛风之子
2026-03-26 07:00:06
Altman发感谢信,16000名被裁程序员集体破防

Altman发感谢信,16000名被裁程序员集体破防

Ping值焦虑
2026-03-25 17:02:40
解禁复出,乔治22中11取28分6板4助4断1帽&下半场23分

解禁复出,乔治22中11取28分6板4助4断1帽&下半场23分

懂球帝
2026-03-26 10:15:03
杜富国的待遇有多高?再多优待,都配不上他的牺牲

杜富国的待遇有多高?再多优待,都配不上他的牺牲

安安说
2026-03-25 11:29:29
5种“夺命花”不要养,家里要有赶快扔,谁不听劝谁吃亏

5种“夺命花”不要养,家里要有赶快扔,谁不听劝谁吃亏

三农老历
2026-03-26 09:42:30
离谱!火箭创NBA历史耻辱!这加时太让人破防了!!

离谱!火箭创NBA历史耻辱!这加时太让人破防了!!

柚子说球
2026-03-26 13:06:33
张雪峰早就防着这一天了:为女儿注册40枚商标,防亲戚父爱太沉重

张雪峰早就防着这一天了:为女儿注册40枚商标,防亲戚父爱太沉重

墨染时光
2026-03-26 07:50:31
明日二月初八是“凶日”,牢记3个忌讳:1不拜、2不问、3不吃

明日二月初八是“凶日”,牢记3个忌讳:1不拜、2不问、3不吃

阿龙美食记
2026-03-25 06:17:12
王皓一家近照,43岁成金牌教练,不缺钱,老婆很漂亮,儿子也打球

王皓一家近照,43岁成金牌教练,不缺钱,老婆很漂亮,儿子也打球

大西体育
2026-03-26 14:24:29
《雍正王朝》演员现状:有人住千万豪宅,有人晚节不保,有人离世

《雍正王朝》演员现状:有人住千万豪宅,有人晚节不保,有人离世

小徐讲八卦
2026-03-24 17:10:05
前球探:切尔西担忧加纳乔的表现,他在曼联的问题又出现了

前球探:切尔西担忧加纳乔的表现,他在曼联的问题又出现了

懂球帝
2026-03-26 12:27:11
人为造神:被推上神坛的郑成功

人为造神:被推上神坛的郑成功

浪子说
2026-03-24 07:13:53
2026-03-26 15:03:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12604文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

亲子
艺术
本地
时尚
公开课

亲子要闻

躺平的孩子意外觉醒了,在父母学会当“乌龟”!

艺术要闻

哪一座桥不是风景?

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

2026年了,最好看的还是“这件针织”!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版