网易首页 > 网易号 > 正文 申请入驻

一名高中生创建AI测试网站,能和模型在《我的世界》进行建造比赛

0
分享至

随着传统的 AI 基准测试被证明存在不足之处,AI 开发者们正在转向更具创意的方法来评估生成式 AI 模型的能力。对于 12 年级的阿迪·辛格(Adi Singh)来说,这个方法是《我的世界》(Minecraft),一款微软旗下的沙盒建造游戏。

Minecraft Benchmark(下称“MC-Bench”)网站是辛格和他人合作开发的,目的是让 AI 模型在挑战中相互竞争,应对提示的方式则是直接用《我的世界》完成创作。用户可以投票选出哪个模型做得更好,只有在投票后才能看到每个《我的世界》作品都是由哪个 AI 完成的。

《我的世界》的价值并不在于游戏本身,而在于人们对它的熟悉程度。毕竟,它是有史以来最畅销的电子游戏之一。

辛格表示,《我的世界》让人们能更轻松地看到 AI 发展的进展。人们熟悉《我的世界》,也习惯了它的画面风格和整体氛围。

MC-Bench 网站上目前列出了几位贡献者。根据 MC-Bench 网站的信息,Anthropic、谷歌、OpenAI 和阿里巴巴已资助该项目使用它们的产品来运行基准测试提示,但这些公司并未以其他方式参与该项目。

辛格表示,目前他只是在进行一些简单的构建,以反思 AI 领域从 GPT-3 时代以来所取得的进步,但他未来可能会考虑扩展到更长期的项目,以及其他以目标为导向的任务。其表示,游戏可能只是一种测试代理推理的媒介,它比现实生活更安全,也更容易控制以用于测试目的。

其他游戏比如《精灵宝可梦红》《街头霸王》和《你画我猜》也被用作 AI 的实验基准,这在一定程度上是因为对 AI 进行基准测试这门“艺术”向来极为棘手。

研究人员经常在标准化评估中对 AI 模型进行测试,但许多此类测试会让 AI 具有天然优势。由于训练方式的原因,这些模型天生擅长解决某些特定领域的难题,尤其是那些需要死记硬背或简单推理的问题。

简而言之,我们看到 OpenAI 的 GPT-4 可以在法学院入学考试中取得 88% 的成绩,但却无法准确说出“strawberry”这个词中有多少个“r”。Anthropic 的 Claude 3.7 Sonnet 在标准化软件工程基准测试中的分数为 62.3%,但它在玩《宝可梦》游戏时的表现却比大多数五岁儿童还要差。

从技术上讲,MC-Bench 是一个编程基准测试,因为模型被要求编写代码(完成构建)来回应提示,例如创造“雪人 Frosty”或“原始沙滩上迷人的热带海滩小屋”。

但对于大多数 MC-Bench 评判者来说,评估一个雪人看起来是否更好,比深入研究代码要容易得多,这使得该项目具有更广泛的吸引力,并因此有可能获得更多关于哪些模型持续得分更高的数据。

当然,这些分数是否对 AI 的实用性有重大影响还有待商榷。不过,辛格坚信这是一个强烈的信号。

其告诉媒体,目前 MC-Bench 的测试结果排行榜非常接近于他自己使用这些模型的经验,这与许多纯文本基准测试是不同的,因此也许 MC Bench 对于相关公司是有用的,可以帮助这些公司了解自己是否正在朝着正确的方向前进。

参考资料:

https://mcbench.ai/

https://x.com/_mcbench

https://github.com/mc-bench

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
奥运40金,世界杯0,扶不起的海参

奥运40金,世界杯0,扶不起的海参

布衣乱弹
2026-07-04 18:14:48
德约拒绝法网悲剧追平费德勒纪录,张帅51分钟下班双打会师王欣瑜

德约拒绝法网悲剧追平费德勒纪录,张帅51分钟下班双打会师王欣瑜

网球之家
2026-07-04 10:11:08
日媒主动曝出内幕:日本员工在华偷运稀土,全程靠中国人员打配合

日媒主动曝出内幕:日本员工在华偷运稀土,全程靠中国人员打配合

童童聊娱乐啊
2026-07-04 15:35:39
院士候选人张灼华落马,执掌南华大学9年多,最难受的是中南大学

院士候选人张灼华落马,执掌南华大学9年多,最难受的是中南大学

百家论大学
2026-07-03 21:01:09
帅化民坦言:张学良被终身软禁一点不冤,西安打光了老蒋的御林军

帅化民坦言:张学良被终身软禁一点不冤,西安打光了老蒋的御林军

磊子讲史
2026-06-26 14:55:01
神舟二十三号香港女航天员:失重环境隐患重重,如何保障隐私?

神舟二十三号香港女航天员:失重环境隐患重重,如何保障隐私?

古史青云啊
2026-07-04 09:34:58
温网|105胜与费德勒并列历史第一!艰难闯入十六强的德约半决赛或迎战辛纳

温网|105胜与费德勒并列历史第一!艰难闯入十六强的德约半决赛或迎战辛纳

文汇报
2026-07-04 04:20:11
中纪委怒批:公务员也是人,正常生活不应问责处理!

中纪委怒批:公务员也是人,正常生活不应问责处理!

细说职场
2026-06-24 10:55:30
证监会就完善上市公司再融资规则公开征求意见:减少一次性大额融资对市场扰动,优化小额快速再融资制度

证监会就完善上市公司再融资规则公开征求意见:减少一次性大额融资对市场扰动,优化小额快速再融资制度

每日经济新闻
2026-07-04 17:31:51
2026韩影谍战天花板!赵寅成雪地死战,看完我鸡皮疙瘩掉一地

2026韩影谍战天花板!赵寅成雪地死战,看完我鸡皮疙瘩掉一地

一窥究竟
2026-06-29 09:40:57
1987年,马季宴请冯巩等几位徒弟,这一桌菜,可不便宜

1987年,马季宴请冯巩等几位徒弟,这一桌菜,可不便宜

喜文多见01
2026-05-12 10:54:13
惨败日本和韩国,篮球专家大声疾呼:建议郭士强指导原地辞职

惨败日本和韩国,篮球专家大声疾呼:建议郭士强指导原地辞职

南海浪花
2026-07-04 16:49:53
觉得颜色亮,男子订了辆熔岩橙小米YU7 MAX,苦等10个月后傻眼:已查无此色!门店提出退车退定金,男子:不接受

觉得颜色亮,男子订了辆熔岩橙小米YU7 MAX,苦等10个月后傻眼:已查无此色!门店提出退车退定金,男子:不接受

都市快报橙柿互动
2026-07-03 10:55:34
北京爷们第五次发声!咱们北京人给韩红的面子

北京爷们第五次发声!咱们北京人给韩红的面子

小怪吃美食
2026-07-04 15:21:22
被传因得罪刘德华被泼粪,被迫离开香港,现在却成了北大硕士?

被传因得罪刘德华被泼粪,被迫离开香港,现在却成了北大硕士?

萧狡科普解说
2026-07-04 05:25:30
071生产线封存8年重启!5艘075成型,两栖舰扩张超预期

071生产线封存8年重启!5艘075成型,两栖舰扩张超预期

林子说事
2026-07-04 15:53:12
青岛崂山被曝布设泰山同款“刀片网”,景区:设于高山非开放区域,普通游客难抵达

青岛崂山被曝布设泰山同款“刀片网”,景区:设于高山非开放区域,普通游客难抵达

江西晨报
2026-07-03 16:31:39
叶海亚·萨雷亚:沙特战机企图阻止一架伊朗客机降落,也门胡塞武装发射数枚防空导弹进行拦截

叶海亚·萨雷亚:沙特战机企图阻止一架伊朗客机降落,也门胡塞武装发射数枚防空导弹进行拦截

鲁中晨报
2026-07-04 16:22:26
西安赛格事件曝出猛料!罚单实锤10倍处罚条款,公告难以自圆其说

西安赛格事件曝出猛料!罚单实锤10倍处罚条款,公告难以自圆其说

火山詩话
2026-07-03 08:01:45
上海色贪行长顾国明潜规则女下属敛财1.36亿判无期

上海色贪行长顾国明潜规则女下属敛财1.36亿判无期

观察者海风
2026-07-03 18:32:58
2026-07-04 19:23:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16924文章数 515077关注度
往期回顾 全部

科技要闻

韬定律论文V2版,充工程细节和实测数据

头条要闻

普京首次承认俄缺油 消息人士:拟从日本进口航空燃油

头条要闻

普京首次承认俄缺油 消息人士:拟从日本进口航空燃油

体育要闻

揭法国锋线最大优势 有人比姆巴佩还快?

娱乐要闻

白鹿打戏抠图惹非议 连累丞磊遭扒皮

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

艺术
手机
游戏
数码
房产

艺术要闻

风格独特,美国具象画家Alan Feltus

手机要闻

iPhone 18 Pro/Pro Max国行电池揭晓:5391mAh史上最大

PS论坛开始删帖控制舆论!玩家暴怒要报复索尼

数码要闻

三星首款骨传导耳机Galaxy Able曝光

房产要闻

总裁空缺17个月、现金缺口超1000亿:金融局“局外人”入局万科

无障碍浏览 进入关怀版