网易首页 > 网易号 > 正文 申请入驻

一名高中生创建AI测试网站,能和模型在《我的世界》进行建造比赛

0
分享至

随着传统的 AI 基准测试被证明存在不足之处,AI 开发者们正在转向更具创意的方法来评估生成式 AI 模型的能力。对于 12 年级的阿迪·辛格(Adi Singh)来说,这个方法是《我的世界》(Minecraft),一款微软旗下的沙盒建造游戏。

Minecraft Benchmark(下称“MC-Bench”)网站是辛格和他人合作开发的,目的是让 AI 模型在挑战中相互竞争,应对提示的方式则是直接用《我的世界》完成创作。用户可以投票选出哪个模型做得更好,只有在投票后才能看到每个《我的世界》作品都是由哪个 AI 完成的。

《我的世界》的价值并不在于游戏本身,而在于人们对它的熟悉程度。毕竟,它是有史以来最畅销的电子游戏之一。

辛格表示,《我的世界》让人们能更轻松地看到 AI 发展的进展。人们熟悉《我的世界》,也习惯了它的画面风格和整体氛围。

MC-Bench 网站上目前列出了几位贡献者。根据 MC-Bench 网站的信息,Anthropic、谷歌、OpenAI 和阿里巴巴已资助该项目使用它们的产品来运行基准测试提示,但这些公司并未以其他方式参与该项目。

辛格表示,目前他只是在进行一些简单的构建,以反思 AI 领域从 GPT-3 时代以来所取得的进步,但他未来可能会考虑扩展到更长期的项目,以及其他以目标为导向的任务。其表示,游戏可能只是一种测试代理推理的媒介,它比现实生活更安全,也更容易控制以用于测试目的。

其他游戏比如《精灵宝可梦红》《街头霸王》和《你画我猜》也被用作 AI 的实验基准,这在一定程度上是因为对 AI 进行基准测试这门“艺术”向来极为棘手。

研究人员经常在标准化评估中对 AI 模型进行测试,但许多此类测试会让 AI 具有天然优势。由于训练方式的原因,这些模型天生擅长解决某些特定领域的难题,尤其是那些需要死记硬背或简单推理的问题。

简而言之,我们看到 OpenAI 的 GPT-4 可以在法学院入学考试中取得 88% 的成绩,但却无法准确说出“strawberry”这个词中有多少个“r”。Anthropic 的 Claude 3.7 Sonnet 在标准化软件工程基准测试中的分数为 62.3%,但它在玩《宝可梦》游戏时的表现却比大多数五岁儿童还要差。

从技术上讲,MC-Bench 是一个编程基准测试,因为模型被要求编写代码(完成构建)来回应提示,例如创造“雪人 Frosty”或“原始沙滩上迷人的热带海滩小屋”。

但对于大多数 MC-Bench 评判者来说,评估一个雪人看起来是否更好,比深入研究代码要容易得多,这使得该项目具有更广泛的吸引力,并因此有可能获得更多关于哪些模型持续得分更高的数据。

当然,这些分数是否对 AI 的实用性有重大影响还有待商榷。不过,辛格坚信这是一个强烈的信号。

其告诉媒体,目前 MC-Bench 的测试结果排行榜非常接近于他自己使用这些模型的经验,这与许多纯文本基准测试是不同的,因此也许 MC Bench 对于相关公司是有用的,可以帮助这些公司了解自己是否正在朝着正确的方向前进。

参考资料:

https://mcbench.ai/

https://x.com/_mcbench

https://github.com/mc-bench

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗巴斯基被投毒:100人中毒倒下

伊朗巴斯基被投毒:100人中毒倒下

桂系007
2026-04-25 17:29:24
2-1击败中超前冠军,广东广州豹豪取3连胜,强势领跑积分榜

2-1击败中超前冠军,广东广州豹豪取3连胜,强势领跑积分榜

凌空倒钩
2026-04-26 17:28:58
南京一通信公司高管组织40多名员工上班时间干私活,研发竞品长达9年,被按法定上限判赔580万元

南京一通信公司高管组织40多名员工上班时间干私活,研发竞品长达9年,被按法定上限判赔580万元

环球网资讯
2026-04-26 16:19:07
0-3一败涂地河南队曝无解难题—锋线攻击力趋零,射正已成奢望!

0-3一败涂地河南队曝无解难题—锋线攻击力趋零,射正已成奢望!

采薇体育
2026-04-26 23:15:04
一56岁男子脑梗去世,很少吃油炸零食,医者叹气:无知毁了他

一56岁男子脑梗去世,很少吃油炸零食,医者叹气:无知毁了他

芹姐说生活
2026-04-26 16:07:29
东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

番外行
2026-03-31 08:28:28
体长80cm重12斤!世界上最大小龙虾,跟小狗一样大!为啥不引入?

体长80cm重12斤!世界上最大小龙虾,跟小狗一样大!为啥不引入?

狸猫之一的动物圈
2026-04-26 10:02:15
黄金价格跌破1000元!看来这茬儿韭菜,是到收割的时候了?

黄金价格跌破1000元!看来这茬儿韭菜,是到收割的时候了?

正经说个事儿
2026-03-23 23:32:34
肺癌开始时,四肢可能会有3个迹象,哪怕有了1个,都应该重视!

肺癌开始时,四肢可能会有3个迹象,哪怕有了1个,都应该重视!

坠入二次元的海洋
2026-04-26 15:35:13
西府战役他从团长降为战士,建国后授开国大校,享受正兵团级待遇

西府战役他从团长降为战士,建国后授开国大校,享受正兵团级待遇

大运河时空
2026-04-25 20:00:03
上海市委书记专门致敬徐根宝!崇明之行,是要说什么?

上海市委书记专门致敬徐根宝!崇明之行,是要说什么?

上观新闻
2026-04-26 11:39:10
张檬淡出荧幕,打破女星固有常态,硬核带娃姿态甩开一众女星

张檬淡出荧幕,打破女星固有常态,硬核带娃姿态甩开一众女星

娱贝勒
2026-04-26 21:38:28
他今年58岁了,你敢信?!

他今年58岁了,你敢信?!

健身迷
2026-04-13 09:34:17
普通家庭存款到这个数,已经是天花板级别,以前不信,现在很肯定

普通家庭存款到这个数,已经是天花板级别,以前不信,现在很肯定

明天后天大后天
2026-04-26 09:52:03
仅播4集就口碑大爆,评分高达9.5,这才是黑马古装剧该有的样子

仅播4集就口碑大爆,评分高达9.5,这才是黑马古装剧该有的样子

糊咖娱乐
2026-04-25 16:58:09
经典网吧糗事冷笑话,有一哥们去网吧上网通宵半夜突然着急上厕所,但厕所里有人这哥们就在门外等着!

经典网吧糗事冷笑话,有一哥们去网吧上网通宵半夜突然着急上厕所,但厕所里有人这哥们就在门外等着!

天天明星
2026-04-25 11:18:15
301035,拟10转3派12元!多只A股,拟分红

301035,拟10转3派12元!多只A股,拟分红

证券时报
2026-04-26 22:32:12
全国只有四个城市,房价真涨了!

全国只有四个城市,房价真涨了!

老杨聊房
2026-04-26 14:36:12
最大的铁饭碗要碎了吗:转岗、超编、过剩......

最大的铁饭碗要碎了吗:转岗、超编、过剩......

灯锦年
2026-04-26 20:25:53
《八千里路云和月》换乘结局:最令人心寒不是张云魁,而是韩小月

《八千里路云和月》换乘结局:最令人心寒不是张云魁,而是韩小月

科学发掘
2026-04-26 09:53:45
2026-04-26 23:51:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16627文章数 514900关注度
往期回顾 全部

科技要闻

涨价浪潮下,DeepSeek推动AI“价格战”

头条要闻

以色列政坛重大变局 内塔尼亚胡迎来劲敌

头条要闻

以色列政坛重大变局 内塔尼亚胡迎来劲敌

体育要闻

森林狼3比1掘金:逆境中杀出了多孙穆?!

娱乐要闻

仅次《指环王》的美剧,有第二季

财经要闻

事关新就业群体,中办、国办发文

汽车要闻

预售19.38万元起 哈弗猛龙PLUS七座版亮相

态度原创

教育
艺术
亲子
数码
本地

教育要闻

2026调研中国,建议参加么!

艺术要闻

总投资35亿!汾酒集团太原的地标大楼,呈现白酒文化!

亲子要闻

爸爸买的餐椅太好了,早知道早买了#餐椅 #宝宝板凳 #宝宝吃饭 #宝妈推荐

数码要闻

一加两款新款氮化镓充电器参数公布,即将发布

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

无障碍浏览 进入关怀版