网易首页 > 网易号 > 正文 申请入驻

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

0
分享至

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

让大模型直接操纵格斗游戏《街霸》里的角色,捉对PK,谁更能打?

GitHub上一种你没有见过的船新Benchmark火了。



与llmsys大模型竞技场中,两个大模型分别输出答案,再由人类评分不同——街霸Bench引入了两个AI之间的交互,且由游戏引擎中确定的规则评判胜负。

这种新玩法吸引了不少网友来围观。



由于项目是在Mistral举办的黑客马拉松活动上开发,所以开发者只使用OpenAI和Mistral系列模型进行了测试。

排名结果也很出人意料。

经过342场对战后,根据棋类、电竞常用的ELO算法得出的排行榜如下:

最新版gpt-3.5-turbo成绩断崖式领先,Mistral小杯排第二。更小的模型超过了更大的如GPT-4和Mistral中杯大杯。



开发者认为,这种新型基准测试评估的是大模型理解环境并根据特定情况采取行动的能力。

与传统的强化学习也有所不同,强化学习模型相当于根据奖励函数“盲目地”采取不同行动,但大模型完全了解自身处境并有目的的采取行动。

考验AI的动态决策力

AI想在格斗游戏里称王,需要哪些硬实力呢?开发者给出几个标准:

  • 反应要快:格斗游戏讲究实时操作,犹豫就是败北
  • 脑子要灵:高手应该预判对手几十步,未雨绸缪
  • 思路要野:常规套路人人会,出奇制胜才是制胜法宝
  • 适者生存:从失败中吸取教训并调整策略
  • 久经考验:一局定胜负不说明问题,真正的高手能保持稳定的胜率



具体玩法如下:

每个大模型控制一个游戏角色,程序向大模型发送屏幕画面的文本描述,大模型根据双方血量、怒气值、位置、上一个动作、对手的上一个动作等信息做出最优决策。



第一个挑战是定位人物在场景中的位置,通过检测像素颜色来判断。



由于目前大模型数学能力还都不太行,直接发送坐标值效果不好,最终选择了将位置信息改写成自然语言描述

所以对于AI来说,实际上他们在玩的是一种奇怪的文字冒险游戏。



把大模型生成的动作招式映射成按键组合,就能发送给游戏模拟器执行了。



在试验中发现,大模型可以学会复杂的行为,比如仅在对手靠近时才攻击可能的情况下使用特殊招式,以及通过跳跃来拉开距离



从结果上可以看出,与其他测试方法不同,在这个规则下似乎更大的模型表现越差

开发者对此解释到:

目标是评估大模型的实时决策能力,规则上允许AI提前生成3-5个动作,更大的模型能提前生成更多的动作,但也需要更长的时间。

在推理上的延迟差距是有意保留的,但后续或许会加入其他选项。



后续也有用户提交了流行开源模型的对战结果,在7B及以下量级的战斗中,还是7B模型排名更靠前。



从这个角度看,这种新型基准测试为评估大模型的实用性提供了新思路。

现实世界的应用往往比聊天机器人复杂得多,需要模型具备快速理解、动态规划的本领。



正如开发者所说,想要赢,要在速度和精度之间做好权衡

GitHub项目:
https://github.com/OpenGenerativeAI/llm-colosseum

参考链接:
[1]https://x.com/nicolasoulianov/status/1772291483325878709
[2]https://x.com/justinlin610/status/1774117947235324087

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
夜查逻辑浮出水面:扣完私人电动车,共享车就试点了,好一步大棋

夜查逻辑浮出水面:扣完私人电动车,共享车就试点了,好一步大棋

大风文字
2024-06-01 18:47:19
一夜之间信号全无!拜登彻底傻眼,外媒:难怪美国害怕了

一夜之间信号全无!拜登彻底傻眼,外媒:难怪美国害怕了

星辰故事屋
2024-06-01 19:29:03
深度调查:司马南指认的“1450”文件是真的吗?

深度调查:司马南指认的“1450”文件是真的吗?

Jim博士
2024-06-01 20:41:50
真的顶级!极品大长腿,完美腰臀!

真的顶级!极品大长腿,完美腰臀!

记录平远
2024-05-07 00:00:37
笑不活了,36岁的刘秀云教授出任985高校院长,评论区炸锅了

笑不活了,36岁的刘秀云教授出任985高校院长,评论区炸锅了

钱多多多多
2024-05-31 21:08:04
突然倒下!知名机构宣布:资金链断裂,永久闭店

突然倒下!知名机构宣布:资金链断裂,永久闭店

中国经营报
2024-06-01 20:14:05
擦边上瘾,卖车直播间变味了

擦边上瘾,卖车直播间变味了

财经三分钟pro
2024-06-01 15:55:04
宣布涨价!一线楼市,带节奏了!

宣布涨价!一线楼市,带节奏了!

城市财经
2024-06-01 11:38:37
6月1日俄乌:多米诺骨牌倒下,武器限制解除,泽连斯基再获支持

6月1日俄乌:多米诺骨牌倒下,武器限制解除,泽连斯基再获支持

山河路口
2024-06-01 14:18:42
鲍炳章,违规出入具有私人会所性质的场所,搞权色交易、钱色交易

鲍炳章,违规出入具有私人会所性质的场所,搞权色交易、钱色交易

新京报
2024-06-01 18:51:42
3-0!中国女排增加4.02分,领先日本,世联赛排名:升至第五

3-0!中国女排增加4.02分,领先日本,世联赛排名:升至第五

天涯沦落人
2024-06-01 21:18:49
最贵“四叶草”又涨价了,今年首调!“一觉起来,手链大涨4100元” 有人前一天排队9小时抢购

最贵“四叶草”又涨价了,今年首调!“一觉起来,手链大涨4100元” 有人前一天排队9小时抢购

每日经济新闻
2024-05-31 22:13:19
被质疑离开詹姆斯一事无成?欧文曾让美媒置顶推文 准备好打脸

被质疑离开詹姆斯一事无成?欧文曾让美媒置顶推文 准备好打脸

直播吧
2024-06-01 14:37:12
严查!人民日报正式发声后,张继科被带走调查,已牵扯出12位明星

严查!人民日报正式发声后,张继科被带走调查,已牵扯出12位明星

红夏天呀
2024-06-01 23:20:39
确认了!维金斯突然决定加盟!又一支超级球队诞生……

确认了!维金斯突然决定加盟!又一支超级球队诞生……

篮球实战宝典
2024-06-01 17:18:16
6月1日俄乌最新:海马斯首次攻击俄罗斯本土

6月1日俄乌最新:海马斯首次攻击俄罗斯本土

西楼饮月
2024-06-01 16:49:21
法媒:中国的态度非常强硬,中国对美国的批评非常严厉

法媒:中国的态度非常强硬,中国对美国的批评非常严厉

杂谈天下式
2024-06-02 00:10:52
海马斯首次大规模打击俄本土,西方用俄听懂的语言回应核威胁

海马斯首次大规模打击俄本土,西方用俄听懂的语言回应核威胁

移光幻影
2024-06-01 18:03:38
张颂文宋佳大尺度摸胸的片段为何被删掉?在港台播出了

张颂文宋佳大尺度摸胸的片段为何被删掉?在港台播出了

娱乐的小灶
2024-06-01 13:05:31
“清华大学学报”发文:教授低龄化是国家学术依附性之表现

“清华大学学报”发文:教授低龄化是国家学术依附性之表现

必记本
2024-06-01 15:27:06
2024-06-02 07:06:44
量子位
量子位
追踪人工智能动态
9474文章数 175300关注度
往期回顾 全部

科技要闻

余承东:不卷价格!雷军:将双班制生产!

头条要闻

小伙投资300万在瑞典开拉面馆生意火爆 1碗面卖100元

头条要闻

小伙投资300万在瑞典开拉面馆生意火爆 1碗面卖100元

体育要闻

女排最强2主攻合体 合砍40分打懵泰国

娱乐要闻

白玉兰提名:胡歌、范伟争视帝

财经要闻

实锤!普华永道,危!

汽车要闻

吉利银河E5 Flyme Auto智能座舱首发

态度原创

家居
艺术
健康
旅游
教育

家居要闻

风雅自来 中式的和谐平衡

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

晚餐不吃or吃七分饱,哪种更减肥?

旅游要闻

台北故宫博物院新展:文书珍品里的端阳时节

教育要闻

父母吵架时,孩子在想什么?

无障碍浏览 进入关怀版