网易首页 > 网易号 > 正文 申请入驻

开源8300小时标注数据,新一代实时通用游戏AI Pixel2Play发布

0
分享至



随着人工智能在代码以及图片生成方面日益成熟,越来越多的研究人员也开始关注 AI 模型在游戏领域中的表现。实际上,游戏在 AI 的发展早期就已经是一个重要的研究方向,许多前期研究聚焦在 Atari,星际争霸,Dota 等热门游戏,并成功训练出了表现超越人类玩家的专用模型。然而,这类模型通常只能在单一游戏环境中运行,缺乏跨游戏的泛化能力。

另一方面,虽然 ChatGPT 和 Gemini 这类模型通用模型在众多任务上已经展现出了卓越的能力,它们却难以在游戏环境中取得好的表现,即便是很简单的射击游戏。

为了解决这一问题,来自 Player2 的研究员们提出了Pixel2Play(P2P)模型,该模型以游戏画面和文本指令作为输入,直接输出对应的键盘与鼠标操作信号。在消费级显卡 RTX 5090 上,P2P 可以实现超过 20Hz 的端到端推理速度,从而能够真正像人类一样和游戏进行实时交互。P2P 作为通用游戏基座模型,在超过40款游戏、总计8300 +小时的游戏数据上进行了训练,并能够以零样本(zero-shot)的方式直接玩 Roblox 和 Steam 平台上的多款游戏。

为了促进领域的发展,Open-P2P 团队在没有使用许可限制的情况下开源了全部的训练与推理代码,并公开了所有的训练数据集。

接下来请看 P2P 模型的人机对战:(在 Roblox Rivals 游戏中)

  • 论文题目:Scaling Behavior Cloning Improves Causal Reasoning: An Open Model for Real-Time Video Game Playing
  • 项目主页:https://elefant-ai.github.io/open-p2p/
  • 论文代码:https://github.com/elefant-ai/open-p2p
  • 论文数据:https://huggingface.co/datasets/elefantai/p2p-full-data

训练数据

训练游戏 AI 模型需要高质量的游戏画面、文本指令以及对应的操作数据。与海量公开的图文数据不同,这类 “画面 - 操作” 数据在互联网上很少见。尽管已有通过游戏视频反推动作的开源数据集,但开源的大规模高质量人工标注操作数据却还是空缺。为了弥补这一空缺,Open-P2P 项目开源了全部的训练数据集。



如图所示,P2P 所用的训练数据同时包括游戏图像画面与对应的文本指令,并提供了精确的键盘鼠标操作标注

模型设计



为了保证模型可以做到快速的推理速度,P2P 选择了轻量级模型框架并从零开始训练。

模型主体由一个解码器 Transformer 构成(左图所示),并额外接入一个轻量化的 action-decoder 来生成最终的操作信号。该结构使得模型在推理时只需要对主体模型进行一次前向计算,即可生成 action-decoder 所需的表征信号,从而使得整体推理速度提升 5 倍。

为了实现跨游戏通用性,P2P 采用了自回归的离散 token序列作为操作输出空间。具体来说,每个操作由 8 个 token 表示:4 个对应键盘按键,2 个对应鼠标在水平与垂直方向上的离散位移,最后两个对应鼠标按键。这样的设计可以涵盖绝大部分游戏的操作需求。

在输入方面,除了当前帧图像与文本指令 token 外,P2P 还会输入真实操作 token,这使得模型能够根据历史操作来做决策,从而更贴近人类玩家的操作习惯。为了保证模型的因果关系,训练时使用了特殊的掩码机制(右图所示),以确保模型在预测时仅能看见历史真实操作。

模型评估

P2P 共训练了四个不同规模的模型,参数量分别为 150M,300M,600M 和 1.2B。在实测中,150M 模型可以达到 80Hz 的端到端推理速度,而最大的 1.2B 模型也能达到 40Hz,完全满足与游戏环境实时交互的需求。

模型评估的标准主要是人工评估,评估环境选取自四款游戏

  • Steam 平台上的 Quake,DOOM
  • Roblox 平台上的 Hypershot,Be a Shark

模型行为评估

在 DOOM 和 Quake 中,每个官卡设置了四个不同的起始位置(Roblox 游戏因联网机制无法固定起点),模型需从指定起点操作至下一个目标点。

人工评估采取了两两比较的方式:将 1.2B 模型生成的游戏录像与另外三个相对较小的模型录像进行人工比对。结果显示,1.2B 模型分别以 80%,83% 与 75% 的偏好度优于 150M,300M 和 600M 模型。下方视频展示了对比片段:

指令遵循评估

研究还测试了 P2P 模型理解并执行文本指令的能力。评估环境选择了 Quake 的一个迷宫关卡,该关卡要求玩家依次点亮三个红色按钮才能开门。

这个任务对于仅凭借视觉信息的模型来说很有挑战,因为 “按下按钮” 和 “不按按钮” 在行动轨迹上几乎没有区别。所以,未接受指令的模型通过率只有 20%。而当模型接收到 “按下红色按钮” 的文本指令后,模型的通过率可大幅提高到 80%,显示出了优秀的文本指令理解和执行能力。

下方视频对比了 1.2B 模型在有指令(左)和无指令(右)的情况下各运行 5 次的表现。

因果混淆分析

因果混淆是行为克隆中常见的难题,在高频的交互环境中尤其突出。例如,一个简单的策略就是直接复制上一帧的操作,这种模型在训练时,但在真实环境测试时表现就会很差。

论文对此进行了系统的研究,发现扩大模型的规模与增加训练模型的数据量能够有效提升模型对因果关系的理解能力,使其不再依赖着泪虚假关联,从而学到更好的操作策略。



如图所示,随着训练数据增多与模型参数量增加,P2P 模型在因果推断评估中的表现呈上升趋势。

关于作者

本文第一作者岳煜光现任初创公司 Player2 研究员,负责游戏模型的开发和研究。在加入 Player2 之前,他曾先后在 Amazon 和 Twitter 担任研究人员,致力于语言模型与推荐系统的相关研究。

岳煜光博士毕业于德州大学奥斯汀分校(UT-Austin),师从周明远教授,研究方向是强化学习以及贝叶斯统计;此前他于加州大学洛杉矶分校(UCLA)取得硕士学位,本科毕业于复旦大学数学系。



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
四国领导人应邀访华,中方已递出邀请函,专机三天后抵京

四国领导人应邀访华,中方已递出邀请函,专机三天后抵京

章媸解说体育
2026-01-23 12:08:39
110-103击败快船,直冲西部第六创NBA79年历史纪录

110-103击败快船,直冲西部第六创NBA79年历史纪录

老壥说体育
2026-01-24 12:38:57
国际金价突破5000美元

国际金价突破5000美元

黄河新闻网吕梁频道
2026-01-24 11:11:44
“鬼城”又添一座!房价2万暴跌到4千,住户:晚上开灯才可怕!

“鬼城”又添一座!房价2万暴跌到4千,住户:晚上开灯才可怕!

猫叔东山再起
2026-01-16 11:00:08
特朗普危险了:德国足协副主席号召抵制世界杯

特朗普危险了:德国足协副主席号召抵制世界杯

油泼辣不辣
2026-01-24 12:08:07
昭通市委书记市长,会见“蹦山咔拉咔”

昭通市委书记市长,会见“蹦山咔拉咔”

极目新闻
2026-01-23 20:13:00
分手14年,释小龙何洁境遇天差地别,一个身家过亿,一个养不起娃

分手14年,释小龙何洁境遇天差地别,一个身家过亿,一个养不起娃

查尔菲的笔记
2026-01-09 22:17:44
用心良苦!多地学校取消期末统考有何深意?看完央视报道恍然大悟

用心良苦!多地学校取消期末统考有何深意?看完央视报道恍然大悟

健野部落格
2026-01-24 11:00:16
宝马“掀桌子”!新款宝马X3正式上市,增配还敢大降价,剑指奥迪Q5L!

宝马“掀桌子”!新款宝马X3正式上市,增配还敢大降价,剑指奥迪Q5L!

隔壁说车老王
2026-01-24 00:11:59
原来有这么多工作需要保密!网友:牺牲12年的爸爸竟然回来了!

原来有这么多工作需要保密!网友:牺牲12年的爸爸竟然回来了!

另子维爱读史
2026-01-16 18:29:22
卫冕冠军继续前进!凯斯横扫前世界第一,第7次跻身澳网16强

卫冕冠军继续前进!凯斯横扫前世界第一,第7次跻身澳网16强

全景体育V
2026-01-24 09:11:01
奇怪,快船队大胜湖人队后,快船队主帅泰伦卢却感到十分沮丧

奇怪,快船队大胜湖人队后,快船队主帅泰伦卢却感到十分沮丧

好火子
2026-01-24 11:25:13
田华:一路好走,一家四口都是癌症,却拒绝200万广告代言

田华:一路好走,一家四口都是癌症,却拒绝200万广告代言

潘蠸旅行浪子
2026-01-14 03:43:09
向太曝马伊琍已再婚:当年文章过不了心理那关

向太曝马伊琍已再婚:当年文章过不了心理那关

娱乐看阿敞
2025-12-12 15:50:00
周日利空,34个龙头巨亏10亿,2个GPU巨亏,这5个行业容易暴雷

周日利空,34个龙头巨亏10亿,2个GPU巨亏,这5个行业容易暴雷

鹏哥投研
2026-01-24 09:25:24
西方史上最严重高铁事故,背后的日本企业无人关注

西方史上最严重高铁事故,背后的日本企业无人关注

枫冷慕诗
2026-01-23 14:27:24
山西一商场开业首日停电,顾客摸黑打开手机电筒购物,商场:负荷过大,变压器开启保护机制断电

山西一商场开业首日停电,顾客摸黑打开手机电筒购物,商场:负荷过大,变压器开启保护机制断电

极目新闻
2026-01-24 12:32:33
排水量10吨,带6个垂发!国产“微型小航母”亮相,我军急需装备

排水量10吨,带6个垂发!国产“微型小航母”亮相,我军急需装备

科普100克克
2026-01-23 17:53:49
2-4!乒坛再爆冷门:日本三大世界冠军被淘汰,张本美和女单四连冠!

2-4!乒坛再爆冷门:日本三大世界冠军被淘汰,张本美和女单四连冠!

好乒乓
2026-01-24 10:39:08
芯片巨头大跌17%,英伟达市值一夜增超4700亿元!贵金属领涨,现货白银大涨超7%,现货黄金逼近5000美元

芯片巨头大跌17%,英伟达市值一夜增超4700亿元!贵金属领涨,现货白银大涨超7%,现货黄金逼近5000美元

每日经济新闻
2026-01-24 07:07:06
2026-01-24 13:31:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12179文章数 142549关注度
往期回顾 全部

游戏要闻

《神鬼寓言》重启版游戏总监称每个房子都能进

头条要闻

美国公布最新国防战略 对"台湾"只字未提

头条要闻

美国公布最新国防战略 对"台湾"只字未提

体育要闻

当家球星打替补,他们在故意摆烂?

娱乐要闻

李微漪更新:狼王格林去世,3字泪目

财经要闻

“百年老字号”张小泉遭60亿债务压顶

科技要闻

特斯拉Cybercrab即将落地 每公里不到1块钱

汽车要闻

有增程和纯电版可选 日产NX8或于3-4月间上市

态度原创

房产
艺术
手机
健康
教育

房产要闻

正式官宣!三亚又一所名校要来了!

艺术要闻

色彩之巅!法国蓬皮杜中心馆藏艺术大师特展”在北京民生现代美术馆开幕

手机要闻

vivo V70 Elite手机曝光:骁龙8s Gen 3芯片,6500mAh电池

耳石脱落为何让人天旋地转+恶心?

教育要闻

教育部:严控这类招生规模

无障碍浏览 进入关怀版