字节通用游戏智能体Game-TARS，像人一样用键鼠征服千款游戏|鼠标|动作|tars

字节通用游戏智能体Game-TARS，像人一样用键鼠征服千款游戏

2025-11-07 09:36:51　来源: 魏家东

北京举报

分享至

当你在《我的世界》中辛苦搭建建筑，却被一个智能体轻松超越；当你还在《神庙逃亡》中为避开障碍手忙脚乱，某个AI已经实现无限连跳；当一款全新的3D网页游戏刚上线，无需任何适配，就有智能体直接零样本上手——你或许会疑惑，游戏AI已经进化到这种程度了？答案是肯定的。字节跳动Seed团队打造的通用型游戏智能体Game-TARS，打破了传统游戏AI的局限，以“人类自然交互”为核心，用键盘和鼠标真正“玩”转各类游戏，甚至在多个任务中超越了GPT-5、Gemini-2.5-Pro等顶尖大模型。它的出现，不仅重新定义了游戏智能体的发展方向，更让通用人工智能在交互层面迈出了关键一步。

颠覆传统：从“调用函数”到“亲手操作”的革命

传统游戏智能体的“短板”早已显而易见：它们更像“规则执行者”，而非“游戏玩家”。为了适配不同游戏，开发者需要为AI定制专属动作集——在代码层面，它们可以直接调用“搜索”“拾取”等函数，跳过实际操作步骤；在图形界面层面，也只能执行“双击”“热键触发”等封装好的固定动作。这种“开挂式”的操作逻辑虽然高效，却极度缺乏通用性。一旦换个操作系统、换款游戏，甚至只是调整了按键设置，这些AI就会瞬间“失灵”，沦为只能在特定环境中工作的“专用工具”。

Game-TARS的核心创新，就是彻底抛弃了这种定制化思路，让AI像人一样通过最底层的键盘和鼠标动作与游戏交互。它的动作指令集只有三类：鼠标相对移动（mouseMove）、鼠标点击（mouseClick）和键盘按键（keyPress），涵盖了人类操作电脑的所有基础动作——从《星露谷》中精准点击作物浇水，到FPS游戏中快速转身瞄准，再到《神庙逃亡》里的左右滑动与跳跃，全靠这些基础动作组合完成。

这种设计实现了关键的“人类自然交互”（Human-NativeInteraction）：AI的操作方式与具体游戏、操作系统完全解耦，就像一个熟悉键鼠的玩家，无论面对什么新环境，都能凭借基础操作快速适应。正是这种与人类物理交互方式的直接对齐，让Game-TARS摆脱了“专属工具”的定位，成为真正的“通用玩家”。

硬核技术：5000亿数据+创新算法，撑起跨域泛化能力

Game-TARS的通用性并非凭空而来，背后是字节Seed团队在数据、模型和算法上的三重发力。作为一款通用智能体，它的训练基础是超5000亿标注量级的多模态数据，涵盖了操作系统、网页和各类模拟环境，相当于让AI“浸泡”在海量的交互场景中学习。但海量数据只是基础，要实现高效学习和跨域泛化，还需要创新算法的支撑。

稀疏推理：像人一样“关键时刻深思考”

人类玩游戏时，不会每一个动作都反复纠结，而是会在关键节点集中注意力思考——比如FPS游戏中发现敌人时，会快速判断射击角度和时机；《我的世界》中遇到危险时，会立刻规划逃跑路线。Game-TARS借鉴了这种认知模式，提出了“稀疏推理”（Sparse-Thinking）机制：AI只在关键决策点交错进行推理和行动，而非全程高频思考。

为了实现这一机制，团队采用了“离线思维链+在线边做边说”的训练方式：标注者在执行游戏任务时，通过音频实时表达思考过程，系统同步录制屏幕帧、键鼠操作和音频，再通过语音转文字和大模型优化，生成原生的推理-动作序列。同时，以鼠标光标为视觉锚点，精准对齐每个动作与执行帧，确保推理和动作的因果一致性。这种训练让AI学会了“该省则省、该精则精”，既提高了决策效率，又让动作更符合人类逻辑。

衰减持续损失：打破“行为惯性”困局

传统AI训练中，容易出现“行为惯性”问题——比如在《神庙逃亡》中一直向左滑动，或者在开放世界游戏中反复绕圈，难以主动尝试新动作。为了解决这一问题，Game-TARS引入了“衰减持续损失”（decayingcontinualloss）算法：对连续重复的动作按指数降低权重，让模型更关注高熵的动作转变。

这一设计模拟了人类的探索本能：就像玩家不会一直重复无效动作，AI也会主动尝试新的操作组合，从而学习到更稳健、泛化能力更强的策略。搭配统一的键鼠动作空间，这种算法让Game-TARS在面对未见过的3D网页游戏时，能快速探索有效操作，实现零样本迁移。

两阶段训练：从“广泛学习”到“精准提升”

Game-TARS的训练分为持续预训练和后训练两个阶段。预训练阶段在2万小时的游戏数据上完成，让AI掌握基础的交互能力和稀疏推理逻辑；后训练阶段则重点提升三大核心能力：指令遵循（即使按键绑定被随机替换，也能通过提示理解动作语义）、稀疏思维强化（在关键步骤深化推理）和长期记忆（通过双层记忆机制保存关键信息）。

更重要的是，后训练还引入了代码生成、GUI自动化等跨领域数据，让Game-TARS从“游戏玩家”升级为“多功能通用计算机用户”——这意味着它的能力不仅限于游戏，未来还能应用于更多需要键鼠交互的场景。

实力验证：跨类型游戏碾压顶尖模型，泛化能力拉满

衡量一款通用游戏智能体的核心标准，是跨类型、跨环境的表现。Game-TARS在多项测试中交出了亮眼答卷：在《我的世界》中，它能与普通玩家同台竞技，完成建筑搭建、资源采集等复杂任务，表现比此前最先进的专家模型提升约2倍；在《神庙逃亡》《星露谷》等不同类型的游戏中，无需定制适配，就能快速上手并达到熟练玩家水平；在未见过的3D网页游戏中，更是实现了零样本迁移，直接通过键鼠操作完成游戏目标。

在FPS、开放世界、WEB游戏等主流任务中，Game-TARS的表现超越了GPT-5、Gemini-2.5-Pro、Claude-4-Sonnet等顶尖大模型。这一结果证明：基于统一键鼠动作空间的训练思路，不仅能实现通用性，还能在专项任务中达到甚至超越专用模型的水平。更重要的是，它在训练和推理过程中都展现出了优秀的可扩展性——随着数据量的增加和场景的丰富，其性能还在持续提升。

未来可期：从游戏玩家到通用智能体的无限可能

Game-TARS的意义，远不止于“让AI会玩更多游戏”。它所确立的“人类自然交互”范式，为通用人工智能的发展提供了重要参考：未来的AI无需依赖定制化接口，只需通过人类最熟悉的交互方式（键鼠、语音、手势等），就能适配各类场景。

从应用场景来看，Game-TARS已经展现出了多元潜力：除了游戏领域，它还能应用于软件自动化测试（模拟用户操作检测bug）、远程办公辅助（自动完成重复键鼠操作）、无障碍辅助（为特殊人群提供智能操作支持）等多个领域。而其核心技术——稀疏推理、多模态数据融合、跨域泛化能力，也将为更多通用智能体的研发提供借鉴。

值得一提的是，这款硬核智能体的第一作者是北京大学人工智能研究院的博士生王子豪，他在字节跳动Seed团队担任研究实习生期间，主导了核心技术的研发。这一成果既是产学研结合的典范，也展现了年轻研究者在通用人工智能领域的创新实力。

随着技术的持续迭代，未来的Game-TARS或许能像人类玩家一样，在游戏中展现出创造力和策略性——比如在《我的世界》中搭建出独一无二的建筑，在开放世界游戏中探索未知的隐藏剧情。而更长远来看，这种“像人一样交互”的通用智能体，终将突破游戏的边界，成为人类在数字世界中的得力助手，推动通用人工智能走向更贴近生活的新阶段。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.