网易首页 > 网易号 > 正文 申请入驻

开源桌面版UI-TARS:豆包手机核心技术获27.7k Stars

0
分享至

智猩猩AI整理

编辑:没方

让智能体(Agent)自主操作图形用户界面(GUI)是实现通用人工智能的关键一步。但现有方案大多依赖文本表示与模块化框架,存在平台兼容性差、泛化能力弱以及需大量人工指导的问题;而端到端GUI智能体模型面临 GUI 感知难度大和高质量训练数据匮乏瓶颈,难以适配动态多变的现实环境。

为应对上述挑战,字节跳动 Seed、清华大学联合提出一种原生 GUI 智能体模型UI-TARS,仅以屏幕截图作为输入,执行类人的交互操作(例如键盘和鼠标操作)。与当前依赖高度封装的商业模型(如 GPT-4o),并需要专家设计提示词(prompts)和工作流程的智能体框架不同; UI-TARS 是一个端到端模型,其性能全面超越了这些复杂的框架。其中,在OSWorld基准上,UI-TARS 在 50 步限制下得分为24.6,在 15 步限制下得分为22.7,分别优于 Claude 的22.014.9;在AndroidWorld基准上,UI-TARS 得分46.6,显著超越GPT-4o 的34.5

这一技术很快走向产品落地。2025年12月,豆包手机的出现彻底打破了传统 AI 手机“伪智能”的局限。与市面上多数 AI 手机仅能执行单一 App 内的预设指令、无法跨应用协同不同,豆包手机依托 UI-TARS 模型的交互能力,仅通过屏幕视觉识别,就能像人类用户一样自主完成跨应用、多步骤的复杂任务,让手机从“被动响应指令”升级为“主动解决问题”的智能伙伴。


UI-TARS 作为豆包手机的核心技术支撑,其配套的桌面开源项目 UI-TARS-desktop 已在 GitHub 上迅速走红。目前,该仓库已收获 27.7k stars,成为 AI Agent 领域备受关注的热门开源项目。

  • 论文标题:
    UI-TARS: Pioneering Automated GUI Interaction with Native Agents

  • 论文链接:

    https://arxiv.org/pdf/2501.12326v1

  • GitHub:

    https://github.com/bytedance/UI-TARS

    https://github.com/bytedance/UI-TARS-desktop

01

UI-TARS技术原理



UI-TARS是一种原生的 GUI 智能体模型(native GUI agent model),其设计旨在摆脱传统智能体框架所依赖的繁琐人工规则和级联式模块。如图4所示,UI-TARS 模型能够直接感知屏幕截图进行推理,并自主生成有效动作。此外,它还能从过往经验中学习,利用环境反馈不断迭代优化其性能。

(1)针对GUI 截图的感知能力增强

GUI 环境具有信息密度高、布局复杂、风格多样等特点,对智能体的感知能力要求极高。为此,研究团队构建了一个大规模数据集:通过专用解析工具从网站、应用程序和操作系统中采集屏幕截图,并提取元素类型、边界框(bounding boxes)和文本内容等元数据。如图5所示,研究团队主要整理了五项任务的数据。



  • 元素描述(Element Description):为 GUI 组件生成细粒度、结构化的语义描述;

  • 密集标注(Dense Captioning):通过描述整个GUI 布局(包括元素间的空间关系、层级结构及交互方式),实现界面的整体理解;

  • 状态转换标注(State Transition Captioning):捕捉屏幕中细微的视觉变化;

  • 问答(Question Answering):旨在增强智能体的视觉推理能力;

  • 标记集合提示(Set-of-Mark Prompting):利用视觉标记将GUI元素与特定的空间及功能上下文关联起来。

这些精心设计的任务,使得 UI-TARS 能够精准识别和理解GUI元素,为其后续的推理与行动提供了坚实的基础。

(2)统一动作建模与定位
如表1所示,研究团队设计了一个统一动作空间,以标准化跨平台的语义等价动作。为提升智能体多步骤任务的执行能力,研究团队构建了一个大规模动作轨迹数据集,整合了标注的操作轨迹与标准化的开源数据。


此外,为增强定位能力(准确找到特定 GUI 元素并与之交互的能力),研究团队专门构建了一个将元素描述与其空间坐标配对的大规模数据集(如表2所示)。该数据使 UI-TARS 能够实现精准可靠的交互。


(3)融入 System-2 推理

智能体要在动态环境中实现稳健性能,需要具备先进的推理能力。为此,研究者爬取了 600 万条 GUI 操作教程并经过严格筛选与精炼,构建了支持逻辑决策的 GUI知识基础。

为激发 UI-TARS 的推理能力,研究团队对收集的动作轨迹数据进行了思维增强:通过两阶段标注方法,在原有的观察-动作序列中插入显式“思维”步骤,构建出“观察–思维–动作”的结构化轨迹。在生成思维时,通过提示视觉语言模型(VLM)遵循 System-2 推理模式,包括任务分解(task decomposition)、长期一致性(long-term consistency)、里程碑识别(milestone recognition)、试错(trial & error)以及反思(reflection),使模型在执行每个动作前生成可解释的推理过程,从而在感知与动作之间建立决策桥梁。


(4)基于经验的迭代优化

为应对 GUI 交互高质量轨迹数据稀缺的瓶颈,UI-TARS采用了一种迭代改进框架,能够动态收集并精炼新的交互轨迹。利用数百台虚拟机,UI-TARS 基于构造的指令探索多样化的现实任务,并自动生成大量交互轨迹。通过多阶段过滤保证轨迹质量,包括基于规则的启发式方法、VLM 评分和人工审核。这些精炼后的轨迹随后反馈至模型,使智能体在连续的训练周期中实现持续迭代的性能提升。


该在线引导(online bootstrapping)过程的另一关键组成部分是反思调优(reflection tuning):智能体通过分析自身次优或失败的操作,学习识别错误并主动恢复。为此,研究团队标注了两类数据:

  • 错误修正(error correction):标注员指出智能体生成轨迹中的错误,并标注纠正动作;

  • 事后反思(post-reflection):标注人员模拟错误发生后的恢复步骤,展示智能体应如何重新对齐任务进度。

这两类数据构成了配对样本,用于直接偏好优化(DPO)训练模型。该策略确保智能体不仅能学会避免错误,还能在错误发生时动态调整行为。

(5)训练

为确保与Aguvis和OS-Atlas等研究进行公平比较,研究团队采用了相同的VLM 主干 Qwen-2-VL ,并实施一个三阶段训练流程。该流程使用约 50B tokens 的数据,逐步提升模型在多样化 GUI 任务上的性能,每个阶段均引入更高质量的数据,以增强其在复杂推理任务上的表现。

  • 持续预训练阶段(Continual Pre-training Phase):使用收集的完整数据集(不包括反思调优数据),以恒定学习率进行持续预训练。这一基础阶段使模型掌握自动化 GUI 交互所需的全部核心知识,包括感知、定位和动作轨迹,从而确保对各类 GUI 元素与交互模式的全面覆盖。

  • 退火微调阶段(Annealing Phase):从感知、定位、动作轨迹及反思调优数据中筛选出高质量子集,用于退火训练。该过程逐步调整模型的学习动态,促使它在真实 GUI 交互场景中形成更好的优化其决策策略。此阶段训练完成的模型标记为UI-TARS-SFT。

  • DPO 优化阶段(DPO Phase):利用在线引导(online bootstrapping)过程中标注的反思配对数据(reflective pairs)进行 DPO 训练。在此阶段,模型通过强化最优动作、抑制次优行为来优化其决策能力。这一流程显著提升了模型在真实 GUI 环境中做出精准的上下文感知决策能力。最终得到的模型记为UI-TARS-DPO

02

评估

(1)感知能力评估


如表3所示,研究团队使用三个关键基准测试评估 UI-TARS 模型的感知能力:

  • VisualWebBench用于衡量模型对网页元素的理解与定位能力,涵盖网页问答、网页 OCR 和动作预测等任务。UI-TARS 模型在此基准上表现卓越,其中72B 版本得分达 82.8,显著优于 GPT-4o(78.5)和 Claude 3.5(78.2)等闭源模型。

  • 在网页结构理解 WebSRC 和移动端屏幕内容理解 ScreenQA-short 基准测试中,UI-TARS 同样展现出明显优势。UI-TARS-7B 在 WebSRC 上取得 93.6 的领先分数;UI-TARS-72B 在 ScreenQA-short 上以 88.6 分表现最佳。

上述结果表明, UI-TARS 在网页与移动端环境中有强大的感知与理解能力,为智能体任务奠定了坚实基础。

(2)定位能力评估


研究团队通过三个基准来评估 UI-TARS 的定位能力:


ScreenSpot Pro基准面向高分辨率专业场景设计,涵盖五个行业、三个操作系统中的 23 款应用程序,包含专家标注的复杂任务,旨在对模型在高度专业化、高复杂度环境下的定位性能进行严格评估。

ScreenSpot 和 ScreenSpot v2 基准则覆盖移动端、桌面端和 Web 端的 GUI 定位能力评估:ScreenSpot 采用直接指令和模型自生成计划两种方式测试定位性能;ScreenSpot v2 通过修正原始标注错误,进一步提升了评估的准确性。

如表 4 所示,UI-TARS-72B 在 ScreenSpot Pro 上取得 38.1 分,显著优于 UGround-V1-7B(31.1)和 OS-Atlas-7B(18.9)。值得注意的是,在 ScreenSpot Pro 上提高输入图像分辨率后,模型性能获得显著提升。


在表 5 中,UI-TARS-7B 在 ScreenSpot 上以 89.5 分位居榜首
在表 6 的 ScreenSpot v2 基准上,UI-TARS-7B(91.6)与 UI-TARS-72B(90.3)均超越现有最强基线(如 OS-Atlas-7B 的 87.1),进一步验证了研究团队方法的鲁棒性。

此外,从 UI-TARS-2B 到 UI-TARS-7B,模型在三项定位数据集上的性能均呈现显著提升。

然而,在对比 UI-TARS-7B 与 UI-TARS-72B 时,研究团队发现,ScreenSpot v1 和 v2 的性能未出现明显变化,而 ScreenSpot Pro 则展现出显著的模型规模增益。这表明 ScreenSpot v1/v2 可能尚不足以充分捕捉更大规模的模型在高阶定位任务中的能力提升,其评估难度或复杂度相对有限。

(3) 离线智能体能力评估

为了评估 UI-TARS 在静态、预定义环境中 GUI 智能体能力,研究团队在三个基准上进行了测试。结果表明,UI-TARS 在推理与执行能力方面均展现出显著优势。


如表 7 所示,在 Multimodal Mind2Web中,大多数智能体模型大幅超越基于框架的方法(后者以 GPT-4o 或 GPT-4V 作为核心规划器)。比较不同的智能体模型,UI-TARS-72B 在关键指标上取得 SOTA 性能。值得注意的是,UI-TARS-7B 虽参数量较少,但仍优于 Aguvis-72B 和 Claude 等强基线模型。


如表 8 所示,在 Android Control 和 GUI Odyssey中,UI-TARS-7B 与 UI-TARS-72B 均超越了此前的 SOTA 方法(OS-Atlas-7B),充分体现了其在多步离线任务中的卓越性能。

此外,还发现Claude 的 Computer Use 功能在网页任务中表现强劲,但在移动端场景中显著退化,表明其 GUI 操作能力尚未有效迁移到移动领域。相比之下,UI-TARS 在网页和移动端均表现出色,凸显了其强大的跨平台适应性与泛化能力。

(4) 在线智能体能力评估

在线评估在动态环境中进行,每个环境均设计为交互式仿真系统以真实还原现实场景。在这些环境中,GUI 智能体可通过实时执行动作来改变环境状态。

如表9所示,研究团队使用两个基准对不同模型进行在线评估。


(1) 在 OSWorld 上,当动作步数限制为 15 步时,UI-TARS-7B-DPO(18.7)和 UI-TARS-72B-DPO(22.7)显著优于 Claude(14.9),展现出强大的推理能力。UI-TARS-72B-DPO 在仅 15 步的预算下(得分 22.7)即可媲美 Claude 在 50 步预算下的表现(得分 22.0),展现出卓越的执行效率。更值得注意的是,在 50 步预算下,UI-TARS-72B-DPO 以 24.6 分刷新了 OSWorld 的 SOTA 记录,超越了所有现有智能体框架,表明智能体模型在处理复杂桌面任务时效率更高以及潜力更大。

(2) 在 AndroidWorld 上,UI-TARS-72B-SFT 取得 46.6 分,不仅优于此前最佳的智能体框架(GPT-4o + Aria-UI,44.8),也大幅领先于其他智能体模型(如 Aguvis-72B,26.1)。

(3) 对比 SFT 模型与 DPO 模型,可以发现 DPO 显著提升了 OSWorld 基准上的性能,表明在训练中引入“负样本”有助于模型更好地区分最优与次优动作,从而优化决策质量。

(4) 对比 UI-TARS-72B 与 UI-TARS-7B,在线任务中 72B 模型的表现远优于 7B 模型,且性能差距明显大于离线任务(见表 7 和表 8)。这说明扩大模型规模显著增强了 System 2 推理能力,使其能够进行更谨慎、更合乎逻辑的决策。同时这一差异也表明,仅依赖离线基准的评估可能无法准确反映模型在实时动态环境中的真实能力。

综上所述,这些结果充分验证了智能体模型在推理密集需求任务中的潜力,并强调了采用更大规模的模型应对在线动态环境挑战的优势。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
男子伪造身份下药侵犯十几名女高管,无人报案,作案过程匪夷所思

男子伪造身份下药侵犯十几名女高管,无人报案,作案过程匪夷所思

谈史论天地
2025-12-17 07:02:33
李在明政治复仇成功,当5000万韩国人面前宣告尹锡悦结局

李在明政治复仇成功,当5000万韩国人面前宣告尹锡悦结局

用冷眼洞悉世界
2026-02-14 04:13:29
燃油车再霸榜!1月MPV销量榜揭晓,赛那又夺冠,腾势D9跌出前十

燃油车再霸榜!1月MPV销量榜揭晓,赛那又夺冠,腾势D9跌出前十

购车前线
2026-02-14 02:40:05
离春节不到一周,高调官宣喜讯的冯绍峰,让赵丽颖和内娱刮目相看

离春节不到一周,高调官宣喜讯的冯绍峰,让赵丽颖和内娱刮目相看

阿废冷眼观察所
2026-02-14 05:05:38
喜马拉雅山的神秘部落:喜欢吃素,无婚姻制度,其繁衍方式特殊

喜马拉雅山的神秘部落:喜欢吃素,无婚姻制度,其繁衍方式特殊

老谢谈史
2025-12-30 17:23:53
为什么这5样“电器”突然没人买了?缺点太多了,白送都没人要!

为什么这5样“电器”突然没人买了?缺点太多了,白送都没人要!

家居设计师苏哥
2025-12-27 14:36:28
本轮轮休,C罗和菲利克斯观看了笼式网球锦标赛

本轮轮休,C罗和菲利克斯观看了笼式网球锦标赛

懂球帝
2026-02-13 16:15:10
欧美权贵吃人盛宴牵邪教献祭,惊悚程度超百倍

欧美权贵吃人盛宴牵邪教献祭,惊悚程度超百倍

聚焦分享每日热点
2026-02-04 22:12:41
米兰冬奥奖牌榜:前三没变,德国上升4位,韩国升5位,我国降1位

米兰冬奥奖牌榜:前三没变,德国上升4位,韩国升5位,我国降1位

湘楚风云
2026-02-13 10:21:17
曾志晚年被女儿问:爸死得那么惨,怨不怨毛主席?曾志:永存敬意

曾志晚年被女儿问:爸死得那么惨,怨不怨毛主席?曾志:永存敬意

谈古论今历史有道
2026-02-11 10:20:03
小岛生气了,后果很严重!

小岛生气了,后果很严重!

贵圈真乱
2026-02-13 11:40:59
日本24小时内放人,春节挑衅中国,高市早苗难担后果

日本24小时内放人,春节挑衅中国,高市早苗难担后果

像梦一场a
2026-02-14 06:28:43
穆永吉:甘肃省人大常委会原副主任

穆永吉:甘肃省人大常委会原副主任

小影的娱乐
2026-02-14 03:59:12
高速孤独婚车后续: 上海远嫁河南,知情人透更多,新郎新娘人品好

高速孤独婚车后续: 上海远嫁河南,知情人透更多,新郎新娘人品好

观察鉴娱
2026-02-13 15:04:48
拒绝摆烂!曝福建签下单场60+12+7超级后卫,凯撒裁掉争议小外援

拒绝摆烂!曝福建签下单场60+12+7超级后卫,凯撒裁掉争议小外援

老叶评球
2026-02-13 21:08:42
德国拒绝美国保护,呼吁欧盟以中国为榜样

德国拒绝美国保护,呼吁欧盟以中国为榜样

李虰手工制作
2026-02-14 05:23:25
悲催!贵州一男子哭诉孕妻因感冒去世,连同肚子里未出世的孩子…

悲催!贵州一男子哭诉孕妻因感冒去世,连同肚子里未出世的孩子…

火山詩话
2026-02-13 05:56:49
西宁野生动物园人工繁育雄性兔狲“狲三郎”死亡,不到4岁系“狲思邈”之子,因急性感染致多系统器官衰竭

西宁野生动物园人工繁育雄性兔狲“狲三郎”死亡,不到4岁系“狲思邈”之子,因急性感染致多系统器官衰竭

极目新闻
2026-02-13 13:41:12
我表哥娶了个外国媳妇,天天抱怨:抱着俄罗斯老婆,堪比抱个刺猬

我表哥娶了个外国媳妇,天天抱怨:抱着俄罗斯老婆,堪比抱个刺猬

千秋文化
2026-01-22 17:10:43
前女篮队长陈鹭芸患癌离世,38岁,阿联哀悼

前女篮队长陈鹭芸患癌离世,38岁,阿联哀悼

孤城落日
2026-02-12 14:16:36
2026-02-14 07:23:00
侃故事的阿庆
侃故事的阿庆
几分钟看完一部影视剧,诙谐幽默的娓娓道来
456文章数 7604关注度
往期回顾 全部

科技要闻

独家探访蔡磊:答不完的卷子 死磕最后一程

头条要闻

8千元的迷你小马一夜爆火 马主:1天排泄次数达十几次

头条要闻

8千元的迷你小马一夜爆火 马主:1天排泄次数达十几次

体育要闻

这张照片背后,是米兰冬奥最催泪的故事

娱乐要闻

大衣哥女儿风光出嫁,农村婚礼超朴素

财经要闻

华莱士母公司退市 疯狂扩张下的食安隐忧

汽车要闻

探秘比亚迪巴西工厂 居然是这个画风!

态度原创

艺术
亲子
时尚
房产
公开课

艺术要闻

100张照片,100年来的中国春节

亲子要闻

爸爸带的孩子是什么样的?妈妈看完沉默了,网友:活着就好!

穿上这些鞋拥抱春天

房产要闻

三亚新机场,又传出新消息!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版