网易首页 > 网易号 > 正文 申请入驻

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年

0
分享至

嘻疯 发自 凹非寺
量子位 | 公众号 QbitAI

3万台首批备货被一抢而空、在二手市场价格翻番的当红炸子鸡“豆包手机”,更多技术详情得到证实。



事实证明,豆包手机助手技术预览版背后,是字节在“系统级GUI Agent”赛道上布局了近两年的大棋。

在官方演示中,搭载在工程样机nubia M153上的它,能代替用户操作手机,跨应用自动化执行任务

比如一次性下达多个指令,让它一口气完成在飞书上代为请假、提交差旅申请、预订出差高铁票等复杂任务:



而据量子位最新打听到的消息,这套图形界面操作能力,正是建立在字节自研的UI-TARS模型基础之上

开发者对此系列模型应该并不陌生。初代一经开源便引发热议,被评价性能优于当时曝光的OpenAI Operator(UI-TARS在Operator正式发布前就已发布)。

“豆包手机”使用的则是UI-TARS闭源版本,不仅性能优于其开源版本,还针对Mobile Use进行了大量优化

换言之,豆包手机助手的核心技术探索方向,实际上早就开源了。



PS:关键后来正式发布的Operator,还要开200美元一个月的Pro会员才能用……



UI-TARS模型的持续进化与应用

早在今年1月,字节Seed团队与清华联手开源初代UI-TARS,为系统级AI Agent奠定基础。此后,团队便沿着这条路线持续深耕,不断迭代打磨能力。



团队指出,原生Agent需具备感知、动作、推理、记忆四大核心能力。

因此,初代UI-TARS围绕这些能力进行了四大关键创新。



1)通过大规模GUI截图数据集和五大感知任务(元素描述、标记区域感知等)增强GUI感知精度。



2)设计跨平台统一动作空间,整合标注轨迹与开源数据提升动作定位准确性。



3)融入600万高质量GUI教程和多种推理模式(任务分解、反思等),注入System-2深思型推理能力。



4)借助数百台虚拟机自动收集交互轨迹,通过多阶段过滤、反思调优和直接偏好优化(DPO)解决数据瓶颈,实现模型迭代优化。



在GUI Agent基准测试中,初代UI-TARS已有突破性表现,一举拿下多个SOTA。

仅过短短3个月,团队又推出了全新的开源版本UI-TARS-1.5。



在延续前代基础架构的前提下,UI-TARS-1.5新增强化学习驱动的推理机制,让模型在执行动作前能通过思考过程进行推理,显著提升了性能与推理阶段的扩展性。

在多项标准基准测试中,UI-TARS-1.5相比前代模型实现了显著进步。



在GUI定位任务上,刷新SOTA:



同时,在测试中,团队引入新玩法——让UI-TARS-1.5玩游戏



团队指出,与数学或编程等领域不同,游戏往往要求直觉式、常识性的推理以及策略性的前瞻思考,非常适合作为基准任务。

他们从poki.com挑选14款游戏进行测试,通过标准化评分,UI-TARS-1.5在与OpenAI CUA、Claude 3.7的对决中胜出。



今年9月,UI-TARS-2的发布将智能体能力推向新高度,也为豆包手机助手提供了关键技术支撑。



UI-TARS-2瞄准的是让智能体真正实现图形界面的自主交互。

它进一步解决了前代模型及现有GUI Agent面临的数据可扩展性、多轮强化学习(RL)稳定性、纯GUI操作局限与环境稳定性四大问题。

UI-TARS-2以多轮强化学习为核心,通过四大核心技术实现突破:

首先,团队设计了可扩展的数据飞轮(Data Flywheel),通过“持续预训练-监督微调-拒绝采样-多轮RL”的循环迭代,让模型与训练数据协同进化。高质量轨迹流入监督微调数据集,低质量轨迹补充至持续预训练数据集,形成自增强闭环。



其次,团队设计了在长时序设定中稳定优化的训练框架,凭借有状态异步rollout、流式更新与增强型PPO,解决长周期任务优化难题。



另外,打破纯GUI操作的边界,UI-TARS-2构建了一个混合GUI中心环境(Hybrid GUI-centered Environment)。

通过SDK把文件系统、终端命令以及外部工具都接入进来,让图形界面操作可以和系统级资源打通,不再局限于“模拟鼠标键盘点来点去”。



最后,团队还开发了统一的沙盒平台,以标准化API管理云端VM、浏览器游戏沙盒等异构环境,支撑数百万次交互的大规模训练与评估。



采用532M参数视觉编码器与23B激活参数的MoE LLM架构,UI-TARS-2在多场景表现全面提升。



15款游戏集合的平均标准化得分为59.77,更趋近人类水平,在LMGame-Bench中与OpenAI o3等前沿模型竞争力相当。



综上,几经迭代,UI-TARS研究成果现已成为最受欢迎的开源多模态智能体之一。

在GitHub,该项目也已狂揽8.3k Star



而根据我们了解,豆包手机助手正是在这一成熟技术基础上,进一步针对手机端做了深度定制与优化,最终形成可实际落地的产品形态。

官方回应权限争议,网友拆解工程设计

豆包手机助手技术预览版发布后迅速爆火,同时也难免引发了一些争议性讨论。

比如豆包手机助手的“应用权限”清单中,列举了INJECT_EVENTS系统级权限用于操作手机。于是,有关AI获取高权限是否会造成安全风险的讨论蔓延开来。

针对此关注,官方很快作出回应。

总结而言,用户需要主动授权才能调用该权限使用操作手机功能,而且目前行业的AI助手都要使用类似该权限才能提供操作手机服务。比如现在很多手机可以用语音助手定闹钟,就是通过INJECT_EVENTS权限实现的。

同时,豆包手机助手在遇到敏感授权,如支付、身份验证等,会暂停任务交由人工接管完成操作。

最近,也有网友从工程角度对豆包手机进行了深入拆解与分析。

例如小红书博主@宵逝(27fall 找直博版),他在测试完豆包手机助手后,写了一篇长达2385字的分析。



△图注:引用内容已获本人授权

在隐私方面,@宵逝(27fall 找直博版)实测发现其“视觉管道是Filtered的”。比如你开着B站画中画或是视频通话悬浮窗,让它操作主屏幕,它“看”不到悬浮窗,截屏只包含目标应用界面。

基于此,他推测豆包手机助手“获取的Screenshot并不是读取Display Buffer(物理屏幕输出流),而是基于Activity Hierarchy抓取Targeted Activity,这意味着它在物理层面上就无法监控你的视频通话画面”。

另外,他还观察到,当Agent在后台执行长链任务时,前台打入电话或者切换App,Agent仍在后台持续运行而不会被挂起

这可能意味着豆包手机助手在OS层做了“并行运行”的虚拟化设计:后台有一个独立的Virtual Display(影子屏幕)供Agent执行任务,从而不与用户的前台界面互相干扰。

博主直言,这种OS级魔改,让他很多时候感觉“字节还得是字节”。

此外值得一提的是,在他看来,“最有意思的设计”是豆包手机助手把Agent拆成了标准模式和Pro模式两套技术栈,“这不仅仅是模型大小的区别,而是完全不同的两套Pipeline”。

他注意到标准模式走的是Naive Simulation,主要依赖浅层视觉(VLM),响应极快,prompt小、通过压低IO token获得速度优势。

在测试时缺陷是,在遇到“相册里的截图(包含伪造的搜索按钮)”这种视觉陷阱时,它会傻乎乎地去点击图片里的按钮。

他表示,这是典型的System 1直觉反应(也可能是上下文没传当前系统状态等detail信息)。

Pro模式则走的是Deep Reasoning+Tool Use。在同样的“截图陷阱”测试中,它会明显出现Pause&Think的过程,随后拒绝点击并建议切换浏览器。

博主推测Pro所使用的模型,可能用的是thinking模式下的Agent,亦或是做了更多post-train的升级版,框架上做了上下文工程。

该博主还做了更深入的分析,感兴趣的童鞋可以去原帖冲一波。

综合观察分析下来,他表示“认可它的代码逻辑是安全的:它有隔离、有熔断、有本地化处理”。但也理解大家的质疑,代码是干净的,但掌握代码的人呢?这就是一个技术之外的社会学问题了。

不过,他也表达了自己的态度:

  • 如果它能帮我处理掉80%的琐事,我愿意让渡一部分经过脱敏的、非核心隐私的数据。
  • 比起被无良App偷偷传通讯录,后台悄咪咪利用漏洞查我信息,我更愿意把数据交给一个有着严格RAG机制和系统级隔离的Agent。

有意思的是,一边有人讨论隐私,一边也有人的关注点在于“能帮我打游戏、刷分吗?





笑死,网友前脚刚问,后脚官方就最新发布了基于行业发展主动限制其部分能力的声明

包括限制刷分、刷激励的使用场景以及限制部分游戏类使用场景,也将暂时下线操作银行、互联网支付等金融类APP的能力



“全球第一款真正AI手机”

买到“豆包手机”的网友,真实上手实测后还说了些什么?体验到底咋样?

在华创业者Taylor Ogan拿到了手机后,就在上连发帖子,给出的评价那是相当的高(发出宋丹丹的声音),称其为“又一次DeepSeek时刻,这是全球第一部真正的AI智能手机”。

他发视频展示用英语简单下达一个关于找人帮代排队的任务,只见豆包手机助手自主选定了应用、完成任务相关设置,最后直接给他呈现了一个确认界面。

  • 换作平时,我自己都不知道该怎么操作,而这部手机短短几秒就搞定了。



他还展示了告诉豆包手机助手从其当前所在位置打辆无人车去某公园,只见它会获取其GPS位置,知道哪些无人车运营商覆盖其所在区域和目的地,并完成路线规划,接着打开打车软件逐步点击应用界面,询问其具体要去公园的哪个位置,并根据最近的上车点完成叫车。



有人看他的手机界面,问他“为啥不先把语言设置改成英语”,Taylor Ogan回应“甚至都不需要”。



Hugging Face亚太区生态负责人Tiezhen Wang也转发评价:

  • 它已经证明:手机操作可以成为一种操作系统级的原生能力,这将定义下一代AI原生手机。
  • 很显而易见的一点是,未来出行会变得轻松许多。你可以直接用英语交流,而AI Agent会自动在所有中文App中完成你需要的操作。



另外,老罗在“豆包手机”发布后,也点赞表示“技术革命是谁都拦不住的”,还和网友在评论区观点交锋了一下(虽然这款手机也被发现了罗永浩“锤子手机”代码)……



当然,目前“豆包手机”搭载的豆包手机助手还只是技术预览版,距离成熟产品尚有空间,也远谈不上完美。

官方也在反复强调,软件方面尚无法保证成熟手机产品的功能完善度。



但不可否认的是,它已经展现出下一代手机的可能:手机不再是被动操作的工具,而是能主动理解意图、独立完成任务的伙伴。

从这个意义上说,“全球第一款真正的AI手机”称号,它确实配得上。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
江苏卧床35年女子诞下健康宝宝:患有脊髓性肌萎缩症,从8个月起便常年卧床;分娩风险高,在孩子足月的情况下进行剖宫产

江苏卧床35年女子诞下健康宝宝:患有脊髓性肌萎缩症,从8个月起便常年卧床;分娩风险高,在孩子足月的情况下进行剖宫产

潇湘晨报
2026-03-26 11:49:57
公职人员下班后这5种行为,将严肃处理,千万别踩红线!

公职人员下班后这5种行为,将严肃处理,千万别踩红线!

细说职场
2026-03-26 11:13:03
局地大到暴雨 南方将迎今年首场大范围强对流天气

局地大到暴雨 南方将迎今年首场大范围强对流天气

财联社
2026-03-26 18:35:03
中共中央批准,开除刘慧党籍

中共中央批准,开除刘慧党籍

新京报政事儿
2026-03-26 17:13:05
伊朗越打越顺?卡塔尔向伊朗交60亿“保护费”,特朗普看懵圈了!

伊朗越打越顺?卡塔尔向伊朗交60亿“保护费”,特朗普看懵圈了!

讲者普拉斯
2026-03-26 21:19:51
单场定生死!世预赛欧附加赛半决赛:蓝衣军团救赎,黑马暗掀惊涛

单场定生死!世预赛欧附加赛半决赛:蓝衣军团救赎,黑马暗掀惊涛

侧身凌空斩
2026-03-26 13:04:09
快提醒家里长辈:广州老年人优待卡满两年记得续期!手机就能办

快提醒家里长辈:广州老年人优待卡满两年记得续期!手机就能办

城事特搜
2026-03-26 19:13:51
心源性猝死不是绝症,心脏骤停才要命,张雪峰倒下时没人按压。

心源性猝死不是绝症,心脏骤停才要命,张雪峰倒下时没人按压。

野渡舟山人
2026-03-25 20:17:34
农用无人机载客!大疆:吊销“驾照”

农用无人机载客!大疆:吊销“驾照”

热点科技
2026-03-26 11:30:59
4000吨稀土被转运美国?大陆停供台湾稀土!台学者:不如直接统一

4000吨稀土被转运美国?大陆停供台湾稀土!台学者:不如直接统一

小舟谈历史
2026-03-19 17:27:44
戏都没演明白还当评委,自己都没拿过奖,坐在评审团位置不心虚吗

戏都没演明白还当评委,自己都没拿过奖,坐在评审团位置不心虚吗

娱乐圈笔娱君
2026-03-25 10:46:06
伊朗工业、矿业和贸易部长:全国生产活动不会中断

伊朗工业、矿业和贸易部长:全国生产活动不会中断

财联社
2026-03-26 14:46:09
亚洲首个倒下的国家要出现了?曾叫嚣取代中国,如今却步日本后尘

亚洲首个倒下的国家要出现了?曾叫嚣取代中国,如今却步日本后尘

阿晪美食
2026-03-26 15:02:52
朝鲜战场缴获美军火箭筒,拆解惊觉技术差距改写陆军征程

朝鲜战场缴获美军火箭筒,拆解惊觉技术差距改写陆军征程

唠叨说历史
2026-03-18 13:40:57
广州中考体育考试将于4月8日开考,市招考办发布温馨提示

广州中考体育考试将于4月8日开考,市招考办发布温馨提示

南方都市报
2026-03-26 20:06:42
西班牙称霸100年,美国已称霸80年:500年来霸主都栽在同一件事上

西班牙称霸100年,美国已称霸80年:500年来霸主都栽在同一件事上

鉴史录
2026-03-25 18:20:08
突然崩了!很多人以为手机坏了!官方紧急回应

突然崩了!很多人以为手机坏了!官方紧急回应

蓬勃新闻
2026-03-25 20:00:43
特朗普的大炮一响,伊朗卖给中国的石油,为什么反而比以前更多了?

特朗普的大炮一响,伊朗卖给中国的石油,为什么反而比以前更多了?

爱史纪
2026-03-26 19:30:35
王励勤动真格了!伦敦世乒赛阵容有变,陈梦调整,2人被冷落

王励勤动真格了!伦敦世乒赛阵容有变,陈梦调整,2人被冷落

不似少年游
2026-03-25 17:03:59
22岁陈熠3-0横扫挺进四强:国乒最后一张门票,她已无路可退

22岁陈熠3-0横扫挺进四强:国乒最后一张门票,她已无路可退

罗纳尔说个球
2026-03-26 18:04:03
2026-03-26 22:11:00
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

游戏
房产
教育
时尚
公开课

开冲!PS会员4月离库名单公布:独立神作进入倒计时

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

教育要闻

江苏省教育厅公布全省中小学生竞赛活动名单

上新|| 她们说,找到了自己的人生裙子!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版