网易首页 > 网易号 > 正文 申请入驻

00后大模型实习生「扒光」豆包手机!千字实测揭秘

0
分享至

来源:市场资讯

来源:新智元


新智元报道

编辑:桃子 好困

【新智元导读】爆火的‘豆包手机’,到底藏了什么狠活?一篇热帖,LLM工程师通过黑盒测试和论文推演,扒出了它的技术机密。

一部AI手机,火爆全网。

张嘴一句话,它在短短几秒内,就完成了跨APP自动比价下单、回微信、预约机票、规划旅行路线......


海外创业大佬Taylor Ogan惊呼,‘这简直是另一个DeepSeek时刻!这是世界上第一款真正的智能手机’。


不用多说,它就是最近一机难求的——‘豆包手机’。

B站博主‘六分超超’体验后大感惊艳,赞叹‘是今年令自己印象最深的产品’。


更猛的是,即便是在锁屏的情况下,‘豆包手机’也能在后台丝滑操作。


在‘电丸科技AK’的测试中,‘豆包手机’不仅可以轻松通过B站‘大考’,而且速度奇快——

3秒答完1道题,5分钟100道题!


那么问题来了,到底是什么黑科技让‘豆包手机’,一夜之间火遍了全世界?

正巧,我们在小红书上吃瓜的时候,意外发现了一篇十分有趣的帖子——《我没有逆向‘豆包手机’,但我想说点什么》。


小红书原帖地址:http://xhslink.com/o/93GCQttMFgO

更新版博客地址:https://www.notion.so/GUI-Agent-2c17a860b5e680e3b6e4efece19d1457


一篇爆帖,工程解密‘豆包手机’

这篇帖子的博主‘宵逝’,目前是大模型方向的实习工程师,纯从学术角度聊了聊感受。

他上手测试后,通过黑盒测试和arXiv逻辑推演,从工程学角度给出了比较科学的解释。

一上来,他便戳中了‘豆包手机’的核心:

这不仅仅是一个App,字节是在Android Framework层做了一套OS级的影子系统。


接下来,博主从以下七个方向,给出了自己的洞察。


1. 两套模式:System 1(直觉)vs. System 2(推理)

字节将Agent拆分成两套栈(Stack):一个是标准模式,另一个是Pro模式。

这不仅仅是模型大小的区别,而是两套完全不同的Pipeline,类似于人类认知中的System 1和System 2。


这里,作者在测试中,设下一个‘陷阱’——

选择一张京东首页全屏截图,给豆包下达指令‘点击搜索按钮’。

标准模式(快):Naive Simulation

它主要依赖浅层视觉语言模型(VLM),响应极快,体感延迟小于500ms。

他推测,可能使用了Doubao-1.5-UI-TARS蒸馏版,Prompt简短可通过压缩IO token实现更快效果。

不过,缺陷在于它的典型‘直觉’反应,会傻傻地点击图片中的按钮。

Pro模式(慢且鲁棒):深度推理+工具调用

在同样的测试中,Pro模式明显会有一个‘暂停+思考’的过程——拒绝点击,建议切换浏览器。

他推测,这可能走的是Doubao-1.5-UI-TARS完整版路线,并且做了更多后训练对齐。

同时,也说明Planner进行了介入,且具备了自我反思能力。

并且,只有在Pro模式下,才能观察到复杂的多跳检索和System API的直接调用。

补充信息:据我们最新了解,豆包手机助手使用了UI-TARS 2.0闭源版本,性能大幅优于开源版,且针对手机使用场景进行了专门优化。


2. 混合感知路由(Hybrid Perception Router)

环境噪声的干扰,是当前Agent落地的核心挑战。

XML+Vision动态路由,不管是UI-TARS的标准版还是Pro,是豆包给出的最直接的解法。

在高德/百度地图首页,呈现了多种复杂图标/道路状态情况下,博主要求豆包‘点击深红色最堵路段旁边的施工图标’。

这是一个在OpenGL渲染界面中,执行复杂指令的测试场景。

令人欣喜的是,AI优雅地完成了这个任务。

在这种场景下,安卓的‘无障碍树’往往是空的,或只有一个SurfaceView容器,且不包含任何子节点信息。

这就坐实了,背后视觉路线的存在,因为VLM具备像素级的‘开放词汇定位’的能力。

它真正理解了‘深红色、旁边、施工图标’,包含了颜色语义、空间关系、物体检测复杂信息。

由此,他推测这可能构成‘路由动态’选择:标准UI走XML,非标UI走视觉(截屏但费电)。


3. OS级的虚拟化:并行运行时(Parallel Runtime)

这一点,想必许多上手实操过的网友,都已有深刻的体会——

一边让豆包比价购物,另一边刷视频、接电话照样不误。

Agent可以在后台跑长任务,即便手机切换到别的应用也不会中断。

博主推测,Agent极有可能跑在‘影子屏幕’上,实现了‘输入隔离’:物理屏打电话,逻辑屏在跑Agent。

这种‘双并行宇宙’结构,彻底解决了Agent抢前台,手机卡死的痛点。



4. 启发式工程:提示‘等等’

Agent会在每一操作结束后,无论当前页面渲染多快,都会在系统Prompt中强制引入1000ms~5000ms的固定延迟。

这种设计,类似于Cursor CLI中‘等待轮询’。

从工程学角度看,这种做法是为了对抗APP中常见的异步加载/骨架屏,用时间换取‘成功率’,妥协但有效。


5. 隐私设计的‘物理隔离’:任务层级(Activity Hierarchy)

回到多数人最关切的隐私问题,担心豆包Agent会24小时录屏监控,但博主测试后发现——

视觉管道是过滤的。

若是豆包真的在用VLM分析屏幕,恐怕手机早就烫到不能用了。

他开启了B站画中画模式,然后让Agent操作主屏,中途再截屏,结果发现,AI截到的画面只有主应用的界面,完全没有悬浮窗。

这证明了,它不读物理屏幕输出流,而是基于‘任务层级’针对性抓取。也就是说,从物理层面上,豆包隔离了视频通话、金融APP安全键盘,是一种精心设计的安全功能。

博主认为,豆包手机助手的代码逻辑是安全、可靠的设计,其包含了隔离机制、熔断策略和本地化处理。

代码可以透明,但编写与掌管代码的人呢?这种担忧,可以理解。

但这个问题本真难以彻底解决。在博主看来,如果Agent可以代替自己解决80%日常琐事,是可以交出经脱敏、不涉及核心隐私的数据。


6. 记忆与工具使用:关于MCP协议的猜想

在Pro模式下,数据的调用精准。

工具调用架构

测试中,博主给出一个模糊指令‘验证码有什么数学特征’,Agent没有暴力做OCR全屏,而是Client向Server发起请求,整个系统授权部分,可能形成了一个RAG-MCP。

列表记忆(Sliding Window)

在滚动长列表(List View)时,Agent行为非常像E2E测试框架Playwright: 滚屏→DOM Diff→提取增量信息→拼接。

这种方式,解决了跨屏上下文的问题。


7. 韧性(Resilience)

最后一个测试中,博主让Agent读取Outlook最新邮件,结果失败。

此时,Agent没有报错退出,而是自动降级读取第二封,并尝试提取第一封在列表页的预览信息,然后做出合并汇报。

这说明了,它的规划器关注的是‘任务目标’,而不是规定的操作序列。这种动态规划的能力,才是推理应做的事儿。

博主体验后道出了真实的感受——它让我真切地感受到‘推理’走出了论文。

当看到Agent在Outlook闪退后,自行思考片刻,转而读取邮件列表预览时,那种感觉很奇妙。

它不再是一个机械执行click(x, y) 的简单脚本,而是开始展现出某种韧性。

他表示,对于做研究的人来说,这台手机更像一份来自工业界的SOTA级Demo。它并不完美,但真正跑起来了。

总而言之,‘豆包手机’在速度上做了很多妥协,但从架构角度看,可能是目前移动手机最靠谱的解法。


从博主的这篇分析中,让我们对‘豆包手机’背后工程实现获得了关键一瞥。

当我们再扒开字节开源库,发现‘豆包手机’助手GUI操作能力,已经通过UI-TARS模型的开源版本开放给业界。

开源地址:https://github.com/bytedance/UI-TARS

简单来说,UI-TARS是一个将屏幕视觉理解、逻辑推理、界面元素定位和操作整合在一个模型中。

它能实现搜集信息、处理文档、订票、比价等各种复杂操作,甚至能在游戏中进行思考和行动。

值得一提的是,UI-TARS的更新速度超快,光今年一年就迭代了三次:

  • 2025年1月,第一代UI-TARS;

  • 2025年4月,UI-TARS-1.5;

  • 2025年9月,UI-TARS-2。



GUI Agent觉醒,‘努比豆’重写未来

豆包AI助手,是当前GUI Agent浪潮的典型代表。

GUI Agent代表着AI与人类交互的‘新前沿’,可以让模型看屏如人,操作如手。

在不需要切换API的情况下,可自动化一切GUI软件。

在早期,API和GUI是分化的两派。比如OpenAI Tools提供的API速度快,但不适应动态的UI。

传统的GUI虽可视化强,但对于大模型来说,描述UI信息噪声大,理解成本高,还不稳定。

因此,早期阶段的LLM要么走API路线,要么走GUI路线,难以统一。

而端侧小模型的出现,让GUI可以被结构化理解,再与API融合,就出现了‘统一的智能交互层’。

几个月前,苹果团队曾发布了Ferret-UI Lite,一款GUI Agent小模型,实现了精准的控件定位能力。


论文地址:https://arxiv.org/pdf/2509.26539

真正让GUI Agent走向大众的,还是得益于近两年,多模态原生大模型跃迁式的迭代升级。

诸如Gemini 3、GPT-5.1等顶尖AI模型,都在朝着多模态方向发展。

这意味着,LLM不仅可以看文字,还能看懂图片、视频、UI元素。同时,LLM具备了更长上下文,可以记住跨越多步的任务。

大模型Agent开始用多模态感知界面,再配上RL,可以在GUI、网页等真实环境中,操作游刃有余。

在题为‘Large Language Model-Brained GUI Agents: A Survey’的论文中,团队做了一个直观的GUI Agent流程:

Agent在接收指令后,会在多个应用程序中无缝协作。

它会从文档中提取信息,在Photos中观察内容,在浏览器中总结网页,在Adobe Acrobat读取PDF,并在PPT中创建文件,最后通过Teams发送。


论文地址:https://arxiv.org/pdf/2411.18279

2023年之前,以OpenAI WebGPT为代表。从2023年之后,类似的GUI Agent全面爆发。

这一年最具代表性,当属OpenAI Operator和字节UI-TARS。


真正高阶的基操,是把Agent深入嵌入OS系统级的能力。

‘豆包手机’便可以照见行业脉络,让Agent从可操作界面,迈向了深度的系统集成。

这种OS级的植入,必须处理巨大的隐私、安全、权限问题,这是系统级GUI Agent向前迈进不可避免的阵痛。

字节虽未明确具体工程细节,从博主‘叠甲’分析中,可以得知他们采用了‘任务级过滤’(Activity-level Filtering)机制。

也就是说,系统会把每一次Agent行为抽象成一个‘任务’,进行逐一过滤。

因此,Agent截图才不会截到‘画中画’浮窗。本质上,这就像是OS级的权限中间层。


Hugging Face亚太生态负责人Tiezhen Wang点评,它证明了手机使用可以成为OS级原生能力,并将定义下一代AI手机

‘豆包手机’的出现,证明了OS级可行性,真正定义了AI原生手机的形态。

昔日针锋相对的宿敌,老罗和王自如在‘豆包手机’上,立场罕见地一致。


不得不说,在GUI Agent时代,‘豆包手机’才是划时代的标志。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
小伙娶48岁大妈,新婚第二天大妈赖床不起,小伙掀开被子愣住了

小伙娶48岁大妈,新婚第二天大妈赖床不起,小伙掀开被子愣住了

一根香烟的少妇
2026-02-23 15:00:03
特朗普“首次承认被黑吃黑”,被点名的库尔德火速否认三连

特朗普“首次承认被黑吃黑”,被点名的库尔德火速否认三连

观察者网
2026-04-07 14:42:00
巴基斯坦斡旋美伊谈判持续进行 未来数小时“至关重要”

巴基斯坦斡旋美伊谈判持续进行 未来数小时“至关重要”

财联社
2026-04-07 23:16:26
上海一公园内女子爬树拍照,20年树龄樱花树被连根压倒!经多部门联合查找约谈,当事人承认错误并愿赔偿

上海一公园内女子爬树拍照,20年树龄樱花树被连根压倒!经多部门联合查找约谈,当事人承认错误并愿赔偿

扬子晚报
2026-04-07 21:05:56
特朗普消失?连续三天未露面引全球猜测,病危还是兵变?真相成谜

特朗普消失?连续三天未露面引全球猜测,病危还是兵变?真相成谜

兴史兴谈
2026-04-07 07:25:46
张伦硕自曝最受不了钟丽缇一点:她那方面太厉害!女人看后都无语

张伦硕自曝最受不了钟丽缇一点:她那方面太厉害!女人看后都无语

百言君
2026-04-06 23:11:58
谋求首轮复出!曝东契奇已在西班牙接受干细胞治疗,医学界炸了

谋求首轮复出!曝东契奇已在西班牙接受干细胞治疗,医学界炸了

阿废冷眼观察所
2026-04-07 16:32:39
韩抢购中方气显短视,日政客跳脚成丑角

韩抢购中方气显短视,日政客跳脚成丑角

烽火瞭望者
2026-04-08 06:43:24
伊朗发现重大惊喜,打向以色列的导弹,竟然一颗都没被拦截

伊朗发现重大惊喜,打向以色列的导弹,竟然一颗都没被拦截

辉辉历史记
2026-04-08 05:13:38
蔚来ES9内饰发布:有点意思,也有点“作”

蔚来ES9内饰发布:有点意思,也有点“作”

优视汽车
2026-04-07 11:56:08
“千古奇冤”阿隆索!皇马换帅后战绩直线下滑,根源直指管理层!

“千古奇冤”阿隆索!皇马换帅后战绩直线下滑,根源直指管理层!

田先生篮球
2026-04-07 11:22:53
罗马尼亚名帅卢切斯库因心肌梗塞离世,享年80岁

罗马尼亚名帅卢切斯库因心肌梗塞离世,享年80岁

五星体育
2026-04-08 06:31:06
德媒文章:世界或将爆发“能源生态冷战”

德媒文章:世界或将爆发“能源生态冷战”

参考消息
2026-04-07 14:44:55
清明节,儿子写烧给母亲的祭文,看哭了14亿中国人!

清明节,儿子写烧给母亲的祭文,看哭了14亿中国人!

每日一首古诗词
2026-04-05 06:07:07
当年为什么查办褚时健?

当年为什么查办褚时健?

百晓生谈历史
2025-08-20 21:55:53
“生娃率”持续走低,厦门教授给出建议:不生孩子就下调养老金

“生娃率”持续走低,厦门教授给出建议:不生孩子就下调养老金

大果小果妈妈
2026-04-02 13:16:39
苹果官网突然上架新品:4月9日,正式开卖!

苹果官网突然上架新品:4月9日,正式开卖!

搞机小帝
2026-04-07 22:48:31
“所有品类都要涨,最高可能30%!”多个品牌店员透露:最好4月中旬前买

“所有品类都要涨,最高可能30%!”多个品牌店员透露:最好4月中旬前买

新浪财经
2026-04-05 10:51:13
台湾地区前领导人马英九:我不希望台湾成为第二个香港!

台湾地区前领导人马英九:我不希望台湾成为第二个香港!

共工之锚
2026-04-06 19:29:37
43岁男子和富婆车震后,富婆还想要更多,2016年他将51岁富婆杀死

43岁男子和富婆车震后,富婆还想要更多,2016年他将51岁富婆杀死

汉史趣闻
2026-04-06 19:17:12
2026-04-08 08:51:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2783332文章数 6485关注度
往期回顾 全部

科技要闻

造出地表最强AI,却死活不给你用!

头条要闻

郑丽文表态:感谢大陆热情接待 国民党坚持"九二共识"

头条要闻

郑丽文表态:感谢大陆热情接待 国民党坚持"九二共识"

体育要闻

科特迪瓦中场卡迪尔-凯塔被控过失杀人罪,面临九年以上监禁

娱乐要闻

女首富陈丽华离世 被曝生前已分好遗产

财经要闻

特朗普同意停火两周 伊朗:接受停火提议

汽车要闻

不止是大 极狐首款MPV问道V9静态体验

态度原创

艺术
健康
手机
房产
公开课

艺术要闻

郑丽文书法争议:她的字真的不是自己写的吗?

干细胞抗衰4大误区,90%的人都中招

手机要闻

古尔曼:苹果可折叠iPhone Fold仍按计划于9月推出

房产要闻

重磅!三亚拟出安居房新政!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版