![]()
一个AI代理,无人值守,1小时,从App Store扒信息、装应用、录屏、剪视频、传YouTube。开发者把全流程开源了,MIT协议。
这事发生在上周的Hacker News。项目叫Understudy,作者没留真名,只丢了个GitHub链接。但技术社区的反应很直接:24小时内500+星,评论区开始算"多少测评博主要下岗"。
拆解:六阶段流水线,哪里该人决策、哪里该机器死磕
Understudy的核心设计是把"长链条GUI操作"切成六段:爬取应用商店信息、通过macOS镜像安装到真机、探索性测试、定向检查、媒体采集、合成上传+清理。每段扔进独立的typed child session,防止上下文爆炸——说人话就是,AI不会记混"刚才点到哪了"。
作者特别强调了一个反直觉的点:确定性I/O比智能更重要。Workers层负责设备控制和浏览器操作,必须100%可预期;Skills层才允许AI做探索性决策。这个分层让系统能扛住弹窗、网络抖动、iOS更新提示这类"意外访客"。
另一个工程细节:每一步都从实时截图重新定位(re-ground),而不是依赖坐标记忆。iOS 17.4把某个按钮右移了12像素?不影响,AI会重新认图。作者管这叫"robustness wins here"——鲁棒性才是赢家。
输出端用FFmpeg本地合成带旁白的视频,所有截图、UI dump、日志打包留存。人类审核通过后才发布。整个流程跑在真机上,不是模拟器,所以能抓到实际性能问题和兼容坑。
![]()
对比:为什么之前的GUI agent总崩?
2023年到2024年,GUI agent Demo很多,能跑1小时不挂的很少。常见死法有几种:上下文窗口塞爆导致"失忆"、遇到系统弹窗直接僵住、录屏文件太大把磁盘撑满、或者最后合成的视频音画不同步。
Understudy的解法不算新,但组合得很扎实:session隔离解决失忆,re-grounding解决UI漂移,本地FFmpeg解决云端依赖,artifact bundling让失败可复盘。作者总结的经验是——长GUI agent需要清晰的分离边界,别把"该死磕的"和"该探索的"混在一起。
评论区有人算了笔账:一个中等体量的App测评博主,单条视频从下载到上传平均消耗3-4小时人工。Understudy把纯执行环节压到1小时,且可并行。剩下的只有选题判断和最终审核。
也有人泼冷水。iOS镜像依赖macOS,意味着硬件成本不低;App Store的反爬机制随时可能升级;最致命的是——AI的探索性测试能发现"闪退"和"加载慢",但很难判断"这个交互设计是不是反人类"。
开源之后:谁在用,用来干什么
GitHub仓库的issue区已经有人尝试魔改:有人想接Android调试桥,有人想换成TTS(文本转语音)引擎做多语言版本,还有人问能不能自动回复评论区。作者回复很克制:核心架构稳定,外围欢迎PR。
![]()
一个被忽略的细节:Understudy的旁白脚本是自动生成的,但语气平淡得像Siri念说明书。这意味着,情感化表达仍是人类博主的护城河——至少目前如此。
Hacker News热评第一来自用户@pavlov:「我等了十年这种工具,不是因为我恨测评博主,而是因为我恨自己花20分钟下载一个App,发现它根本不适合我。」这条获得了340+赞。
另一条高赞评论更尖锐:「YouTube的算法推荐的是'能留住观众'的视频,不是'信息密度最高'的视频。AI生成的测评可能更客观,但未必更能打。」
项目主页放了三段process video,展示完整运行记录。没有加速,没有剪辑,1小时原速播放。这种"自证清白"的方式,本身就是对当前AI Demo文化的一种回应。
国内科技圈的关注点略有不同。有人在知乎讨论"能不能自动跑通微信小程序审核",有人想拿来做竞品监控,还有人关心iOS镜像的法律边界——苹果的用户协议是否允许这种自动化操作,目前仍是灰色地带。
作者最后一条更新是3天前:修复了iOS 17.4.1的兼容问题,新增了对App Store搜索建议的抓取。没有路线图,没有融资消息,没有"联系我们"的商务邮箱。
如果这种工具普及,你会更愿意看AI生成的5分钟客观测评,还是人类博主带情绪的20分钟体验视频?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.