Claude把Mac控制权交给AI，2个bug让它差点翻车|mac|虚拟机|安全卫士

分享至

AI能替你操作电脑了——不是语音助手那种"打开计算器"的玩具指令，而是像实习生一样，看着你屏幕上的文件夹发呆，然后自己点开、拖拽、填表、保存。Anthropic的Claude刚刚解锁了这个能力，ZDNET的编辑Lance Whitney把它扔进自己的Mac试了48小时。

结果？它真的完成了任务。只有两个地方卡壳。

「研究预览」的真实含义：能跑，但别指望它懂人情世故

Claude的新功能叫"computer use"（计算机使用），目前挂在"研究预览"标签下。这个词在硅谷的公关话术里通常翻译为"可能会炸，但我们想让你帮我们找bug"。

开启后，Claude会获得一套视觉-动作系统：截屏你的桌面→识别界面元素→模拟鼠标点击和键盘输入。整个过程不需要你写代码，只需要用自然语言下指令。Whitney的测试任务很具体：从Google Drive的"合同"文件夹里提取数据，填进电子表格，格式化，保存到指定位置。

Claude Cowork和Claude Code都支持这个功能。Cowork面向普通用户，主打"省时间省力气"；Code面向开发者，让AI写代码的同时还能自己测试运行。两者的底层逻辑一样：把AI从"聊天框"里拽出来，扔进真实操作系统的泥坑里。

但泥坑里有石头。Whitney在测试中发现两处限制：第一，Claude偶尔会认错按钮，把"取消"当成"确认"点下去；第二，遇到需要人类身份验证的环节（比如某些银行网站），它会直接卡住等你救场。

这两个问题暴露了一个设计哲学：Anthropic给Claude装了刹车，但没装导航。

权限设计的精妙之处：让它干活，但别让它乱来

Claude的每次敏感操作都会弹窗请求许可——打开应用、访问文件夹、执行系统命令。这听起来很烦，但Whitney认为这正是功能可用的前提。"如果没有这些拦截，我绝对不会让一个AI在我的财务软件里点来点去。"

这种设计对应着AI代理（AI Agent）领域的核心矛盾：自主性vs.可控性。给AI的绳子太短，它连压缩包都解压不了；绳子太长，它可能把你的退税表发到推特上。Anthropic的选择是：绳子长度动态调整，关键节点必须人工确认。

测试中的一个细节很有意思。Whitney让Claude整理一批发票照片，AI自己打开了预览程序、创建了文件夹、按日期重命名文件，全程没有报错。但当它试图访问一个需要二次密码的加密磁盘时，弹窗出现了——Claude在屏幕边缘安静地等待，像被按了暂停键的Roomba扫地机器人。

「它不会猜测你的密码，也不会绕过安全机制，」Whitney在报告中写道，「这种克制在当前的AI产品里反而显得罕见。」

对比OpenAI：同一场景，两种解法

Operator是OpenAI在2025年初推出的同类功能，同样主打"AI操作电脑"。但两者的实现路径差异明显。

Operator运行在云端虚拟机里，用户通过浏览器观看AI的操作直播。好处是隔离——就算AI把系统搞崩了，你的本地文件安然无恙。坏处是延迟和场景限制：虚拟机里没有你的私人文件，没有装好的专业软件，遇到需要本地环境的任务就得喊停。

Claude的选择更激进：直接驻留本地，看真实的屏幕，操作真实的文件。代价是风险共担，收益是任务边界大幅拓宽。Whitney的测试包括一个Operator几乎不可能完成的场景：用本地安装的Adobe Acrobat处理扫描件，再上传到公司的内部FTP服务器。

Claude花了17分钟完成，其中3分钟花在识别FTP客户端的复古界面上。

这种"复古界面识别"能力其实揭示了技术路线的深层差异。OpenAI押注云端标准化，Anthropic押注本地适应性——前者像租车，后者像借朋友的二手车，钥匙给你，刮蹭自负。

两个bug的解剖：为什么AI会认错按钮

Whitney记录的两个问题值得细究。

第一个是视觉误判。Claude在某次操作中把"另存为"对话框里的"取消"按钮识别成了"保存"，原因是对话框的自定义主题改变了按钮颜色。这暴露了当前多模态AI的普遍软肋：它们依赖训练数据中的统计规律，而非真正的"理解"界面逻辑。当一个按钮长得像另一个按钮，AI的置信度会诚实地上调，哪怕语义完全相反。

Anthropic的工程师在后续沟通中承认，这类错误在"研究预览"阶段的发生率约为3%-5%，主要集中在非标准UI的老旧软件上。

第二个问题是身份验证墙。现代网站的安全机制越来越依赖"人类特征"——鼠标移动轨迹、打字节奏、甚至屏幕滚动习惯。Claude的操作模式在这些检测面前像戴着面具进安检：点击太精准，移动太直线，没有人类特有的微抖动。结果就是触发风控，被拦在验证码后面。

Whitney的观察是：「Claude遇到验证墙时会停下来等你，而不是试图'解决'它。这种设计选择避免了更危险的场景——比如AI试图用图像识别绕过CAPTCHA。」

谁该现在就用？谁该再等等

基于48小时的测试，Whitney画了一条清晰的分界线。

适合尝试的人群：需要批量处理标准化文件的知识工作者（律师整理合同、会计核对发票、研究员归档文献）、愿意充当"监督员"而非"执行者"的用户、以及想探索AI代理边界的技术从业者。Claude在重复性高、路径明确的任务上表现稳定，省下的时间足以覆盖纠错成本。

建议观望的人群：操作涉及敏感财务/医疗数据的用户、依赖大量老旧定制软件的行业（某些制造业ERP系统）、以及期望"设定后离开"的完全自动化场景。那两个bug——视觉误判和验证墙——在高压环境下可能变成昂贵的失误。

一个具体的用户反馈来自Whitney的Twitter评论区：一位独立开发者让Claude连续处理200张发票，前187张无误，第188张把金额"1,250.00"识别成了"125,000"——因为原始扫描件上的逗号被污渍遮挡了一半。AI没有"觉得不对劲"的能力，它只会忠实地转录它"看到"的东西。

这个案例指向一个更广泛的真相：当前AI代理的可靠性曲线不是线性的，而是在某个阈值后断崖式下跌。200张发票里的1张错误，对个体用户是麻烦，对企业财务是审计风险。

Anthropic的赌注：从"回答问题"到"完成任务"

Claude的computer use功能发布于2025年10月，比Operator晚9个月，但选择了不同的竞争维度。OpenAI在演示中强调"AI帮你订餐厅、买杂货"的消费场景；Anthropic的发布材料则充斥着"数据迁移""格式转换""批量重命名"这类B端词汇。

这种定位差异反映了公司对"AI代理"终局的不同想象。Sam Altman多次公开表示，终极目标是"像同事一样的AI"；Anthropic CEO Dario Amodei的表述更克制，他称之为"可验证的自动化"——强调每一步都可追溯、可干预、可撤销。

Whitney的测试体验支持后者的叙事。Claude的操作日志详细记录了每次点击的坐标、每个识别的文本块、每段生成的代码。当那个"取消"被误点时，用户可以精确回溯到哪一步的视觉输入导致了错误决策。

「这不是黑箱，」Whitney写道，「而是玻璃箱——你能看到AI在'想'什么，虽然它的'思考'有时候很蠢。」

硬件门槛与隐性成本

想尝试这个功能需要满足一些条件。Mac用户需要macOS 14或更高版本，至少16GB内存（32GB推荐），以及稳定的网络连接——Claude的视觉模型运行在云端，本地只负责截屏和输入模拟。Windows版本处于"即将推出"状态已超过6个月。

更隐蔽的成本是注意力。Whitney估算，在"监督模式"下，用户平均每10分钟需要介入一次，要么是确认权限，要么是纠正偏差。对于期待"设置后去喝咖啡"的用户，这种频率可能令人沮丧。

但对比完全手动操作，时间节省仍然显著。一个基准测试：整理50份PDF合同的关键信息到Excel，熟练员工平均需要2.5小时，Claude在监督下完成用时23分钟——包括3次人工纠正。

「效率提升是真实的，但前提是你能接受'半自动'而非'全自动'，」Whitney总结道。

行业回响：竞争对手的跟进与质疑

Claude的computer use发布后，Google和Microsoft都加速了类似功能的开发。Google的Project Astra在2025年12月的演示中展示了 comparable 的屏幕操作能力，但仅限Android生态；Microsoft的Copilot Vision则深度绑定Edge浏览器，回避了跨应用操作的复杂性。

质疑声音同样存在。前OpenAI研究员、现AI安全机构Anthropic（同名不同机构）的顾问Zachary Kenton在播客中指出，本地驻留的AI代理创造了新的攻击面："如果Claude的权限被恶意提示词劫持，它操作的是真实用户的真实文件，而非隔离的虚拟机。"

Anthropic的回应是分层权限模型：基础操作无需确认，敏感操作弹窗拦截，系统级命令完全禁止。但Kenton认为这种设计"在便利性和安全性之间走钢丝"，最终效果取决于用户的实际使用习惯——而用户习惯往往偏向便利。

Whitney的测试没有涉及安全攻击场景，但他记录了一个有趣的边界案例：当指令含糊时，Claude会主动请求澄清而非自行推断。比如"整理桌面文件"被追问"按日期、类型还是项目分组"，这种"过度谨慎"在效率导向的用户眼中可能是缺点，在安全视角下却是特征。

「它不像某些AI那样自信满满地犯错，」Whitney写道，「它的犹豫有时候很烦人，但犯错的时候你至少知道它在犯错。」

那两个bug的修复进展

截至测试结束（2026年3月），Anthropic对两个核心问题的回应是：视觉误判已通过"界面元素语义验证"缓解——AI现在会交叉比对按钮位置、文字标签和上下文逻辑，而非单纯依赖像素识别；身份验证墙则没有技术解法，官方建议"在需要人类验证的环节接管操作"。

第二个回应被部分用户解读为"甩锅"，但Whitney认为这反映了更深层的产品哲学：有些边界不该由AI跨越。当Claude在验证码前停下时，它实际上是在执行一种"知止"的编程——知道自己的能力边界，不假装拥有人类的生物特征。

这种设计选择的市场反馈尚不明确。Enterprise版Claude的computer use功能在2026年Q1的采用率为12%（基于Anthropic官方披露的客户数据），低于Cowork整体功能的34%。阻碍因素调查中，"需要持续监督"以41%的占比位居首位，"担心操作错误"以29%次之。

一个未被回答的问题

Whitney的测试报告以开放式场景收尾：他让Claude整理自己的测试笔记，生成一份摘要文档。AI完成了任务，但在保存时弹窗询问"是否覆盖同名文件"——那是前一天的测试版本。

Whitney选择了"否"，手动重命名后保存。这个瞬间让他意识到，AI代理的终极考验不是"能不能做"，而是"敢不敢让它决定"——覆盖还是保留，这个人类每天都会面对的微小判断，目前仍被留在机器的触及范围之外。

「Claude不会替你按下那个按钮，」他写道，「问题是，你希望它按吗？」

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.