网易首页 > 网易号 > 正文 申请入驻

Claude把Mac控制权交给AI,2个bug让它差点翻车

0
分享至


AI能替你操作电脑了——不是语音助手那种"打开计算器"的玩具指令,而是像实习生一样,看着你屏幕上的文件夹发呆,然后自己点开、拖拽、填表、保存。Anthropic的Claude刚刚解锁了这个能力,ZDNET的编辑Lance Whitney把它扔进自己的Mac试了48小时。

结果?它真的完成了任务。只有两个地方卡壳。

「研究预览」的真实含义:能跑,但别指望它懂人情世故

Claude的新功能叫"computer use"(计算机使用),目前挂在"研究预览"标签下。这个词在硅谷的公关话术里通常翻译为"可能会炸,但我们想让你帮我们找bug"。

开启后,Claude会获得一套视觉-动作系统:截屏你的桌面→识别界面元素→模拟鼠标点击和键盘输入。整个过程不需要你写代码,只需要用自然语言下指令。Whitney的测试任务很具体:从Google Drive的"合同"文件夹里提取数据,填进电子表格,格式化,保存到指定位置。

Claude Cowork和Claude Code都支持这个功能。Cowork面向普通用户,主打"省时间省力气";Code面向开发者,让AI写代码的同时还能自己测试运行。两者的底层逻辑一样:把AI从"聊天框"里拽出来,扔进真实操作系统的泥坑里。

但泥坑里有石头。Whitney在测试中发现两处限制:第一,Claude偶尔会认错按钮,把"取消"当成"确认"点下去;第二,遇到需要人类身份验证的环节(比如某些银行网站),它会直接卡住等你救场。

这两个问题暴露了一个设计哲学:Anthropic给Claude装了刹车,但没装导航。

权限设计的精妙之处:让它干活,但别让它乱来

Claude的每次敏感操作都会弹窗请求许可——打开应用、访问文件夹、执行系统命令。这听起来很烦,但Whitney认为这正是功能可用的前提。"如果没有这些拦截,我绝对不会让一个AI在我的财务软件里点来点去。"

这种设计对应着AI代理(AI Agent)领域的核心矛盾:自主性vs.可控性。给AI的绳子太短,它连压缩包都解压不了;绳子太长,它可能把你的退税表发到推特上。Anthropic的选择是:绳子长度动态调整,关键节点必须人工确认。

测试中的一个细节很有意思。Whitney让Claude整理一批发票照片,AI自己打开了预览程序、创建了文件夹、按日期重命名文件,全程没有报错。但当它试图访问一个需要二次密码的加密磁盘时,弹窗出现了——Claude在屏幕边缘安静地等待,像被按了暂停键的Roomba扫地机器人。

「它不会猜测你的密码,也不会绕过安全机制,」Whitney在报告中写道,「这种克制在当前的AI产品里反而显得罕见。」

对比OpenAI:同一场景,两种解法

Operator是OpenAI在2025年初推出的同类功能,同样主打"AI操作电脑"。但两者的实现路径差异明显。

Operator运行在云端虚拟机里,用户通过浏览器观看AI的操作直播。好处是隔离——就算AI把系统搞崩了,你的本地文件安然无恙。坏处是延迟和场景限制:虚拟机里没有你的私人文件,没有装好的专业软件,遇到需要本地环境的任务就得喊停。

Claude的选择更激进:直接驻留本地,看真实的屏幕,操作真实的文件。代价是风险共担,收益是任务边界大幅拓宽。Whitney的测试包括一个Operator几乎不可能完成的场景:用本地安装的Adobe Acrobat处理扫描件,再上传到公司的内部FTP服务器。

Claude花了17分钟完成,其中3分钟花在识别FTP客户端的复古界面上。


这种"复古界面识别"能力其实揭示了技术路线的深层差异。OpenAI押注云端标准化,Anthropic押注本地适应性——前者像租车,后者像借朋友的二手车,钥匙给你,刮蹭自负。

两个bug的解剖:为什么AI会认错按钮

Whitney记录的两个问题值得细究。

第一个是视觉误判。Claude在某次操作中把"另存为"对话框里的"取消"按钮识别成了"保存",原因是对话框的自定义主题改变了按钮颜色。这暴露了当前多模态AI的普遍软肋:它们依赖训练数据中的统计规律,而非真正的"理解"界面逻辑。当一个按钮长得像另一个按钮,AI的置信度会诚实地上调,哪怕语义完全相反。

Anthropic的工程师在后续沟通中承认,这类错误在"研究预览"阶段的发生率约为3%-5%,主要集中在非标准UI的老旧软件上。

第二个问题是身份验证墙。现代网站的安全机制越来越依赖"人类特征"——鼠标移动轨迹、打字节奏、甚至屏幕滚动习惯。Claude的操作模式在这些检测面前像戴着面具进安检:点击太精准,移动太直线,没有人类特有的微抖动。结果就是触发风控,被拦在验证码后面。

Whitney的观察是:「Claude遇到验证墙时会停下来等你,而不是试图'解决'它。这种设计选择避免了更危险的场景——比如AI试图用图像识别绕过CAPTCHA。」

谁该现在就用?谁该再等等

基于48小时的测试,Whitney画了一条清晰的分界线。

适合尝试的人群:需要批量处理标准化文件的知识工作者(律师整理合同、会计核对发票、研究员归档文献)、愿意充当"监督员"而非"执行者"的用户、以及想探索AI代理边界的技术从业者。Claude在重复性高、路径明确的任务上表现稳定,省下的时间足以覆盖纠错成本。

建议观望的人群:操作涉及敏感财务/医疗数据的用户、依赖大量老旧定制软件的行业(某些制造业ERP系统)、以及期望"设定后离开"的完全自动化场景。那两个bug——视觉误判和验证墙——在高压环境下可能变成昂贵的失误。

一个具体的用户反馈来自Whitney的Twitter评论区:一位独立开发者让Claude连续处理200张发票,前187张无误,第188张把金额"1,250.00"识别成了"125,000"——因为原始扫描件上的逗号被污渍遮挡了一半。AI没有"觉得不对劲"的能力,它只会忠实地转录它"看到"的东西。

这个案例指向一个更广泛的真相:当前AI代理的可靠性曲线不是线性的,而是在某个阈值后断崖式下跌。200张发票里的1张错误,对个体用户是麻烦,对企业财务是审计风险。

Anthropic的赌注:从"回答问题"到"完成任务"

Claude的computer use功能发布于2025年10月,比Operator晚9个月,但选择了不同的竞争维度。OpenAI在演示中强调"AI帮你订餐厅、买杂货"的消费场景;Anthropic的发布材料则充斥着"数据迁移""格式转换""批量重命名"这类B端词汇。

这种定位差异反映了公司对"AI代理"终局的不同想象。Sam Altman多次公开表示,终极目标是"像同事一样的AI";Anthropic CEO Dario Amodei的表述更克制,他称之为"可验证的自动化"——强调每一步都可追溯、可干预、可撤销。

Whitney的测试体验支持后者的叙事。Claude的操作日志详细记录了每次点击的坐标、每个识别的文本块、每段生成的代码。当那个"取消"被误点时,用户可以精确回溯到哪一步的视觉输入导致了错误决策。

「这不是黑箱,」Whitney写道,「而是玻璃箱——你能看到AI在'想'什么,虽然它的'思考'有时候很蠢。」


硬件门槛与隐性成本

想尝试这个功能需要满足一些条件。Mac用户需要macOS 14或更高版本,至少16GB内存(32GB推荐),以及稳定的网络连接——Claude的视觉模型运行在云端,本地只负责截屏和输入模拟。Windows版本处于"即将推出"状态已超过6个月。

更隐蔽的成本是注意力。Whitney估算,在"监督模式"下,用户平均每10分钟需要介入一次,要么是确认权限,要么是纠正偏差。对于期待"设置后去喝咖啡"的用户,这种频率可能令人沮丧。

但对比完全手动操作,时间节省仍然显著。一个基准测试:整理50份PDF合同的关键信息到Excel,熟练员工平均需要2.5小时,Claude在监督下完成用时23分钟——包括3次人工纠正。

「效率提升是真实的,但前提是你能接受'半自动'而非'全自动',」Whitney总结道。

行业回响:竞争对手的跟进与质疑

Claude的computer use发布后,Google和Microsoft都加速了类似功能的开发。Google的Project Astra在2025年12月的演示中展示了 comparable 的屏幕操作能力,但仅限Android生态;Microsoft的Copilot Vision则深度绑定Edge浏览器,回避了跨应用操作的复杂性。

质疑声音同样存在。前OpenAI研究员、现AI安全机构Anthropic(同名不同机构)的顾问Zachary Kenton在播客中指出,本地驻留的AI代理创造了新的攻击面:"如果Claude的权限被恶意提示词劫持,它操作的是真实用户的真实文件,而非隔离的虚拟机。"

Anthropic的回应是分层权限模型:基础操作无需确认,敏感操作弹窗拦截,系统级命令完全禁止。但Kenton认为这种设计"在便利性和安全性之间走钢丝",最终效果取决于用户的实际使用习惯——而用户习惯往往偏向便利。

Whitney的测试没有涉及安全攻击场景,但他记录了一个有趣的边界案例:当指令含糊时,Claude会主动请求澄清而非自行推断。比如"整理桌面文件"被追问"按日期、类型还是项目分组",这种"过度谨慎"在效率导向的用户眼中可能是缺点,在安全视角下却是特征。

「它不像某些AI那样自信满满地犯错,」Whitney写道,「它的犹豫有时候很烦人,但犯错的时候你至少知道它在犯错。」

那两个bug的修复进展

截至测试结束(2026年3月),Anthropic对两个核心问题的回应是:视觉误判已通过"界面元素语义验证"缓解——AI现在会交叉比对按钮位置、文字标签和上下文逻辑,而非单纯依赖像素识别;身份验证墙则没有技术解法,官方建议"在需要人类验证的环节接管操作"。

第二个回应被部分用户解读为"甩锅",但Whitney认为这反映了更深层的产品哲学:有些边界不该由AI跨越。当Claude在验证码前停下时,它实际上是在执行一种"知止"的编程——知道自己的能力边界,不假装拥有人类的生物特征。

这种设计选择的市场反馈尚不明确。Enterprise版Claude的computer use功能在2026年Q1的采用率为12%(基于Anthropic官方披露的客户数据),低于Cowork整体功能的34%。阻碍因素调查中,"需要持续监督"以41%的占比位居首位,"担心操作错误"以29%次之。

一个未被回答的问题

Whitney的测试报告以开放式场景收尾:他让Claude整理自己的测试笔记,生成一份摘要文档。AI完成了任务,但在保存时弹窗询问"是否覆盖同名文件"——那是前一天的测试版本。

Whitney选择了"否",手动重命名后保存。这个瞬间让他意识到,AI代理的终极考验不是"能不能做",而是"敢不敢让它决定"——覆盖还是保留,这个人类每天都会面对的微小判断,目前仍被留在机器的触及范围之外。

「Claude不会替你按下那个按钮,」他写道,「问题是,你希望它按吗?」

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
阿隆索要求利物浦签下两名球员,代替斯洛特基本敲定

阿隆索要求利物浦签下两名球员,代替斯洛特基本敲定

刘哥谈体育
2026-03-28 11:01:10
邵佳一明确U23定位:23岁已是当打之年,中国足球需破除年龄误区

邵佳一明确U23定位:23岁已是当打之年,中国足球需破除年龄误区

田先生篮球
2026-03-27 06:57:05
无耻!伊朗把征兵年龄降到12岁了

无耻!伊朗把征兵年龄降到12岁了

老马拉车莫少装
2026-03-27 15:27:16
明天起全国高速将大变动!车主们都说:终于等到了!

明天起全国高速将大变动!车主们都说:终于等到了!

苗苗情感说
2026-03-28 00:14:58
14助+75%胜率!哈登在骑士真的太狠了!

14助+75%胜率!哈登在骑士真的太狠了!

柚子说球
2026-03-28 10:51:56
连续两个月从中国进口镓锗为零后,日本宣布无人机要做世界第一

连续两个月从中国进口镓锗为零后,日本宣布无人机要做世界第一

小小科普员
2026-03-26 19:07:58
她是两百年难遇的美人,靠美貌“征服”无数男人,如今49岁仍未婚

她是两百年难遇的美人,靠美貌“征服”无数男人,如今49岁仍未婚

林雁飞
2026-03-22 14:47:54
纪实:浙江幼师幼儿园潜伏22年,警察曝光真实身份,家长很后怕

纪实:浙江幼师幼儿园潜伏22年,警察曝光真实身份,家长很后怕

谈史论天地
2026-03-01 09:49:38
普通人一生的存款标准

普通人一生的存款标准

捣蛋窝
2026-03-21 11:14:00
蔡正元获刑3年2个月,国台办:早已看透其悲情戏

蔡正元获刑3年2个月,国台办:早已看透其悲情戏

陌冷紫a
2026-03-27 06:16:02
保姆偷拿了家里2瓶茅台去卖,我没揭穿只辞退了她,临走时她指了指旧皮鞋,我一看瞬间瘫坐在地

保姆偷拿了家里2瓶茅台去卖,我没揭穿只辞退了她,临走时她指了指旧皮鞋,我一看瞬间瘫坐在地

今夜有个好故事
2026-03-11 17:26:56
10万亿?中国,或将成为全球,乃至人类历史上,第一个"电力王国"

10万亿?中国,或将成为全球,乃至人类历史上,第一个"电力王国"

小兰聊历史
2026-03-22 06:19:06
利物浦换帅定了!世界名帅亲口愿接盘,斯洛特彻底凉了

利物浦换帅定了!世界名帅亲口愿接盘,斯洛特彻底凉了

澜归序
2026-03-28 04:09:48
从18岁开始男人不断,半百了还没玩够,如今却活成了人生赢家!

从18岁开始男人不断,半百了还没玩够,如今却活成了人生赢家!

秋别离
2026-03-27 02:39:58
越扒越猛!释永信在少林寺有多爽,你根本想不到!终于落到这下场

越扒越猛!释永信在少林寺有多爽,你根本想不到!终于落到这下场

宝哥精彩赛事
2026-03-28 10:02:05
恭喜!这3生肖下月起解锁“财富密码”,横财送上门,日子顺遂!

恭喜!这3生肖下月起解锁“财富密码”,横财送上门,日子顺遂!

毅谈生肖
2026-03-28 11:43:27
342亿元投向粤北!这条衔接粤湘两省的新高速来了

342亿元投向粤北!这条衔接粤湘两省的新高速来了

广东建设报围城
2026-03-27 12:05:47
比亚迪营收破8000亿元,奇瑞、零跑成黑马!2025年最赚钱的车企是谁?

比亚迪营收破8000亿元,奇瑞、零跑成黑马!2025年最赚钱的车企是谁?

时代周报
2026-03-27 23:37:06
森海塞尔甩卖耳机业务:79年老厂急寻买家,亚马逊清仓价被抢空

森海塞尔甩卖耳机业务:79年老厂急寻买家,亚马逊清仓价被抢空

全栈遛狗员
2026-03-25 17:33:34
对手主教练亲自上场!樊振东3-0“欺负”52岁孟庆宇 赛后表达歉意

对手主教练亲自上场!樊振东3-0“欺负”52岁孟庆宇 赛后表达歉意

风过乡
2026-03-28 08:52:50
2026-03-28 12:16:49
摸鱼算法
摸鱼算法
致力于用最前沿的AI技术,换取更多发呆时间的三十岁青年。
318文章数 0关注度
往期回顾 全部

科技要闻

遭中国学界"拉黑"后,这家AI顶会低头道歉

头条要闻

媒体:"霍尔木兹决战"摊牌了 美给伊朗开出"投降"条件

头条要闻

媒体:"霍尔木兹决战"摊牌了 美给伊朗开出"投降"条件

体育要闻

“我是全家最差劲的运动员”

娱乐要闻

王一博改名上热搜!个人时代正式开启!

财经要闻

我在小吃培训机构学习“科技与狠活”

汽车要闻

置换补贴价4.28万起 第五代宏光MINIEV正式上市

态度原创

教育
本地
亲子
健康
军事航空

教育要闻

严禁教师歧视学生,对学生实施体罚或者侮辱人格尊严的行为

本地新闻

在潍坊待了三天,没遇到一个“潍坊人”

亲子要闻

爸爸跟宝宝一起玩“音乐树积木”,宝宝吓得一激灵:我是谁?我在哪?

干细胞抗衰4大误区,90%的人都中招

军事要闻

伊朗:已组织超100万人为地面战斗做准备

无障碍浏览 进入关怀版