「我们想知道,当感知和行动真正融为一体时,日常任务会变成什么样。」科罗拉多大学的研究团队在论文里这样写道。他们不是在做概念验证,而是在测试一个更激进的假设:如果AI能持续"看见"你所见,任务效率的瓶颈到底在哪里?
一个被忽视的断层
![]()
智能眼镜和AI代理(Agent,指能自主执行任务的AI系统)各自发展了多年,却始终隔着一道墙。
一边,Ray-Ban Meta这类眼镜能拍照、录像、语音交互,但"看见"之后呢?最多帮你发个社交媒体,或者回答几个简单问题。它感知世界,却难以行动。
另一边,OpenClaw、Operator这类AI代理能订机票、写邮件、查资料,但它们活在屏幕里,对你的物理环境一无所知。你手里攥着一张纸质收据,它帮不上忙;你面前摆着一台需要调试的设备,它只能干瞪眼。
研究团队把这个断层称为"数字与现实的鸿沟"。VisionClaw就是试图填平这道沟的实验——把持续的第一人称感知,和自主的数字任务执行,硬塞进同一个系统。
具体架构并不复杂:无屏幕的Ray-Ban Meta眼镜,通过定制手机应用,同时连接Gemini Live(谷歌的多模态对话模型)和OpenClaw。眼镜持续向Gemini输送音频和视频帧,Gemini要么直接语音回复,要么触发OpenClaw调用浏览器、邮件、日历、搜索等工具,再把结果喂回语言模型。
关键是"持续"二字。不是等你按下快门,不是等你喊一声"嘿Meta",而是一直开着,一直看着,一直等着被需要。
实验室里的13%-37%
第一项研究是控制实验。12名参与者,三种系统,四项任务。
对照组A:纯感知版Ray-Ban Meta——能看,不能动手做事。对照组B:手机版OpenClaw——能做事,但对你的周围环境一无所知。实验组:VisionClaw,感知+行动一体化。
任务设计很接地气:从纸质文件里提取信息写笔记、对着实物查资料发邮件、研究产品、控制设备。全是成年人周末会遇到的琐事。
结果量化得干脆。VisionClaw完成任务的速度比对照组快13%到37%,具体取决于任务类型。用户主观评分更夸张:心理负担降低7%到46%,时间压力、挫败感同步下降。
但数据里埋着一个刺。笔记提取任务的成功率,VisionClaw掉到了58%——眼镜摄像头在收据、小字体、复杂光照面前栽了跟头。研究团队坦诚写进论文:硬件感知能力的硬边界,目前还没法用软件架构弥补。
这个失败比成功更值得注意。它说明"始终在线"不是万能药,某些场景下,主动拍照+确认的传统交互反而更可靠。效率提升的代价,是特定场景下的容错率下降。
55天的真实生活
实验室之外,四位研究者把VisionClaw戴进了日常生活。55个活跃使用日,没有脚本,没有任务清单,纯粹观察这种交互形态在自然环境中如何生长。
日志记录的使用模式,比控制实验更能说明问题。
第一类是"环境触发式"——用户在做别的事,AI从背景对话或视觉线索里捕捉到需求。比如两人聊天提到周末计划,系统自动查天气、搜餐厅、发邀请。这类交互的核心价值是"不中断":你不需要切换上下文,不需要掏出手机,念头和现实之间的摩擦被压缩。
第二类是"物体锚定式"——对着实体物品发起任务。冰箱上的便利贴、桌上的账单、包装盒上的说明书,变成数字任务的起点。研究团队注意到一个反复出现的场景:用户把纸质文档举到面前,直接说"把这个加到日历里"或"给这个人发邮件跟进"。
第三类最微妙,是"时间切片式"——AI在后台持续记录,用户在事后调取。比如一场会议结束后,让系统总结刚才讨论的行动项。这种模式下,眼镜变成了外置记忆体,但引发了研究团队没有预设的问题:当AI持续"看见",哪些记录是临时的,哪些该被保留,边界由谁划定?
日志里还出现了大量"失败的使用"。有人试图在嘈杂餐厅里让系统发邮件,语音识别准确率暴跌;有人在昏暗光线下展示手机屏幕,摄像头完全抓不到内容;更常见的是"误触发"——系统从背景对话里听错了意图,执行了错误的任务。
这些失败没有被过滤掉,反而成为论文的重要部分。研究团队想证明的不是VisionClaw多好用,而是"始终在线的代理AI"这个品类,在真实环境里会撞上哪些墙。
效率背后的设计博弈
把两项研究并置,能看出一个核心张力:效率提升来自上下文消除,但上下文消除需要信任,而信任需要控制感。
传统交互是"请求-响应"的循环。你意识到需求,选择工具,执行动作,验证结果。每一步都有明确的控制点,但代价是认知负荷——你得记得要做什么,记得哪个工具能做什么,记得切换到正确的应用。
VisionClaw压缩了这个循环。感知层持续运行,意图识别被动触发,任务执行自动完成。实验室数据显示,这种压缩确实省时间、降负担。但55天的田野笔记显示,压缩过度会触发反弹:用户会在某些场景下主动"降级"到传统交互,只为了确认系统真的理解了自己。
研究团队记录了一个典型行为:即使VisionClaw已经自动执行了任务,用户还是会掏出手机检查邮件是否真的发出去了。效率收益被验证行为部分抵消,但这种验证是用户维持控制感的必要成本。
另一个设计博弈是"主动性"的刻度。Gemini Live在架构里扮演调度者的角色,决定什么时候直接回复,什么时候调用OpenClaw。这个决策点极其微妙:太保守,系统变成语音助手plus,浪费感知能力;太激进,用户会被源源不断的"我觉得你需要这个"淹没。
论文里没有给出最优解,只呈现了当前的粗糙平衡。四位研究者的个人偏好差异很大:有人把主动性调得很高,让系统频繁介入;有人倾向于手动触发,只把持续感知当作备用输入源。这种分化本身说明,"始终在线"可能不是单一产品形态,而是一组需要个性化校准的交互参数。
硬件的隐形天花板
Ray-Ban Meta作为载体,既成就了VisionClaw的可行性,也划定了它的边界。
摄像头是明显的瓶颈。论文里58%的笔记提取成功率,根源是眼镜相机的固定焦距、低动态范围、弱光表现。这些不是算法能解决的问题——当物理世界的信息根本没被光学系统捕获,后续所有AI处理都是无米之炊。
更隐蔽的限制是算力分配。眼镜端只能做轻量预处理,真正的多模态理解发生在云端。这意味着"始终在线"实际上是"始终联网",延迟和隐私风险被内置在架构里。研究团队在讨论部分承认,本地化的感知-理解-执行闭环,是下一代硬件需要攻克的方向。
电池和散热则是日常使用的摩擦源。55天日志里多次出现"摘下来充电"的中断记录。持续视频流+音频处理的功耗,让眼镜的实际续航撑不满一个完整工作日。这不是VisionClaw独有的问题,而是整个"始终在线"品类的结构性约束。
这些硬件限制反过来塑造了软件设计。比如,系统被迫采用"关键帧抽取"而非全量视频流,以降低带宽和计算压力。这种妥协影响了AI对动态场景的理解能力——你能问"这张纸上写了什么",但很难问"刚才那个人做了什么手势"。
从工具到环境
研究团队在最后提出了一个未被充分讨论的转向:当AI代理具备持续感知能力,它的角色可能从"被调用的工具"滑向"环绕的环境"。
这个区分关乎产品哲学的根本。工具是用户主动抓取的,有明确的起止边界;环境是始终在场的,用户在其中活动,而非与之互动。智能手机是工具,智能眼镜正在试探环境的形态。
VisionClaw的实验设计,本质上是在测试用户对这种滑动的容忍度。数据显示,效率收益是真实的;田野笔记显示,心理适应是缓慢的。有研究者在使用两周后仍然会在独处时摘下眼镜,"只是需要确认没有东西在看我"。
这种不适感不是技术问题,而是关系问题。人类对"被注视"的敏感是进化遗产,而"始终在线的AI"正在制造一种新型的、不对称的注视关系——它永远看着你,你只能在事后追问它看到了什么。
论文没有解决这个张力,只是把它标记为开放问题。但产品层面的暗示很清楚:下一代系统需要更精细的"可见性控制",让用户能感知到AI的注意力状态,并能随时中断或召回。
数据收束:13%、37%、58%、55
回到数字。13%到37%的任务提速,是感知-行动一体化在实验室条件下的效率证明。58%的特定场景成功率,是硬件感知能力的当下边界。55天的真实使用,是这种交互形态从概念到日常的距离度量。
这些数字不构成简单的乐观或悲观。它们勾勒的是一个正在成形的品类:始终在线的代理AI,有明确的用户价值(省时间、降负担),有清晰的工程路径(多模态模型+工具调用+轻量化硬件),也有未解的设计难题(主动性校准、信任建立、隐私边界)。
研究团队把VisionClaw开源了。这不是终点,而是一个邀请——让更多人戴上这种眼镜,在更多场景里撞墙,积累更多关于"AI如何嵌入日常生活"的具体知识。
最终判断:VisionClaw实验的真正价值,不在于证明了"始终在线的AI更快",而在于量化了"快多少"和"在什么条件下不快"。这种精确的自我限定,比夸大其词的愿景声明更接近产品化的真相。智能眼镜的下一个迭代,需要的不是更强的AI,而是更诚实的失败记录——知道58%在哪里跌倒,才能设计出让用户愿意每天戴满8小时的系统。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.