网易首页 > 网易号 > 正文 申请入驻

四副眼镜的55天:当AI开始"看见"你的生活

0
分享至

「我们想知道,当感知和行动真正融为一体时,日常任务会变成什么样。」科罗拉多大学的研究团队在论文里这样写道。他们不是在做概念验证,而是在测试一个更激进的假设:如果AI能持续"看见"你所见,任务效率的瓶颈到底在哪里?

一个被忽视的断层


智能眼镜和AI代理(Agent,指能自主执行任务的AI系统)各自发展了多年,却始终隔着一道墙。

一边,Ray-Ban Meta这类眼镜能拍照、录像、语音交互,但"看见"之后呢?最多帮你发个社交媒体,或者回答几个简单问题。它感知世界,却难以行动。

另一边,OpenClaw、Operator这类AI代理能订机票、写邮件、查资料,但它们活在屏幕里,对你的物理环境一无所知。你手里攥着一张纸质收据,它帮不上忙;你面前摆着一台需要调试的设备,它只能干瞪眼。

研究团队把这个断层称为"数字与现实的鸿沟"。VisionClaw就是试图填平这道沟的实验——把持续的第一人称感知,和自主的数字任务执行,硬塞进同一个系统。

具体架构并不复杂:无屏幕的Ray-Ban Meta眼镜,通过定制手机应用,同时连接Gemini Live(谷歌的多模态对话模型)和OpenClaw。眼镜持续向Gemini输送音频和视频帧,Gemini要么直接语音回复,要么触发OpenClaw调用浏览器、邮件、日历、搜索等工具,再把结果喂回语言模型。

关键是"持续"二字。不是等你按下快门,不是等你喊一声"嘿Meta",而是一直开着,一直看着,一直等着被需要。

实验室里的13%-37%

第一项研究是控制实验。12名参与者,三种系统,四项任务。

对照组A:纯感知版Ray-Ban Meta——能看,不能动手做事。对照组B:手机版OpenClaw——能做事,但对你的周围环境一无所知。实验组:VisionClaw,感知+行动一体化。

任务设计很接地气:从纸质文件里提取信息写笔记、对着实物查资料发邮件、研究产品、控制设备。全是成年人周末会遇到的琐事。

结果量化得干脆。VisionClaw完成任务的速度比对照组快13%到37%,具体取决于任务类型。用户主观评分更夸张:心理负担降低7%到46%,时间压力、挫败感同步下降。

但数据里埋着一个刺。笔记提取任务的成功率,VisionClaw掉到了58%——眼镜摄像头在收据、小字体、复杂光照面前栽了跟头。研究团队坦诚写进论文:硬件感知能力的硬边界,目前还没法用软件架构弥补。

这个失败比成功更值得注意。它说明"始终在线"不是万能药,某些场景下,主动拍照+确认的传统交互反而更可靠。效率提升的代价,是特定场景下的容错率下降。

55天的真实生活

实验室之外,四位研究者把VisionClaw戴进了日常生活。55个活跃使用日,没有脚本,没有任务清单,纯粹观察这种交互形态在自然环境中如何生长。

日志记录的使用模式,比控制实验更能说明问题。

第一类是"环境触发式"——用户在做别的事,AI从背景对话或视觉线索里捕捉到需求。比如两人聊天提到周末计划,系统自动查天气、搜餐厅、发邀请。这类交互的核心价值是"不中断":你不需要切换上下文,不需要掏出手机,念头和现实之间的摩擦被压缩。

第二类是"物体锚定式"——对着实体物品发起任务。冰箱上的便利贴、桌上的账单、包装盒上的说明书,变成数字任务的起点。研究团队注意到一个反复出现的场景:用户把纸质文档举到面前,直接说"把这个加到日历里"或"给这个人发邮件跟进"。

第三类最微妙,是"时间切片式"——AI在后台持续记录,用户在事后调取。比如一场会议结束后,让系统总结刚才讨论的行动项。这种模式下,眼镜变成了外置记忆体,但引发了研究团队没有预设的问题:当AI持续"看见",哪些记录是临时的,哪些该被保留,边界由谁划定?

日志里还出现了大量"失败的使用"。有人试图在嘈杂餐厅里让系统发邮件,语音识别准确率暴跌;有人在昏暗光线下展示手机屏幕,摄像头完全抓不到内容;更常见的是"误触发"——系统从背景对话里听错了意图,执行了错误的任务。

这些失败没有被过滤掉,反而成为论文的重要部分。研究团队想证明的不是VisionClaw多好用,而是"始终在线的代理AI"这个品类,在真实环境里会撞上哪些墙。

效率背后的设计博弈

把两项研究并置,能看出一个核心张力:效率提升来自上下文消除,但上下文消除需要信任,而信任需要控制感。

传统交互是"请求-响应"的循环。你意识到需求,选择工具,执行动作,验证结果。每一步都有明确的控制点,但代价是认知负荷——你得记得要做什么,记得哪个工具能做什么,记得切换到正确的应用。

VisionClaw压缩了这个循环。感知层持续运行,意图识别被动触发,任务执行自动完成。实验室数据显示,这种压缩确实省时间、降负担。但55天的田野笔记显示,压缩过度会触发反弹:用户会在某些场景下主动"降级"到传统交互,只为了确认系统真的理解了自己。

研究团队记录了一个典型行为:即使VisionClaw已经自动执行了任务,用户还是会掏出手机检查邮件是否真的发出去了。效率收益被验证行为部分抵消,但这种验证是用户维持控制感的必要成本。

另一个设计博弈是"主动性"的刻度。Gemini Live在架构里扮演调度者的角色,决定什么时候直接回复,什么时候调用OpenClaw。这个决策点极其微妙:太保守,系统变成语音助手plus,浪费感知能力;太激进,用户会被源源不断的"我觉得你需要这个"淹没。

论文里没有给出最优解,只呈现了当前的粗糙平衡。四位研究者的个人偏好差异很大:有人把主动性调得很高,让系统频繁介入;有人倾向于手动触发,只把持续感知当作备用输入源。这种分化本身说明,"始终在线"可能不是单一产品形态,而是一组需要个性化校准的交互参数。

硬件的隐形天花板

Ray-Ban Meta作为载体,既成就了VisionClaw的可行性,也划定了它的边界。

摄像头是明显的瓶颈。论文里58%的笔记提取成功率,根源是眼镜相机的固定焦距、低动态范围、弱光表现。这些不是算法能解决的问题——当物理世界的信息根本没被光学系统捕获,后续所有AI处理都是无米之炊。

更隐蔽的限制是算力分配。眼镜端只能做轻量预处理,真正的多模态理解发生在云端。这意味着"始终在线"实际上是"始终联网",延迟和隐私风险被内置在架构里。研究团队在讨论部分承认,本地化的感知-理解-执行闭环,是下一代硬件需要攻克的方向。

电池和散热则是日常使用的摩擦源。55天日志里多次出现"摘下来充电"的中断记录。持续视频流+音频处理的功耗,让眼镜的实际续航撑不满一个完整工作日。这不是VisionClaw独有的问题,而是整个"始终在线"品类的结构性约束。

这些硬件限制反过来塑造了软件设计。比如,系统被迫采用"关键帧抽取"而非全量视频流,以降低带宽和计算压力。这种妥协影响了AI对动态场景的理解能力——你能问"这张纸上写了什么",但很难问"刚才那个人做了什么手势"。

从工具到环境

研究团队在最后提出了一个未被充分讨论的转向:当AI代理具备持续感知能力,它的角色可能从"被调用的工具"滑向"环绕的环境"。

这个区分关乎产品哲学的根本。工具是用户主动抓取的,有明确的起止边界;环境是始终在场的,用户在其中活动,而非与之互动。智能手机是工具,智能眼镜正在试探环境的形态。

VisionClaw的实验设计,本质上是在测试用户对这种滑动的容忍度。数据显示,效率收益是真实的;田野笔记显示,心理适应是缓慢的。有研究者在使用两周后仍然会在独处时摘下眼镜,"只是需要确认没有东西在看我"。

这种不适感不是技术问题,而是关系问题。人类对"被注视"的敏感是进化遗产,而"始终在线的AI"正在制造一种新型的、不对称的注视关系——它永远看着你,你只能在事后追问它看到了什么。

论文没有解决这个张力,只是把它标记为开放问题。但产品层面的暗示很清楚:下一代系统需要更精细的"可见性控制",让用户能感知到AI的注意力状态,并能随时中断或召回。

数据收束:13%、37%、58%、55

回到数字。13%到37%的任务提速,是感知-行动一体化在实验室条件下的效率证明。58%的特定场景成功率,是硬件感知能力的当下边界。55天的真实使用,是这种交互形态从概念到日常的距离度量。

这些数字不构成简单的乐观或悲观。它们勾勒的是一个正在成形的品类:始终在线的代理AI,有明确的用户价值(省时间、降负担),有清晰的工程路径(多模态模型+工具调用+轻量化硬件),也有未解的设计难题(主动性校准、信任建立、隐私边界)。

研究团队把VisionClaw开源了。这不是终点,而是一个邀请——让更多人戴上这种眼镜,在更多场景里撞墙,积累更多关于"AI如何嵌入日常生活"的具体知识。

最终判断:VisionClaw实验的真正价值,不在于证明了"始终在线的AI更快",而在于量化了"快多少"和"在什么条件下不快"。这种精确的自我限定,比夸大其词的愿景声明更接近产品化的真相。智能眼镜的下一个迭代,需要的不是更强的AI,而是更诚实的失败记录——知道58%在哪里跌倒,才能设计出让用户愿意每天戴满8小时的系统。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张兰已经把话挑明了,马筱梅这些日子的反常,的确事出有因

张兰已经把话挑明了,马筱梅这些日子的反常,的确事出有因

云深不知在何处
2026-04-19 13:24:04
G1输球不可怕!可怕的是火箭主帅乌度卡赛后这番话,习惯性甩锅!

G1输球不可怕!可怕的是火箭主帅乌度卡赛后这番话,习惯性甩锅!

田先生篮球
2026-04-19 15:17:44
越南高铁订单给了德国,苏林来中国为何还要坐10多个小时高铁?

越南高铁订单给了德国,苏林来中国为何还要坐10多个小时高铁?

小嵩
2026-04-18 09:37:40
荷兰政府花200亿挽留无效,光刻机巨头ASML为何执意从老家搬走?

荷兰政府花200亿挽留无效,光刻机巨头ASML为何执意从老家搬走?

普陀动物世界
2026-04-18 00:30:08
咽不下委国肥肉,美国尝尽苦果:中国一滴不买,特朗普降价求接盘

咽不下委国肥肉,美国尝尽苦果:中国一滴不买,特朗普降价求接盘

杰丝聊古今
2026-04-18 16:10:19
专家呼吁:马上停用5种调味酱,它是肠癌催化剂!再下饭也别沾

专家呼吁:马上停用5种调味酱,它是肠癌催化剂!再下饭也别沾

路医生健康科普
2026-04-18 16:18:55
下周预期要大涨方向!五大热点题材周末不断发酵  核心标的已梳理

下周预期要大涨方向!五大热点题材周末不断发酵 核心标的已梳理

元芳说投资
2026-04-19 17:03:48
湖人1-0火箭!老詹谈东契奇把话挑明,艾顿说出重点,一点成关键

湖人1-0火箭!老詹谈东契奇把话挑明,艾顿说出重点,一点成关键

鱼崖大话篮球
2026-04-19 15:53:20
61岁张曼玉近照曝光,脸僵到认不出?终于明白她死活不上浪姐了

61岁张曼玉近照曝光,脸僵到认不出?终于明白她死活不上浪姐了

科学发掘
2026-04-19 06:49:58
局势再次急转直下,美伊谈判更加难以折中,打的可能性再次飙升

局势再次急转直下,美伊谈判更加难以折中,打的可能性再次飙升

邵旭峰域
2026-04-19 17:10:03
争议!张水华参赛不给直播镜头 石屏文旅遭批:在全国面前丢人了

争议!张水华参赛不给直播镜头 石屏文旅遭批:在全国面前丢人了

念洲
2026-04-19 09:27:28
太可怕了!继注射药物、热巴事件后,王阳再揭娱乐圈最脏的一面

太可怕了!继注射药物、热巴事件后,王阳再揭娱乐圈最脏的一面

橙星文娱
2026-04-17 13:19:56
Temu的溃败,给跨境电商敲响警钟

Temu的溃败,给跨境电商敲响警钟

止戈见闻
2026-04-18 11:35:21
缺德到这种程度,已经没有半点“人性”了

缺德到这种程度,已经没有半点“人性”了

胖胖说他不胖
2026-04-17 09:25:19
老同学聚会班花阴阳我:同学中就属你混得差,我:你爸都是我员工

老同学聚会班花阴阳我:同学中就属你混得差,我:你爸都是我员工

红豆讲堂
2025-04-23 11:05:46
最新!三位北大数院女校友获2026科学突破奖

最新!三位北大数院女校友获2026科学突破奖

深究科学
2026-04-19 14:07:37
预售价近40万元的小鹏,把所有人都忽悠了!

预售价近40万元的小鹏,把所有人都忽悠了!

新浪财经
2026-04-19 02:52:50
美国若敢玩火,中方就敢动手!外交部这次的一个表态,极不寻常

美国若敢玩火,中方就敢动手!外交部这次的一个表态,极不寻常

时光在作祟
2026-04-19 16:46:57
公交一味压缩成本,反而越省越乱?北京运营现状说出实话

公交一味压缩成本,反而越省越乱?北京运营现状说出实话

刘哥谈体育
2026-04-19 12:19:13
全员“梓涵”消失不见,老师崩溃!新一批烂大街名字再次来袭

全员“梓涵”消失不见,老师崩溃!新一批烂大街名字再次来袭

谭老师地理大课堂
2026-04-12 20:21:47
2026-04-19 19:20:49
固件更新中
固件更新中
有态度网友ytd
2634文章数 23关注度
往期回顾 全部

科技要闻

50分26秒破人类纪录!300台机器人狂飙半马

头条要闻

印度当晚召见伊朗大使抗议两船只遭开火袭击 伊朗回应

头条要闻

印度当晚召见伊朗大使抗议两船只遭开火袭击 伊朗回应

体育要闻

湖人1比0火箭:老詹比乌度卡像教练

娱乐要闻

张天爱评论区沦陷!被曝卷入小三风波

财经要闻

华谊兄弟,8年亏光85亿

汽车要闻

29分钟大定破万 极氪8X为什么这么多人买?

态度原创

旅游
数码
房产
本地
时尚

旅游要闻

趵突泉绿樱,樱花界的“大熊猫”

数码要闻

驰为海外推出AuBox X迷你主机,搭载酷睿Ultra 7 256V

房产要闻

官宣签约最强城更!海口楼市,突然杀入神秘房企!

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

这些才是最适合普通人的造型!不用穿大牌、不老套,真实自然

无障碍浏览 进入关怀版