![]()
智东西
作者 云鹏
编辑 李水青
智东西5月9日报道,昨日,阿里巴巴旗下千问AI眼镜S1迎来正式发售后的首次重磅更新,主动式AI服务升级、3D空间化显示是本次两大核心升级方向。
新功能发布期间,智东西在上海与阿里巴巴千问AI硬件产品总监吴建军(晋显)进行了面对面深入交流,从产品背后的产业深度思考到今天诸多升级背后的关键技术突破和布局,我们看到阿里正成为AI眼镜赛道不容忽视的一匹黑马。
![]()
▲阿里巴巴千问AI硬件产品总监吴建军(晋显)
一些晋显在分享中提到的重要观点:
·主动服务的本质,在于它对用户所处环境和用户自身的深度理解;
·在AI眼镜这个载体上,“AI助理即OS”;
·阿里做AI眼镜是以AI驱动为主,一定要让AI的科技感以一种非常普适的用户价值融入日常生活;
·主动智能绝不能变成一个野蛮的、让用户感觉失控的东西,必须给用户足够的控制权和产品设计的思考;
·数字世界产生的信息必须和物理世界一样具备3D感,才能真正实现融合;
·千问AI眼镜的核心价值和竞争力在于整个AI解决方案,即AI生活助理;
一、让AI眼镜学会主动服务,到底难在哪里?
在晋显看来,如今人每天获取的信息量极大,处理信息的能力在某一时刻已经严重超载。面向未来数字世界的信息井喷与虚实结合,随着技术快速发展,我们确实需要一个身边的助理,帮助承接那些琐碎、占用精力、可能缺乏创造力和社交互动性的事务。这种承接就是团队今天想做主动服务的原因。
主动服务的本质,在于它对用户所处环境和用户自身的深度理解,包括超长上下文,以及未来连续的视觉理解和感知能力,这无疑是整个行业的趋势。
晋显提到,为了实现主动服务,团队将所有架构完全重构,面向主动服务重新打造了系统,这意味着把部分选择权或执行权让渡给大模型,因为大模型未来的规划能力和复杂任务编排能力将远超预期,这是从底层架构上就要先走的一步。
早一代的架构,市面上大多是纯集联式的,完成意图理解和分发后进入调用各个Agent,但Agent很多时候对用户而言是个黑盒,中间想修改或干预,必须遵循Agent间的标准交互方式去继续下发任务。
千问AI眼镜的主动服务具备主动编排复杂任务流程的能力,它听起来像是能协同多个Agent进行多流程、多线程的工作,其架构天然就是为兼容这种能力而生的。
这里面有一个非常困难的地方:如果要做这件事,就不能只是调用别人的Agent,而要把别人的东西都完全以原子化的方式变成Skill。当千问AI眼镜的模型面对众多原子化的Skill时,它的自由度就会非常高,可以根据自己的规划、编排、对意图的理解以及记忆系统等,完成许多事情。
![]()
在晋显看来,在AI眼镜这个载体上,“AI助理即OS”。
就像在一个饭店里,有众多厨师,每位的菜都差不多炒好了,你最后只能把这些菜组合成套餐提供给消费者,定制化程度极低。每个厨师都有他的手艺和Know-how。
千问AI想做的是,不希望有这么多的Agent、想要它们都变回原材料,然后有一个非常强大的“五星级大模型”,由它来下厨,把原子化的东西炒成各种各样的菜,这样它能搭配的种类会非常多,直接面向最终开发者或用户。
在他看来,今天每家厂商做AI眼镜的逻辑都各不相同,阿里是以AI驱动为主,一定要让AI的科技感以一种非常普适的用户价值融入日常生活,这是他们做这件事最关键的理由,他们并非简单做一个硬件,然后等软件慢慢迭代。
当然,任何事都有正反两面,阿里做AI主动服务,同样会权衡,看正向收益是否远远大于负向。
当AI交互频次升高,天然会牺牲部分功耗。但今天千问AI眼镜实现的主动服务对整体功耗的影响极其有限,用户每天与AI的交互频次大幅提高,由此带来的些许功耗提升,是他们愿意付出的代价。
其次,关于用户能否适应、该不该打扰、何时出现,团队思考很多。关键点是,第一,对用户意图理解的准确性。有些是明确主动意图,比如用户每天都想听某个喜欢的新闻;有些是模糊意图,比如用户询问天气后,AI助理推理是否要帮忙叫车或订日程。首要把握的是用户意图的准确性。
第二,是场景关联性,比如对环境的理解和感知,对用户对话历史的理解,或通过一些传感器的感知等。这两个点是判断主动服务该不该主动的核心。
此外,在产品交互设计上,最重要的是一定要让用户掌握主动权,可以随时打断、随时修改。主动智能绝不能变成一个野蛮的、让用户感觉失控的东西,必须给用户足够的控制权和产品设计的思考。
二、空间计算是大趋势,3D空间显示是阶段性一小步
除了主动式AI能力的海量更新,3D空间显示也是非常直观且重磅的一项升级。
![]()
为什么要做3D空间显示?
晋显特别提到,其实他们最初计划将双光机装入产品时,就已经有了做3D空间显示这个想法,只是将其划分为不同阶段来实现。通过双光机利用双目视差,将立体画面渲染到眼前,这是第一步。
至于第二步,团队考虑到,无论是任何UI界面的排布,还是未来需要3D呈现的场景,3D都能带来诸多益处。这要回到最本质的问题:数字世界和物理世界怎么能融合?答案就是,数字世界产生的信息必须和物理世界一样具备3D感,它才能实现融合。
因此,从整机架构、器件选型、产品主张,到未来诸多场景的拓展,千问AI眼镜团队做这一切的核心目标都是为了实现所谓的空间3D,这是整个过程中的一个关键里程碑。
三、AI体验之战说到底是生态之战
当前,AI眼镜在硬件层面还面临许多挑战,例如芯片、摄像头、电池等零部件都有极大迭代空间,而这些问题的解决需要供应链协同解决,心急吃不了热豆腐。
相比之下,厂商可以在软件和生态层面做的工作有很多,对于AI体验的提升同样十分关键。
在晋显看来,AI能力可以分为两部分来看,回答聪明和良好的“生活AI能力”。
在回答聪明方面,阿里有自己的千问App,一直与集团内部能力最强的千问大模型版本绑定,所有关于模型回复的策略都经过优化。团队一直在不断提升AI助理的智力水平,令其无论是在通俗领域还是垂直行业的专业水平都保持在行业领先地位。
生活AI能力方面,由于千问App本身的能力做得比较丰富,AI眼镜在策略上会优先选择那些适合眼镜场景的能力。对于那些已通过App或AI原生应用教育过用户、使用户养成习惯的操作,当用户觉得利用一个随身设备也能不动声色地完成时,他们会陆续通过二期、三期等阶段性更新去做好能力覆盖。
晋显也提到,眼镜绝不仅仅是App能力的复制。两者交互方式存在极大不同。第一,眼镜能释放双手;第二,眼镜的交互是即时的,信息就在眼前耳边;第三,是与手机在“质”上的巨大不同:只要眼镜架在鼻梁上,它的多模态感知就可以是连续的。
![]()
在晋显看来,生态方面,随着场景逐渐深化,分水岭会变得更明显。今天消费者看到的是部分与阿里生态合作伙伴联合定义的能力,后续千问AI眼镜会有更多创新功能都是软硬件结合的,通过进一步的账号绑定、接口交互和更复杂的逻辑定义去实现。
随着生态融合性加强,体验优势也会放大,用户会发现很多东西都实现了代为处理。
从长期看,千问AI眼镜的核心价值和竞争力在于整个AI解决方案,即AI生活助理。
未来在眼镜硬件平台上,针对特定场景、特定人群和行业需求的应用会不断涌现。如果所有需求都需团队重度研发,无论从时间效率还是投入上看,都不是好选择。
团队现在已经完成了对眼镜近端、App移动端和云端能力的梳理,并从定义角度做好了全面的SDK规划,目前已进入快速开发周期,未来各种应用包括Agent都会在广场或商店中处理好。
结语:AI眼镜形态成熟了,但AI对眼镜的重塑才刚刚开始
Agent浪潮之下,AI主动做事、多模态交互被提到了风口浪尖,AI眼镜作为热门新兴品类,天然被寄予厚望。作为随身穿戴产品,其有着手机、PC难以比拟的先天优势,有着丰富数据持续获取的极高价值,有着伴随式AI核心入口的潜力。
从千问AI眼镜的一系列升级我们看到,AI眼镜未来体验胜出的关键或更多在于AI模型能力和AI应用生态的较量,硬件方案成熟必然会加剧竞争,谁能够跳出同质化陷阱,实现真正人无我有、人有我优的AI体验,将会成为决胜关键。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.