当AI走出云端，vivo要给它装上一双“眼睛”|智能手机|phone|折叠屏手机

当AI走出云端，vivo要给它装上一双“眼睛”

分享至

从大模型到多模态，从文本、视频生成的AI工具，到能够自主执行任务的Agent系统，过去两年，人工智能几乎以“周”为单位刷新外界预期。

但在喧嚣之下，有个问题开始愈发清晰：这些能力，究竟在多大程度上进入了现实世界？

近一个月，OpenClaw引发的“养龙虾”热潮席卷全球，一场围绕智能体“自主执行”任务能力的讨论迅速升温。人们在屏幕一端输入指令，AI便可在另一端自主完成操作，科幻世界里的场景仿佛已触手可及，但在业内看来，这仍只是AI与物理世界交互的初级形态，远未真正走进现实。

在今年博鳌亚洲论坛期间，vivo总裁、首席运营官、vivo中央研究院院长胡柏山对这一行业热潮做出了冷静而底层的判断。

在vivo看来，AI正处在从被动执行到主动感知、理解的关键转折点，AI要从虚拟世界走进现实，必须建立自己的感知体系，才能“看见”物理世界，而vivo 认为，影像是感知的基础。

“没有物理世界的AI，是不能被泛化的。”胡柏山说。

围绕这一判断，vivo正在走一条有“vivo特色”的AI路径：不是简单叠加模型能力，而是回到一个更基础的问题：如何让AI真正“看见世界”。在这条路径上，感知能力被确立为新的技术赛道，影像是关键入口，而手机，则被再次定义为AI落地的“第一现场”。

困在黑屋子里的AI“大师”

从语音助手到AI修图，从通话摘要到文档处理，各类AI功能正快速成为目前智能手机的标配。用户在手机上可以体验到文本生成、图片编辑、信息整理等智能化服务，AI正在让手机变得越来越“聪明”。

但当前这一轮AI浪潮，本质上仍然发生在数字空间内部。

在胡柏山看来，无论是大模型生成内容，还是Agent执行任务，它们处理的对象，大多已经是结构化的信息：文本、图片、网页、数据库。这些信息经过长期互联网发展，已经被整理成机器可以直接理解和调用的形式。

这也是为什么AI可以在写作、编程、信息整理等任务中快速取得突破。但一旦离开这些“已被数字化”的环境，问题就开始显现。

例如，一张照片可以被清晰记录，但设备并不一定理解画面中的行为状态；一段视频可以被完整捕捉，但系统未必能够判断其中的场景变化。这种能力差距，本质上来自于输入侧的缺失，AI并没有直接面对真实世界。

胡柏山表示，当前的AI更像一个“云端军师”，能提供无数策略，却无法直接感知真实的物理世界。没有感知能力的AI，就像困在黑屋子里的“大师”，算力再强，也看不见咫尺之外的世界。

“AI现在可以解决很多问题，但这些问题大多发生在数字世界。”胡柏山表示，如果要进一步进入现实场景，就必须补齐对物理世界的感知能力。

这也是他强调的一点：AI正在从“被动执行”走向“主动感知与理解”的阶段，而这一转变的前提，是让机器具备持续获取现实信息的能力。

从产业角度看，这一判断也意味着竞争重点的变化。过去两年，围绕模型能力、算力规模的竞争已经高度集中，但随着能力逐渐趋同，仅依赖模型本身，很难形成长期差异。

“AI会带来新一轮产业机遇，但关键不只是模型本身。”胡柏山对记者表示，未来的差异，更可能来自对真实场景的理解与积累。

而在这一背景下，vivo将视线聚焦到“感知能力”，并试图回答一个更底层的问题：AI如何满足真实世界的用户需求。

影像与感知：vivo选择的技术路线

对于“如何让AI进入物理世界”，vivo选择了以影像为路径。

“影像是AI落地物理世界的第一引擎。”胡柏山在采访中表示。这一判断并非单纯基于影像能力本身，而是来自其在信息获取层面的基础性作用。在现有技术体系中，影像是连接数字世界与物理世界最直接的通道之一。通过光学系统、传感器与算法处理，现实场景被转化为数字信号，再进一步成为AI可以理解和分析的输入。

但从AI发展路径来看，影像的角色正在发生本质变化。它不再只是“记录工具”，而是AI理解现实世界的入口。

胡柏山从人类进化的角度解释了这个逻辑：“人类进化这么多年，为什么后面发展那么快？首先是看到了世界，然后把看到的东西记录下来。如果没有看到，就没有记录，也就没有后续的一切。”基于这一认知，vivo将影像提升为感知体系中的“眼睛”：“影像技术通过光学系统、成像处理、空间计算等全链路能力，完成了物理世界的数字化投射与三维场景重建，是AI看懂物理世界、理解真实场景的基础。”

基于这一变化，vivo在2026年将“感知赛道”列为内部重要的一级支撑技术赛道。该赛道以影像为基础，目标是打通从感知、理解到决策的完整能力链路。影像为眼，AI为径，通过传感器结合感知大模型，将视觉、听觉、触觉等转化为物理世界的信息，最终实现智及万物。

在行业普遍仍将注意力集中在“大模型能力”的当下，胡柏山提出了一个关键判断：未来大模型之间的差异会越来越小，无非是时间先后的问题。真正的差异，将来自“场景数据”。“一个好的智能体，最终体验好不好，关键是有没有足够的场景数据。”而这些数据，必须来源于对真实世界的持续感知与积累。这意味着，谁能建立更强的感知系统，谁就能在AI下半场占据主动。“对物理世界的感知力，决定未来AI的能力上限。”他说。

在vivo手机的应用层面，这一能力已经开始转化为具体体验。例如，通过影像相关的Agent，设备可以基于环境理解自动调整拍摄方式，甚至在后续处理中结合用户习惯进行优化。胡柏山用拍照场景举例：“过去用户拍照，需要自己选择模式，比如长焦、微距，很多人甚至不知道要提前选。”而在Agent模式下，系统可以基于环境、光线与距离自动推荐最佳方案，“用户点一下就可以了，人人都是摄影师。”

放眼更长周期，影像与AI的结合，还将为每一个人沉淀专属的“个性化数字DNA”——影像可以记录真实生活轨迹，AI则在设备端本地完成用户行为习惯与偏好的学习，所有数据均在端侧处理、不上云、不外流，完全由用户自主掌控，并可在不同设备之间安全流转。短期来看，这是手机体验的升级；长期来看，更为感知能力向多场景、多终端延伸，筑牢底层基石。

从行业视角来看，这一战略不仅关乎技术演进，也关乎市场格局。胡柏山判断，“如果从Smart Phone进化成Agent Phone，将带来手机体验的突破性变化，手机市场有望在未来三到五年重回增量市场。”换言之，Agent Phone不仅是技术升级，更是手机行业重新打开增长空间的关键变量。

从Agent Phone到全球市场

在技术路径之外，vivo也在同步调整产品与市场策略。

在产品形态上，胡柏山提出一个明确方向：智能手机正在从Smartphone向Agent Phone演进。这一变化的核心，在于设备角色的转变——从被动响应用户操作，转向主动参与用户任务。

“手机是离用户最近的设备，具备全天候、全场景的陪伴能力。”他表示，这使其不仅是AI能力的承载体，也成为连接不同设备与服务的核心节点。

基于这一定位，vivo将端侧AI作为当前阶段的重点，通过自研模型与软硬件协同，构建本地计算能力，并结合云端能力补齐复杂场景需求。

在应用层面，这些能力以多种Agent形式呈现，包括系统级功能与细分场景应用，如影像、办公、出行等，从而在具体使用场景中提升效率与体验。

与此同时，vivo也在推进跨端与跨场景的能力整合。例如，通过与不同生态伙伴的合作，实现设备之间的协同与数据流转，逐步构建更完整的AI体验体系。

在更长期的规划中，这一能力将延伸至更多终端形态。胡柏山提到，手机、头显与机器人，将成为未来重要的三类设备，而它们的共同基础，都是感知能力。

在机器人方向，vivo目前仍处于能力建设阶段，重点是“建认知”，包括用户群体、使用场景以及核心技术路径的明确。这一节奏相对克制，也体现出其对长期技术演进的判断。

与技术路径同步的，是全球化策略的推进。

胡柏山表示，vivo未来增长的重要空间在海外市场，但这一过程并非简单扩张，而是坚持“More Local，More Global”的原则，根据不同市场的需求制定策略。

例如，在产品层面，通过差异化能力建立竞争优势；在市场层面，则根据区域特点选择不同的发展重点，从规模、品牌到能力建设逐步推进。

在MWC上，vivo X300 Ultra的全球亮相，被视为其参与全球高端市场竞争的重要一步。

从影像到AI，从手机到多终端，再到全球市场，vivo正在形成一条相对清晰的路径。其核心逻辑并不复杂——当AI从数字世界走向物理世界，真正决定能力边界的，将不再只是模型本身，而是设备对现实的理解能力。

而这，正是vivo试图提前布局的核心。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.