从大模型到多模态,从文本、视频生成的AI工具,到能够自主执行任务的Agent系统,过去两年,人工智能几乎以“周”为单位刷新外界预期。
但在喧嚣之下,有个问题开始愈发清晰:这些能力,究竟在多大程度上进入了现实世界?
近一个月,OpenClaw引发的“养龙虾”热潮席卷全球,一场围绕智能体“自主执行”任务能力的讨论迅速升温。人们在屏幕一端输入指令,AI便可在另一端自主完成操作,科幻世界里的场景仿佛已触手可及,但在业内看来,这仍只是AI与物理世界交互的初级形态,远未真正走进现实。
在今年博鳌亚洲论坛期间,vivo总裁、首席运营官、vivo中央研究院院长胡柏山对这一行业热潮做出了冷静而底层的判断。
![]()
在vivo看来,AI正处在从被动执行到主动感知、理解的关键转折点,AI要从虚拟世界走进现实,必须建立自己的感知体系,才能“看见”物理世界,而vivo 认为,影像是感知的基础。
“没有物理世界的AI,是不能被泛化的。”胡柏山说。
围绕这一判断,vivo正在走一条有“vivo特色”的AI路径:不是简单叠加模型能力,而是回到一个更基础的问题:如何让AI真正“看见世界”。在这条路径上,感知能力被确立为新的技术赛道,影像是关键入口,而手机,则被再次定义为AI落地的“第一现场”。
困在黑屋子里的AI“大师”
从语音助手到AI修图,从通话摘要到文档处理,各类AI功能正快速成为目前智能手机的标配。用户在手机上可以体验到文本生成、图片编辑、信息整理等智能化服务,AI正在让手机变得越来越“聪明”。
但当前这一轮AI浪潮,本质上仍然发生在数字空间内部。
在胡柏山看来,无论是大模型生成内容,还是Agent执行任务,它们处理的对象,大多已经是结构化的信息:文本、图片、网页、数据库。这些信息经过长期互联网发展,已经被整理成机器可以直接理解和调用的形式。
这也是为什么AI可以在写作、编程、信息整理等任务中快速取得突破。但一旦离开这些“已被数字化”的环境,问题就开始显现。
例如,一张照片可以被清晰记录,但设备并不一定理解画面中的行为状态;一段视频可以被完整捕捉,但系统未必能够判断其中的场景变化。这种能力差距,本质上来自于输入侧的缺失,AI并没有直接面对真实世界。
胡柏山表示,当前的AI更像一个“云端军师”,能提供无数策略,却无法直接感知真实的物理世界。没有感知能力的AI,就像困在黑屋子里的“大师”,算力再强,也看不见咫尺之外的世界。
“AI现在可以解决很多问题,但这些问题大多发生在数字世界。”胡柏山表示,如果要进一步进入现实场景,就必须补齐对物理世界的感知能力。
这也是他强调的一点:AI正在从“被动执行”走向“主动感知与理解”的阶段,而这一转变的前提,是让机器具备持续获取现实信息的能力。
从产业角度看,这一判断也意味着竞争重点的变化。过去两年,围绕模型能力、算力规模的竞争已经高度集中,但随着能力逐渐趋同,仅依赖模型本身,很难形成长期差异。
“AI会带来新一轮产业机遇,但关键不只是模型本身。”胡柏山对记者表示,未来的差异,更可能来自对真实场景的理解与积累。
而在这一背景下,vivo将视线聚焦到“感知能力”,并试图回答一个更底层的问题:AI如何满足真实世界的用户需求。
影像与感知:vivo选择的技术路线
对于“如何让AI进入物理世界”,vivo选择了以影像为路径。
“影像是AI落地物理世界的第一引擎。”胡柏山在采访中表示。这一判断并非单纯基于影像能力本身,而是来自其在信息获取层面的基础性作用。在现有技术体系中,影像是连接数字世界与物理世界最直接的通道之一。通过光学系统、传感器与算法处理,现实场景被转化为数字信号,再进一步成为AI可以理解和分析的输入。
![]()
但从AI发展路径来看,影像的角色正在发生本质变化。它不再只是“记录工具”,而是AI理解现实世界的入口。
胡柏山从人类进化的角度解释了这个逻辑:“人类进化这么多年,为什么后面发展那么快?首先是看到了世界,然后把看到的东西记录下来。如果没有看到,就没有记录,也就没有后续的一切。”基于这一认知,vivo将影像提升为感知体系中的“眼睛”:“影像技术通过光学系统、成像处理、空间计算等全链路能力,完成了物理世界的数字化投射与三维场景重建,是AI看懂物理世界、理解真实场景的基础。”
基于这一变化,vivo在2026年将“感知赛道”列为内部重要的一级支撑技术赛道。该赛道以影像为基础,目标是打通从感知、理解到决策的完整能力链路。影像为眼,AI为径,通过传感器结合感知大模型,将视觉、听觉、触觉等转化为物理世界的信息,最终实现智及万物。
在行业普遍仍将注意力集中在“大模型能力”的当下,胡柏山提出了一个关键判断:未来大模型之间的差异会越来越小,无非是时间先后的问题。真正的差异,将来自“场景数据”。“一个好的智能体,最终体验好不好,关键是有没有足够的场景数据。”而这些数据,必须来源于对真实世界的持续感知与积累。这意味着,谁能建立更强的感知系统,谁就能在AI下半场占据主动。“对物理世界的感知力,决定未来AI的能力上限。”他说。
在vivo手机的应用层面,这一能力已经开始转化为具体体验。例如,通过影像相关的Agent,设备可以基于环境理解自动调整拍摄方式,甚至在后续处理中结合用户习惯进行优化。胡柏山用拍照场景举例:“过去用户拍照,需要自己选择模式,比如长焦、微距,很多人甚至不知道要提前选。”而在Agent模式下,系统可以基于环境、光线与距离自动推荐最佳方案,“用户点一下就可以了,人人都是摄影师。”
放眼更长周期,影像与AI的结合,还将为每一个人沉淀专属的“个性化数字DNA”——影像可以记录真实生活轨迹,AI则在设备端本地完成用户行为习惯与偏好的学习,所有数据均在端侧处理、不上云、不外流,完全由用户自主掌控,并可在不同设备之间安全流转。短期来看,这是手机体验的升级;长期来看,更为感知能力向多场景、多终端延伸,筑牢底层基石。
从行业视角来看,这一战略不仅关乎技术演进,也关乎市场格局。胡柏山判断,“如果从Smart Phone进化成Agent Phone,将带来手机体验的突破性变化,手机市场有望在未来三到五年重回增量市场。”换言之,Agent Phone不仅是技术升级,更是手机行业重新打开增长空间的关键变量。
从Agent Phone到全球市场
在技术路径之外,vivo也在同步调整产品与市场策略。
在产品形态上,胡柏山提出一个明确方向:智能手机正在从Smartphone向Agent Phone演进。这一变化的核心,在于设备角色的转变——从被动响应用户操作,转向主动参与用户任务。
“手机是离用户最近的设备,具备全天候、全场景的陪伴能力。”他表示,这使其不仅是AI能力的承载体,也成为连接不同设备与服务的核心节点。
基于这一定位,vivo将端侧AI作为当前阶段的重点,通过自研模型与软硬件协同,构建本地计算能力,并结合云端能力补齐复杂场景需求。
在应用层面,这些能力以多种Agent形式呈现,包括系统级功能与细分场景应用,如影像、办公、出行等,从而在具体使用场景中提升效率与体验。
与此同时,vivo也在推进跨端与跨场景的能力整合。例如,通过与不同生态伙伴的合作,实现设备之间的协同与数据流转,逐步构建更完整的AI体验体系。
在更长期的规划中,这一能力将延伸至更多终端形态。胡柏山提到,手机、头显与机器人,将成为未来重要的三类设备,而它们的共同基础,都是感知能力。
![]()
在机器人方向,vivo目前仍处于能力建设阶段,重点是“建认知”,包括用户群体、使用场景以及核心技术路径的明确。这一节奏相对克制,也体现出其对长期技术演进的判断。
与技术路径同步的,是全球化策略的推进。
胡柏山表示,vivo未来增长的重要空间在海外市场,但这一过程并非简单扩张,而是坚持“More Local,More Global”的原则,根据不同市场的需求制定策略。
例如,在产品层面,通过差异化能力建立竞争优势;在市场层面,则根据区域特点选择不同的发展重点,从规模、品牌到能力建设逐步推进。
在MWC上,vivo X300 Ultra的全球亮相,被视为其参与全球高端市场竞争的重要一步。
从影像到AI,从手机到多终端,再到全球市场,vivo正在形成一条相对清晰的路径。其核心逻辑并不复杂——当AI从数字世界走向物理世界,真正决定能力边界的,将不再只是模型本身,而是设备对现实的理解能力。
而这,正是vivo试图提前布局的核心。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.