前小米 OS 高管创业：你的下一部「手机」未必是手机|安卓|人机交互|智能手机|操作系统|小米os|小米集团|蓝屏事件

分享至

AI 硬件一定是未来，但绝对不是现有的硬件直接加上 AI。

AI 时代的硬件，交互及其系统会如何演进？输入和输出（Input/Output）如何被有效地组织？

换言之，一个 AI 时代新的硬件操作系统生态，它可能会是什么样子？手机还会是重要的个人计算设备吗？

这是每个创业者、投资人，在选择硬件赛道的时候，需要认真思考的问题。

在光帆科技创始人董红光看来，未来基于 AI 的交互，应该是「需求式」和「多模态的」。

「穿戴类设备可能会是AI交互变革迈出的第一步。……未来一定是多设备联动，统一交给一个 AI 大脑去调度。」

作为小米初创团队成员，89 号员工，董红光在小米任职的 14 年间，早期作为系统研发负责人参与打造 MIUI，后牵头孵化快应用生态、自研手机 OS 和汽车 OS 等一系列业务，是国内极为稀缺有 0 到 1 自研通用 OS、开发者生态并有完整产品落地经验的人。

成立于 2024 年 10 月的光帆科技，3 个月内两轮累计 1.3 亿人民币融资，目前是行业内成长速度最快、最受资本关注的 AI 创业公司之一。

10 月 30 日，极客公园创始人 & 总裁张鹏与董红光进行了一场对话，对于为什么做硬件、为什么不做眼镜，以及 AI 时代操作系统的可能性，都进行了深入的探讨。对话中还预告了光帆科技即将发布的新品。

文章基于对话整理。

⬆️关注 Founder Park，最及时最干货的创业分享

超 15000 人的「AI 产品市集」社群！不错过每一款有价值的 AI 应用。

邀请从业者、开发人员和创业者，飞书扫码加群：

进群后，你有机会得到：

最新、最值得关注的 AI 新品资讯；
不定期赠送热门新品的邀请码、会员码；
最精准的AI产品曝光渠道

01交互、软件和硬件，AI 会重塑整个消费电子行业

张鹏：Founder Park 一直很关心一个创业者的「Why」，就是他为什么做这件事。我觉得这肯定跟历史有关，也跟未来有关，要不先讲讲你的故事？

董红光：大学毕业之后，我先在 IBM 工作了几年，然后在 2010 年小米成立时就加入了，开启了跟着雷总一起创业的经历。在小米工作了十四年，我在去年底自己创业，成立光帆科技。

早年在小米，我主要负责端侧的软件相关工作。如果是小米的用户，可能很多人都用过我做的东西，比如主题、负一屏、短信、便签、录音机等系统应用。我还负责了很多操作系统的工作，包括 MIUI 的 Framework 和中间件、自研的手机操作系统、汽车操作系统等等。此外，也负责过开发者生态，比如早年的推送服务，后来孵化的快应用生态等。在小米这么多年，方方面面的事情都有涉及。

张鹏：在小米这么多年，有什么比较重要的收获？

董红光：在小米的整个过程中学到了非常多的东西。经历了手机行业从变革初期，一直走到现在的平稳期，再到开启新的行业，比如 IoT、汽车等。我在整个过程中经历了很多，当然也参与创造了很多。

小米是一家比较鼓励创新的公司，我们做了非常多创新的事。

比如早年做主题，小米应该是智能手机中第一家做主题的公司，我们当时就洞察到了用户的这种需求。再比如免安装应用，现在大家可能比较习惯了，像微信小程序。但那时我们率先创造了手机上的免安装应用，后来还拉着华为、OPPO、vivo 等国内手机厂商，一起做了一个大的免安装应用生态，叫「快应用」。再之后，比如做自研的手机操作系统、汽车操作系统等等，确实经历了很多。

学到的东西，我觉得首先是对行业变革的敏感度。因为经历了这么多行业变革，能够很早地判断出行业发展趋势，这也是过去小米多次成功的核心关键因素。

对我个人来说，我非常喜欢小米的一个主张，叫「让全球每个人都能享受科技带来的美好生活」。用我自己的理解，其实可以用四个字来总结，就是「科技平权」。我一直觉得，科技不应该高高在上，它最终应该服务于广大用户，降低使用门槛，让用户在日常生活中能用到它，并最终提升大家的生活品质。这是我最认可的一个观念。

另外，在做事层面，小米早年的方法论——雷总提的互联网七字诀「专注、极致、口碑、快」，我觉得直到现在依然很适用。这决定了你怎么去做一款能打动人心的产品。

张鹏：为什么在去年开启创业？能不能帮我们复盘一下，当时创业的决策是怎么展开的？是什么在驱动你完成这个变化？毕竟小米最近股价还都挺好的。

董红光：其实我在小米工作得非常开心，当时也担任了非常重要的角色，参与了小米造车等工作。之所以出来，是因为现在看到了一个更合适的机会。

从两个层面来说，第一，我觉得汽车是一个很好的赛道，但对于我这样一个软件出身的人来说，我认为汽车对于软件的需求，或者说从创造用户价值的层面来讲，并没有那么强烈。反观消费电子，软件对用户体验的影响会更加直接，更能影响用户对整个产品的判断，而软件恰好也是我个人比较擅长的赛道。

第二点可能更重要，就是 AI 来了。过去我在小米也尝试过非常多与 AI 结合的事情，现在回头看，大模型来了之后，过去的那些畅想终于可以实现了。不仅可以实现，我们现在看到的是一个巨大的行业变革机会，堪比当年 2010 年我加入小米，或者更早一些 iPhone 发布的时候。那时很少有人能洞察到智能手机会深刻地改变人的生活，大家也很难想到手机的规模如今能远超 PC。

今天也是一样。我认为 AI 会重塑整个消费电子行业，从交互到软件再到硬件，都会有巨大的变化。我个人又非常喜欢做从 0 到 1，而且是偏探索性质的事情。在这么大的浪潮之下，我觉得自己还是应该参与进来。

毕竟这样大的浪潮可能十几年才会发生一次。上一次大概是 2010 年左右的移动互联网和智能手机；再之前是 2000 年左右的互联网；再往前可能就是 1980 年代左右的 PC 或图形化交互革命。所以在这种十几年一遇的大浪潮之下，我觉得还是应该参与进去，创造更多的价值。

02AI 时代的交互一定是「需求式」和「多模态的」

张鹏：刚才讲到一个很重要的点，就是对于计算平台及其带来的交互演进这条轴线特别感兴趣，你看到的机会也在于AI这波浪潮一定会对这件事带来根本性的改变。

在聊未来变化之前，能不能先帮我们盘点一下过去都经历了哪些改变？会怎么总结过去我们看到的个人计算和交互之间的这种双螺旋式演进？

董红光：个人计算设备其实经历了几次大的变革。这几次变革的原始驱动力当然是技术层面的，但最终重塑整个业态的，我认为是由交互的变革产生的。基本上每一次人机交互的变革，都会带来新的硬件和软件形态的变革。

比如早年，大家还在用命令行交互，那时候主要是大型机，用一个终端去连接它，执行一些计算任务。背后的软件体系，比如 Unix，已经非常成熟。但之后，图形化交互，或者更具体地说是键盘+鼠标的交互方式被发明了。从施乐开始，到 1983 年苹果发布第一代图形化交互的个人电脑 Lisa，带来了一场新的革命。它大大降低了用户使用计算机的门槛，让计算机得以进入个人家庭。

PC 在命令行时代并没有那么普及，但随着图形化交互的出现，它迅速成长起来。对应的软件体系也发生了根本变化，从 Unix 的命令行交互切换到了 Windows 这样的图形化交互形态。

这是第二波浪潮。到了第三波浪潮，就是触控交互的发明。

过去大家觉得需要一个特别大的屏幕才能做复杂的事情，但 iPhone 出来之后，我们发现通过触控就能完成很多复杂操作。这样一来，你就不需要在固定地方使用设备，或者从背包里掏出笔记本电脑来操作。很多时候，你可以把它揣在口袋里，随身携带和使用。

手机这个品类，过去可能只是一个通信设备，但因为触控交互的发明，它最终变成了一个个人通用计算设备，用户的非常多需求都在手机上得到满足。这个品类也从一个专用设备变成了一个非常通用的设备，用户规模迅速扩大。相应的，软件体系也发生了变化，过去的 Windows 那一套已经无法在触控上良好工作，于是诞生了新的软件体系——Android 和 iOS。

总结一下我的观点：每一次变革的原动力都是技术革新带来了交互变革的可能性，而交互变革最终会催生出匹配最新交互形态的新硬件和新软件。

张鹏：设备从专用变成通用平台，从少数用户变成多数用户，这个时候设备也会因此而进化。交互的改变影响了设备的需求和定位，硬件会朝着这个定位演进，新的系统软件也会牵引硬件不断延展。

我们常说软件定义硬件，但反过来硬件也会定义软件。比如今天，硬件上这点算力，放不了太大的模型，这就是AI时代的一个核心问题。我想用 AI 去定义它，但本地算力可能不够；用云端，又可能有延迟。

从你的视角看，在AI开始起作用的环境下，硬件和软件的匹配关系是谁先迈出那一步？是硬件不断提升本地算力，还是我们把本地模型做得更小？

董红光：首先，我认为这一定是相辅相成的，硬件和软件要同时进化，并且互为影响、互为因果。这可能要涉及到 AI 交互的本质。今天大家都在说新的交互形态到底是什么？过去的命令行交互、图形交互（键盘鼠标）、触控交互，我认为更多的是一种「指令式交互」。

也就是说，用户有一个需求，他需要自己在脑子里翻译成一步一步的操作指令，无论是用电脑还是手机，然后用非常精准的指令告诉计算机怎么做。图形化只是让这个过程变得更易用，但本质没变。

但今天大模型带来的新交互革命，我认为不再是指令式的，而是一种「需求式」的。它能深刻理解用户的模糊需求，并帮助用户完成中间决策和具体执行。这就非常像我们行业里念叨了很多年的「个人助理」，它是一种类人的交互，你更多的是向它表达你的需求，而不是告诉它完成需求的具体步骤。

这会让软件和硬件的形态产生比较大的变化。指令式交互需要非常精准的点按或输入操作，但表达需求通常是模糊的。所以我们看今天的大模型主要还是以聊天（Chat）为主，因为语言才能表达模糊的需求，而按钮、命令不行。

再深一步想，如果打字能把事情表达清楚，那更简单的做法是什么？其实是说话。说话永远比打字更快。再进一步想，如果你有一个真正的人类助理，一种方式是你跟他说话交流，另一种方式是他跟在你身边，能感知到你遇到了什么情境，处于什么环境下，需要什么。比如引入视觉能力，也就是所谓的「你跟他说半天，不如让他看一眼」。

这样，AI 大模型对意图的理解会变得越来越好，这些事情就得以实现。我们与机器打交道的方式就变得越来越方便。所以，未来基于 AI 的交互形态，一定不是图形化的点按式交互，而是基于模糊需求、多维度的交互，也就是行业里一直说的「多模态交互」。

一旦多模态交互成为可能，对应的硬件和软件就会发生巨大的变化。过去的手机是为图形化交互设计的，所以它有一个大屏幕。今天手机的尺寸，是在便携性和操作性之间平衡后的最优解。但未来，如果你是基于交流和需求表达，手机就未必是最适合的设备了。一方面，它要揣在兜里，使用起来本身就不方便；另一方面，用户对手机已经形成了路径依赖，认为它是一个工具，在心理上不是那么愿意跟手机对话。

所以我们可以看到，手机上个人助理类 APP 的使用率，其实没有智能音箱、车机等设备高。

因此，从我的角度看，可能硬件上先迈出一步，才能更多地发挥 AI 的作用，然后 AI 应用才能在其中探索出新的可能性。我认为穿戴类设备可能会是 AI 交互变革迈出的第一步。穿戴设备和手机的差异会非常大，因为它是一个「always on」（永远在线）的东西，无论是你主动唤起，还是 AI 主动感知和触达，都会变得异常方便。这应该就是迈出第一步的核心逻辑。

张鹏：说得特别好。以前的交互进步，本质上都是人如何将就机器，把我们的意图变成指令。最早要编程，后来变成按一下。整个交互的演进，都是在想办法让人别太委屈，但总体上还是要将就机器。

而接下来的交互核心，是从指令型交互转变为对需求的理解。那就意味着机器不能再让人将就，而是机器要向人靠拢。这意味着交互中需要新的多模态能力，因为只有靠多模态才能把模糊的东西看清楚。比如你说「把那个给我处理一下」，如果我能看见你指的是什么，我大概就懂了，不需要你清晰地描述。这和之前的思路相比是一次跳跃。

如果这是接下来交互要解决的问题，硬件就要先具备某种能力。以前的手机，大部分东西都是给人看的，比如屏幕、为了拍照给人看的摄像头。但按照刚才的思路，要处理模糊需求，需要多模态的理解和交互，那就意味着机器上一定要有给 AI 看的东西，这些传感器就变得超级重要。

你提到了可穿戴设备，这是否意味着可穿戴设备接下来必然要在传感器装备上迎来大爆发？未来可穿戴设备上的传感器丰富度会越来越多，因为它没有别的交互手段，需要更主动地理解用户。

董红光：是的，我非常认可。AI 交互的核心逻辑在于，它能够帮助用户做中间决策和具体执行。而这一切的前提，是它要更懂用户，无论是懂用户过去的偏好，还是懂用户当前所处的状态，包括个人状态和环境状态。只有这些信息都掌握了，它才能辅助决策。

就像请一个真人助理，如果这个助理跟你没什么交流，也没有跟着你，很多时候他是没办法主动帮你完成很多事的。映射到机器上也是一样，一方面，机器要从方方面面帮助你完成各种事，才能积累你过去的行为偏好数据；另一方面，就是引入新的传感器。过去手机虽然也有一些传感器，但本质上是人把需求翻译给它。今天，你的需求是要直接向它表达的，所以它需要新的传感器，比如语音、视觉，当然也包括屏幕、身体的各种传感器、GPS、IMU 等等。这些东西的引入，最终才会让它像一个一直跟随着你的助理。所以，这一定是未来的大方向。

张鹏：从这可以看出来，下一代交互所需的设备一定不是上一代的设备。它的所有传感器，不只是给用户看的，首先要满足 AI 在交互上所需的数据源头，这样才能实现你说的更进阶的、直接听懂需求、完成价值交付。

03手机作为个人计算中心的时代要结束了

张鹏：我还有一个好奇，就是苹果。当年雷总刚创业时也说从苹果身上学到很多。这么多年过去了，你认为苹果真正定义了这个行业、成为王者的、最有价值的做对的事情到底是什么？从你的视角看，能从它身上学到什么？

董红光：我觉得苹果是一家穿越了很多周期的公司。它之所以能够穿越周期、保持竞争力，最重要的一个点，是它对于人机交互的深刻洞察。这基本上是它在每一次产业变革中都能保持先发优势并持续耕耘的核心。

比如 PC 时代，苹果第一次发布了图形化交互的个人电脑 Lisa，虽然当时不成功，但第二年的 Macintosh 获得了巨大成功。这就是当年的远见。到 2007 年，苹果又发布了 iPhone，重新定义了新的软硬件交互范式。从 2007 年到今天 2025 年，18 年过去了，今天手机的交互范式基本上没有脱离当年定义的那套东西。

这是苹果最核心的竞争力，他们也认为自己最重要的是一家做人机交互的公司。而且他们一直在主动迭代，比如后来引入了多设备协同。当你有手机、PC、手表、耳机等设备时，它们可以便捷地打通。这本质上也是人机交互的变革。这个变革背后的原因就是，过去是人将就机器，未来是机器将就人。除了 AI 深刻理解用户需求，另一个点就是设备的多样性。未来不再是一个设备完成所有事，而可能是一个需求由几类设备在不同环节共同满足。

再到今天，他们又开始做 Apple Intelligence 等等。所以，我认为这是他们过去这么多年能够保持领先、穿越周期的最重要优势。

张鹏：在你看来，手机这个形态，为什么会收敛到全球剩下不到 10 个有竞争力的品牌？是不是意味着手机这个形态被锁在了某个时代进程里？

董红光：先回答第一个问题，为什么手机厂商变得这么少。我认为是因为手机的难度在变高，它由一个专用设备变成了一个通用设备。在功能机时代，主要就是打电话、发短信，本质上是在比拼硬件能力，软件没那么复杂。当时国内硬件产业链很发达，做出那样一款硬件不难，所以林林总总可能有上百个品牌。

但到智能手机时代，它变成一个通用设备，用户对它的需求提升了好几个数量级。这时，竞争就变成了从硬件、操作系统、软件生态到具体应用的综合性竞争。很多厂商没有全栈能力，就慢慢跟不上了。同时，通用设备会带来更强的品牌力、用户粘性，出货量大了还有供应链优势，这些都会让强者愈强，弱者愈弱，最终厂商数量逐步收敛。

张鹏：那在AI时代，手机还能焕发青春吗？交互的变化有没有可能在手机上发生？

董红光：手机厂商肯定会去探索这件事，手机本身也是一个很好的品类。但我认为，未来是多设备协同，用 AI 来做整体的用户需求理解和多设备调度。未来会有一个「大脑」，所有的硬件都是这个大脑的肢体，比如眼睛、鼻子、嘴巴、耳朵。

在这样的情况下，手机有它的优势，也有局限性。它的优势是屏幕大，很多时候你需要展示内容，手机依然是便携设备中屏幕最大的。但它的劣势也很明显：第一，它没办法一直掏出来使用，做到「always on」，去帮助用户感知环境；第二，它也没办法主动触达用户，因为它揣在兜里，用户只有掏出手机才能看到信息。

这两点都是未来手机的劣势。

我的观点是，AI 时代一定是多种设备各展所长。过去的硬件是集交互与算力于一体的，你只有用手机这样稍微大一点的设备，才有足够的算力去支撑图形化交互。但 AI 交互时代，理论上可以做到算力和交互的分离。因为今天，哪怕是最强的手机，做大模型推理也远远不够，几乎都是在云端才能达到好效果。

所以，很长一段时间内，这个「大脑」都会在云端。一旦大脑在云侧，每个设备的算力就不是那么重要了，它的交互属性会变得更重要。这样一来，设备就可以分散开来，摆在用户最适合的位置。比如语音交互，最适合的设备就是离嘴和耳朵近；如果是视觉输入，最适合的可能是在头部附近。

张鹏：至少是胸部以上。

董红光：是的。如果是感知用户身体的传感器，比如心率，那至少也应该在手腕上或耳朵里。所以未来会变成一个多种设备协同的逻辑，手机会慢慢退化成发挥其大屏幕优势的设备之一，而交互也会变得更加分散。

张鹏：你刚才说的蕴含着一个特别重要的洞察：手机作为个人计算中心这件事的瓦解已经开始了，而且非常确定。

我们每一次通过手机上的大模型应用，虽然还在用手机，但其实这件事已经瓦解了。手机上那么好的芯片、功耗和续航的优化，在你用大模型的时候都关系不大了，它就是一个网页加屏幕，成了一个瘦客户端，不再是一体化的个人计算中心。你越用 AI，手机作为中心设备的地位就越在被瓦解。

这个洞察非常重要。由此推理，任何位置的设备都可以用一种分布式的方式，出现在最该有的地方。以前我们用手机其实也得将就着，反正就这么一个设备能随身带。现在不用将就了，我这儿摆一个，那儿摆一个，分布式地串在一起，很多东西用云端，局部用本地，最终完成用户价值的交付。

这个推理下来是合理的，它指向了未来 AI 时代的硬件可能不再是一个中心化的系统，而是一个分布式的设备结构，但可能由一个统一的 IO 系统来驱动。这才是未来产品和操作系统的可能形态。我这么解读对不对？

董红光：是的，没错。未来一定是多设备联动，统一交给一个AI大脑去调度。

虽然现在大家也在探索一些一体化的设备，比如 AR 眼镜。AR 眼镜集成了摄像头、屏幕、麦克风、扬声器，能干很多事，但我个人认为它的传感器依然是有限的。未来想发挥更大作用，它依然要配合更多的设备来完成对环境的感知。另外，今天 AR 眼镜也并没有那么成熟。在此时此刻，多种设备协同对于发挥 AI 的价值会更加重要。

张鹏：这个推导非常合理。手机精心打造了一整套作为个人计算中心的东西，但当个人计算的本质已经不在这个设备上时，总有一天用户会觉得，我是不是真的需要这样一个东西？这也意味着有更多设备不需要那么复杂的芯片和电池，也能交付很好的价值，新的可能性就出现了。

04做耳机，但做有更多传感器的耳机

张鹏：是不是可以透露一下你们接下来产品的形态？我们也可以用你的产品当例子，来理解你这些认知的实践。

董红光：我们的产品也快做完了，留一些悬念，但也可以讲一些东西。

刚才讲的这些东西，基本就是我们整个团队创业的思考，并且已经融入到我们创造的产品中。我们这款产品是一个软件非常重的硬件，而不是一个硬件加一两个 AI 功能。我们瞄准的是下一代核心交互设备。

从我们角度来说，第一，它理论上会有很丰富的功能。因为它是一个新的交互设备，要满足用户日常的各种需求，而不是只满足一个需求，否则就成了专用设备。在此基础上，我们会打造一套我们所谓的「AI 操作系统」。在这个操作系统之上，会有很多应用，无论是用新的交互形态重新满足过去的需求，还是产生全新的体验。

在这个出发点之上，我们会有很多相对实用的功能，并且是按照操作系统的逻辑在打造它，后续也会陆续接入很多开发者，去探索用户的各种需求。

硬件层面，我们觉得未来各种硬件都会在 AI 体系下发挥作用，因为 AI 需要很多传感器。我们团队也会陆续探索各种方向。但从大的角度来说，用户最核心的交互入口一定是语音加视觉，而这基本就是在头部的空间。

张鹏：我看评论区有人猜眼镜，我就先问一下，为什么不是眼镜？你们团队肯定也想过这个形态。

董红光：我们做的确实不是一款眼镜。

虽然我个人非常看好眼镜这个形态，从 Google Glass 开始就一直在关注，但这次我们没有选择眼镜的核心原因有几个。第一，眼镜现在还没有那么成熟，比如重量上，相比传统十几克的眼镜，AI 眼镜轻一点的也要 40 克左右，对长期佩戴有影响。第二，用户习惯需要培养。像我这种不戴眼镜的人，怎么能低成本地享受到 AI 的能力？眼镜对不戴眼镜的人群未必最友好。

但长期来看，眼镜是一个非常好的品类。所以我们也在持续关注和探索。

说回来，头部空间也就那么几种设备。我们会从「耳机」这个品类开始出发，但也不是传统的耳机。就像当年苹果发 iPhone，它选择的是手机这个传统品类，但实际上是用交互和软件重新定义了手机。它推导出手机需要什么样的能力、传感器和形态，所以我们看到第一代 iPhone 是全屏幕、没有键盘、电容屏，还加了 GPS 等传感器，拓展了能力边界，才诞生了 LBS、O2O 等需求。

我们的思路类似，也会从传统品类切入，但会增加很多传感器，让 AI 能感知到更多信息。同时，我们也会去探索多种设备联动协同的体验。

张鹏：做耳机这件事，其实我们回到最初聊的那个思路——交互的进化，往往是从传感器的增加开始的。你看苹果的触控屏，它本身就是一个传感器，后来还整合了 GPS。本质上，是因为你需要有新的输入通路，才能把交互变得更自然、更直觉，真正做到「机器将就人」。

所以回到耳机这个形态，我觉得传感器这条路是必然会继续深化的。我甚至推测，未来很可能还得加上摄像头——毕竟就像你说的，胸部以上是视觉交互的黄金位置，如果缺了摄像头，就少了一个关键的模态输入。

不过我现在更感兴趣的其实是：一个设备加上摄像头，挑战可不小。硬件上对你们这样的团队来说，或许不难突破，但真正关键的是——加上之后，怎么让它创造出更大的用户价值？这才是能拉开差距的地方。我挺想听听你在这方面的看法。

董红光：摄像头是一个很好的话题，值得讨论。多模态交互除了语音，一定会涉及视觉。今天大家把摄像头放在不同位置，作用也不一样，有的是记录总结，有的是拍照抓拍，有的是录像拍 vlog。未来摄像头一定会成为重要的 AI 入口，这点毋庸置疑。但它确实也带来了功耗的挑战。

回过头来看，摄像头到底应该发挥什么作用？

就像当年 iPhone 加了 GPS，绝大多数人认为就是为了导航。但现在回看，我们发现 GPS 不只是为了导航，而是给手机加了一个传感器，让它知道你身处何处。在此基础上，才连接了 LBS、O2O 等本地化服务。

今天新的传感器也一样，不应该只发挥其最直接的数据价值。就拿摄像头来说，它更多的价值不只是拍照录像，而是在于「识别」和「感知」——识别线下的场景和需求。过去，人们想处理线下需求，必须手动输入到手机里。未来，摄像头就是去理解用户真实的、线下的所有需求，然后连接到线上的服务，省去用户输入的成本。

一旦定位是这个价值，我们刚才提到的功耗问题，就可以换个思路看。你如果一直在录像，功耗当然扛不住。但如果你只是在做感知，对功耗的要求就会大幅降低。所以，同样是这颗传感器，怎么去使用，最终会影响到整体的体验效果。

张鹏：这点特别重要，我也非常认同。本质上就是我们一开始聊的，今天你可能需要先给 AI 做好服务，然后 AI 才能帮用户做好服务。你加一个摄像头，不是我们原来认为的多了一个相机，而是给 AI 配了一个传感器。不给它配传感器，它怎么带来全新的体验呢？

在这个维度上，不管它是什么形态，很重要一点是先伺候好 AI，再让 AI 伺候好用户。

05主动性的 AI需要更多的用户数据和上下文

张鹏：聊到交互，语音这件事看起来是人表达意图最顺的方式。语音交互也提了十年了，从 Alexa 到国内的智能音箱大战，但并没有根本上改变我们与设备的交互方式。今天大模型提供了能力。但如果要让它真正变成用户行为的改变，有什么前提条件？在设备上、场景上有什么要求？

董红光：上一代语音交互没有大爆发，有很多原因。最核心的还是技术上不够成熟。那时的 AI 对用户意图的理解、后续的规划等都远远不够，最后就变成了一个简单的模态变化，本质上还是指令式的，上下文串联也很难。

一旦语音变成指令式交互，它的信息密度就不够了。图形化界面的信息密度非常高，但要靠语音播报，得念很长时间。就像盲人模式用手机，语音一直在念屏幕上的元素，我不觉得那是一种高效的交互形态，因为它只是做了一层低效的模态转化。

但今天的 AI 不一样，它不只是模态转化，它能理解你的意图，你不需要一步一步操作，它能帮你做决策。这样一来，交互轮次会变得非常少，甚至它能主动发现需求。这是今天的 AI 能做到但过去做不到的。

从硬件层面，过去的音箱、车机场景相对有限。音箱主要是家庭场景，车机是车内场景。搬到手机上，场景虽然好，但因为揣在兜里，用起来不方便，而且用户对手机的认知是工具而非交流设备。

未来，大模型解决了意图理解、连续对话、规划等问题后，我们只要能挖掘出更好的设备形态和场景，就不会重蹈覆辙。比如，可以做到主动触达用户。有时候用户有需求，但可能不知道大模型能做，或者觉得掏手机解锁太麻烦，就自己解决了。但如果 AI 有感知能力，就能先人一步解决问题，处理的场景就会更多样。

如果是穿戴类设备，24 小时陪着人，场景多样性会非常多。当然，这需要用户习惯的养成。一方面，主动式服务是引导用户习惯的重要手段。另一方面，穿戴设备可以切入一个点：用户虽然一直带着手机，但并非 24 小时都能用。当你的手和眼睛被占用时，比如开车、骑车、做家务、陪小孩，你虽然有需求，但没法用手机。在这些情况下，通过新的 AI 交互（语音+视觉）来解决用户原来有手机也无法满足的需求，是培养用户习惯的一个比较好的切入点。

张鹏：这个总结很有启发。第一，不能只考虑输入（Input）简单了，还要考虑输出（Output）的匹配。你不能输入很简单，输出却很复杂，比如念一分钟的话。今天大模型有生成能力，可以生成文字、图片、路线图等更匹配的结果。

第二，你讲到了可穿戴设备和主动性。我追问一下，主动性这个词大家都认同，但我用过的所有号称有主动性的AI产品，都让我有点被动，主动得并不到位。你觉得主动性这件事要做好，需要满足什么前提条件？

董红光：这是一个循序渐进的过程。想做好主动性，需要很多前置条件。就像一个真人助理，他什么时候能更好地帮你？一定是他对你个人有足够多的了解，无论是过去的偏好，还是当前的环境和问题。

对应到 AI 也是一样。第一，它需要掌握更多数据，了解用户方方面面的事情。比如你安排出差，它要知道你偏好的航司、你家住哪、离哪个机场近、你接下来的日程等等。这需要它参与到用户的方方面面。

第二，需要新的传感器引入。比如你正在忙，AI 主动跟你说话，就是我们说的「没有眼力劲」，会打扰用户。引入一些传感器就能解决这个问题，它能知道用户正在干什么。

第三，是 AI 的个性。如果 AI 是一个工具化的思路，就很难做成主动性。工具是用户用的时候才拿起来，不用的时候希望它不打扰。但今天的 AI 会更像人，你可以跟它产生连接和信任感。你可能很难容忍一个工具一直骚扰你，但可以容忍一个朋友在不合时宜的时候找你。所以这需要三方面综合改进，但只要迈出第一步，就能产生价值。

06通用硬件的价值一定大于专用硬件

张鹏：从去年创业到现在，市场上也出现了很多新形态的AI硬件。你看起来非常坚持往通用的赛道走，为什么？

董红光：今天 AI 硬件的百花齐放是非常有价值的，因为大家都在探索 AI 到底能发挥什么作用。但从一个更长远的角度看，通用设备的价值一定会远高于专用设备。

比如智能手机时代，在它出来之前甚至之后一段时间，依然有很多专用品类，像 MP3、MP4、数码相机，它们体验很好。但智能手机出来了，它能做到那些事情的八成效果。绝大多数用户对于那么专业的功能其实没有那么高的要求，手机作为一个通用设备，能解决 80% 的需求，很多用户就会妥协。毕竟多带一个设备就多一份成本。

未来AI也是一样。虽然形态会很多样，但我认为未来这些设备都会围绕一个「大脑」来做所有通用的事情。如果一个设备只完成一件事，除非这件事特别高频刚需，且完成得非常好，否则用户佩戴它的成本就很高，收益不大。这也是今天 AI 硬件一个很重要的问题：买的时候兴致勃勃，但很容易吃灰。很少有一个功能是真正意义上的高频刚需。

反观手机，它是一个高频设备，因为它上面承载了大量的用户需求，用户时不时用它处理各种事情。所以，我们要解决「吃灰」的问题。如果不走通用设备的逻辑，用户群会比较小。AI 不应该仅仅如此，它应该是平权的，让更多人享受到乐趣。核心就是提升佩戴它的价值感。佩戴成本是固定的，但价值感一旦放大，用户的接受度就会更高。这就是我们为什么要做通用型 AI 硬件和平台。

张鹏：你把「通用」放在了用户价值增益的维度上，越通用增益越大。这个视角很有道理。

但我也感觉到，当有了这么多新的传感器输入，如何处理好这些信息，去寻求更高价值的用户交付，这既有软件问题，又有用户体验和交互思考的问题，还要跟模型有效连接。这个后续的工程链条是不是比以前做硬件空前复杂了？

董红光：是的，挑战很大。如果你只做一两个功能的专用硬件，相对好打通。但一旦到通用设备，就像从功能机到智能手机的转变，操作系统的复杂度会远超以往。因为它要处理更多的硬件，调度海量的软件。

今天在新的形态之下依然如此。它要面临大量的传感器、不同设备间的协同。在软件层面，你不可能自己开发几万、几十万个应用，最终还是生态的逻辑。这些应用的调度非常复杂。

第三，是人机交互的编排。过去可能是纯粹的图形交互，但未来是多模态交互，不同的感知数据进来后，怎么融合、处理？输出时，什么类型的信息用什么模态输出？这变成了一个多模态融合和混排的逻辑，对人机交互是巨大的挑战。所以，今天有一个重新构建整个软件体系的需求。

张鹏：现在用户都开始关注隐私问题，看到摄像头内心就会紧张。如果我们把它理解为传感器，意味着它不是拍下来、存起来、未来可以还原，而只是在瞬间里把它「tokenize」（符号化），变成向量去理解一个东西，并且不可还原。这就像是我的第三只眼，我的AI是我的外挂大脑。如果我睁着眼看你不侵犯隐私，那我的传感器多一个也不侵犯隐私。这么划分对不对？面对隐私问题，未来怎么解决？

董红光：隐私是整个 AI 体系下非常重要的一件事，涉及对用户自己和对第三方的隐私保护。要服务好用户，AI 必然需要知道用户非常多的真实情况。

这分几个层面。第一，在使用方面，就像刚才提到的，它到底用来做什么？如果用来回放、截取、分享，那对第三方是巨大的隐私风险，对自己也是。所以第一个点就是，在使用上尽量不处理原始数据，做到不可还原。

第二，从技术手段来说，是否真的能做到不可还原？这方面的技术方案刚刚起步。业界像苹果在做的 Private Cloud Computing (PCC) 方案，还有一些像同态加密等新技术，会随着技术发展慢慢把隐私保护做得更强。

07AI 时代的操作系统，小厂也有机会

张鹏：听下来，我们已经讨论到操作系统级别的问题了。本质上就是它的输入和输出（IO）都要基于数据融合做重新的处理，里面要有推理能力，还要有生成能力。这不就是操作系统的最底层吗？今天又没有一个像安卓那样的现成系统。这就意味着，你们这样的创业公司虽然在做一个设备，但听你的追求，是要站在操作系统的角度去构架这件事，才能让它持续成长，而不是一个单点功能。我这个理解对不对？

董红光：是的，没错。当你有两三个功能时，有没有这套软件体系不重要。但当你有两三万个功能时，有没有这套体系就是 0 和 1 的问题，是能和不能的问题。这件事是一定要迈过去的坎。

而过去的操作系统，比如 Windows、Android、iOS，虽然也很复杂，但它们解决的本质上是图形化交互的问题。我过去也做操作系统，那些系统里大概一半的代码都是图形系统的。但这一套在新的时代，可用的东西就很少了。新的时代更多的是语音、视觉和多模态混排的交互。基于大模型之后，整个架构和能力复杂度都会发生巨大变化。所以此时此刻，没有一个现成的东西能很好的完成这件事。

这是每一个追求做通用硬件、通用平台的公司都要面对的问题。

张鹏：从你的视角看，这个时代的操作系统，最终会由谁来定义和创造？是需要等大厂做出来，才会出现生态繁荣吗？

董红光：我觉得这不是大厂小厂的逻辑，而是谁能找到最佳的软件和硬件范式。在这个范式之上，大家再去补充应用，才能发挥更好的效果，操作系统才会繁荣。

至于它是由大厂还是小厂做出来，我觉得不一定。当年微软做 Windows 时公司也没多大；苹果做 iOS 时也不算大公司；Android 也是收购来的创业公司。所以这不是一个拼资源的事，更多的是谁先找到最适合的解决方案，并建立起能吸引开发者和用户的模式，最终形成闭环。

张鹏：说白了就是世界观的成功。在新浪潮里，你的认知要跟大势共振。那我们再推演一下，上一代操作系统诞生了 App 生态，那AI时代的操作系统里，App 还会存在吗？软件生态会是什么样子？

董红光：从用户角度来说，App 形态一定会慢慢消亡。在一个个人助理的模式下，用户不会跟那么多 App 直接打交道。就像老板请了助理，很多事不是助理亲手干，但老板是直接跟助理沟通，由助理再去调度其他人。未来也是一样，用户会直接表达需求，由操作系统来找到最适合的后续服务来满足。

从技术角度来说，今天很多还是在用所谓的「浏览器自动化」和「手机自动化」的逻辑，比如 AI 浏览器、手机上的大模型去一步步点击网页或操作 App。这在早期利用现有生态提供服务是很有价值的，但不是长久之计。就像早期智能手机上的网页都是 PC 网页转码过来的，堪堪可用但不好用。很快，就产生了原生的手机应用。

今天 AI 时代也一样，会出现非常多的原生 AI 应用，它们的逻辑和原来的网页、App 完全不同。比如各种各样的 Agent，就是为 AI 交互设计的。未来可能不只是 Agent 这一种形态，但特征是类似的。比如，大脑在云端，很多应用的核心部分甚至交互都会放在云端处理。另外，未来的应用也未必都是模型驱动的。对于一些确定性问题，传统的代码逻辑可能更可靠。一些传统的服务形态还会有存在的价值。只是前端会有一个大的助理 Agent 来调度不同类型的后端服务，统一以类人的形式提供给用户。

张鹏：如果存在这样一个AI时代的硬件操作系统，它是否有可能兼容多种设备？因为大脑算力在云端，本地设备的需求都差不多，反过来它是不是更能支持硬件创新的百花齐放？

董红光：是的，我非常认同。不只是端侧要统一，整个操作系统的逻辑应该是端云紧密协同的。不同硬件算力不同，有些事端侧算力够就在端侧做，不够就挪到云端或其他算力高一点的端侧。如果每个设备都用各自的系统，技术架构完全不同，那所有代码都要重写，对开发者是巨大的成本。所以，在云端大脑、端侧多设备协同的模式下，只有同构的操作系统才能降低研发成本，并提供更一致的体验。

转载原创文章请添加微信：founderparker

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.