我做了一面「言出法随」的墙:表面上是一面墙,随时在任何区域出现任何我想要的东西
这面墙,会出现在我的新的 AGI Bar 里(正在装修,很大)
整个酒吧会变成一个大的具身空间,布满麦克风,识别我朝哪儿、说了什么,然后对应区域的墙面开始变化,机械臂开始运动
甚至,我还可以让墙面去干活,比如可以让它去我的某个账号里拉取资料,也可以让它执行各种操作。生成内容、找材料、执行动作,都行
![]()
但我遇到一个很头疼的问题
现有的语音交互方案,一旦我脑子卡壳、话说到一半停顿了,系统就会判断「他说完了」,然后开始执行
这让交互变得很别扭。我不想每次都说一个唤醒词,也不想用「over」来告诉 AI 我说完了。我需要的是一个能感知我有没有说完话、能理解我到底想干什么的 AI
正常人聊天,不会是这样的
微信里聊天,可能我说两句、你说三句,甚至我不理你你又说了两句。现在的 AI 对话太刻板了,必须一问一答,显得很傻
![]()
而且把...你让它从 1 数到 10,数到 7 的时候问它数到几了,很多模型会直接说「10」。因为它脑子里已经预排到 10 了,中间打断它根本没用
之前只有一个解决方案,就是用 OpenAI 的 Realtime API,在加上一点魔改,实践下来每个麦克风每个小时的成本在 30 美金左右...太特么贵了,而且中文并不好
前些日子跟面壁智能的朋友聊,他们整出了个新东西:全双工全模态
全双工的意思是,模型可以同时输入和输出,互不阻塞。它说话的时候还在听、还在看,你可以随时打断它,它也能根据环境变化随时调整
更关键的是,模型自己判断什么时候该说话。不需要你说唤醒词,不需要你说「over」,它能根据语义判断你说完没、你想要什么,在生活的场景中,成为真正的交互伙伴
这正好是我的墙壁需要的能力,而这个模型今天开源了:MiniCPM-o 4.5,9B 参数
![]()
MiniCPM-o 4.5 模型架构 先说清楚语音交互的几种模式
目前市面上的语音交互方案,大概分两类
第一类是「对讲机模式」
大多数语音助手用的都是这个。系统先把你说的话识别成文字,处理完之后再用 TTS(文字转语音)播报出来
流程是:语音 → 文字 → 处理 → TTS 播报
![]()
很显然...这里的延迟是打不下去的,而且语音里的语气,比如不同音调的 wocao,完全无法区分含义
第二类是端到端模式
OpenAI 的 Realtime API 和面壁的 MiniCPM-o 都属于这一类。模型直接处理语音,不需要先转成文字,交互更自然
Realtime API 的对话能力很强,但它只能处理语音,看不到画面
![]()
MiniCPM-o 能同时处理语音和视频。这是它的核心差异
这里要说一下,很多模型号称能「看视频」,其实是在你说话的间隙截一张摄像头的图片,然后处理这张静态图。不是真正的实时视频流
MiniCPM-o 4.5 做的是原生全双工全模态
「边看、边听、主动说」
![]()
无论模型在沉默还是在说话,都保持着对外界的感知。你可以随时打断它,它也可以根据环境变化随时调整输出
比如在下面的这个例子中,模型会随着画面的变化,不断描述
全双工具体是怎么回事
说人话就是:模型的眼睛、耳朵、嘴巴可以同时工作,互不干扰
技术上怎么实现的?
模型把视频流、音频流、文本输出这些并行的信息,切成很小的时间片(毫秒级),轮流处理。宏观上看起来是同时进行的,实际上是快速切换
![]()
这样做的好处是,模型说话的时候不会「闭眼捂耳」,可以根据你的反应随时调整
还有一个关键能力:模型自己判断什么时候该说话
现在很多产品靠 VAD(语音活动检测)来判断用户说完没。简单说就是检测到你停顿了一段时间(比如 1 秒),就认为你说完了
VAD 的问题很明显:
• 不知道是谁在说话,嘈杂环境下容易误判
• 拍个桌子可能被当成说话
• 必须硬等一段时间才能判断,延迟高
MiniCPM-o 4.5 不用 VAD。模型自己每秒判断很多次,根据语义来决定要不要回应
它可以预判你是否说完,不需要硬等;也可以被打断,根据你说的内容判断而不只是声音大小
![]()
主动交互机制示意 主动择机回复
全双工带来的另一个能力是「主动交互」
你可以给模型下一个条件指令,它会持续监测,在条件触发时主动回应
比如:「等绿灯亮了叫我」
![]()
模型会一直盯着画面,看到信号灯变化就提醒你。这对视力不好的人过马路很有用
比如:「等电梯到 24 层了叫我」模型实时跟踪楼层数字,到了就喊你
这种模式,也可能会带了更多人与AI的交互创新,比如和 AI 打个扑克
更有意思的是环境音识别
现有很多视频通话模型只能听懂人说话(Speech),听不懂环境音(Audio)。MiniCPM-o 4.5 可以识别环境音
「微波炉叮了告诉我」、「听到门铃声提醒我」、「水流声停了喊我」这些它都能处理。因为是原生全双工,不靠外挂工具,对环境音的识别比那些只能听人声的模型灵敏很多
![]()
持续在线的两个层面
之前介绍过一个叫 OpenClaw 的项目
它是一个本地 AI Agent,可以理解为封装了一个类似 Claude Code 的东西。通过心跳机制(Heartbeat)和定时任务(Cron),实现周期性监控。比如每 30 分钟扫描一次紧急邮件,检测到异常可以半夜发消息
OpenClaw 做的是Agent 侧的持续在线。它负责执行任务、调用工具、管理流程
MiniCPM-o 4.5 做的是模型侧的持续在线。它负责感知环境、理解语义、决定何时回应
这两个层面如果结合起来会很有意思
一个持续感知的模型,加上一个持续执行的 Agent。模型看到什么、听到什么,Agent 就去做什么
这才是我想要的「言出法随」墙壁的完整形态
![]()
前几天开了个沟通会
前几天有个面壁的小会,聊了不少东西
有人问到具身智能。刘知远说:MiniCPM-o 4.5 这种全双工模型,非常接近机器人所需的状态。人类就是边听边说、多通道并行处理的。以前的模型做不到,一说话就不能看
姚远(面壁多模态研发负责人)补充:目前具身智能最大的问题不在底层控制,在泛化性和长程规划。全模态大模型是具身智能实现通用性的机会
李大海把具身智能分成三层:
• 0.1 Hz:深度思考
• 1 Hz:日常感知、规划(MiniCPM-o 4.5 做的这层)
• 10 Hz:具体动作控制
![]()
现在行业缺的是把 1Hz 的「大脑」和 10Hz 的「小脑」结合起来
面壁还将在今年年中,发布一个叫「松果派」的开发板,类似树莓派,预装了端侧这套模型和推理框架。开发者可以直接上手做 AI 硬件原型
![]()
回到我的墙
我的「言出法随」墙壁,硬件层面已经 ready 了。毕竟我是硬件出身
模型层面的需求是:一个能持续感知、不需要唤醒词、能自己判断我有没有说完话的 AI
MiniCPM-o 4.5 给了一个方案
9B 参数,端侧可部署,中文原生支持,成本可控
交互模式也变了。从「一问一答」到「随时插话」,从「对讲机」到正常人聊天
最后...再给大家看一个我觉得很有意义的东西:在盲道上,大模型会一直帮你看着路面,如果有不对的地方,它就会和你交互
然后,现在这个模型已经开源了,欢迎体验
![]()
GitHubhttps://github.com/OpenBMB/MiniCPM-o
Hugging Facehttps://huggingface.co/spaces/openbmb/minicpm-omni
体验链接https://minicpm-omni.openbmb.cn/
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.