网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

让大模型【告别回合制】：同时看、听、说、一直察言观色｜MiniCPM-o 4.5 开源

2026-02-04 21:03:06　来源: 赛博禅心

北京举报

0

分享至

我做了一面「言出法随」的墙：表面上是一面墙，随时在任何区域出现任何我想要的东西

这面墙，会出现在我的新的 AGI Bar 里（正在装修，很大）

整个酒吧会变成一个大的具身空间，布满麦克风，识别我朝哪儿、说了什么，然后对应区域的墙面开始变化，机械臂开始运动

甚至，我还可以让墙面去干活，比如可以让它去我的某个账号里拉取资料，也可以让它执行各种操作。生成内容、找材料、执行动作，都行

但我遇到一个很头疼的问题

现有的语音交互方案，一旦我脑子卡壳、话说到一半停顿了，系统就会判断「他说完了」，然后开始执行

这让交互变得很别扭。我不想每次都说一个唤醒词，也不想用「over」来告诉 AI 我说完了。我需要的是一个能感知我有没有说完话、能理解我到底想干什么的 AI

正常人聊天，不会是这样的

微信里聊天，可能我说两句、你说三句，甚至我不理你你又说了两句。现在的 AI 对话太刻板了，必须一问一答，显得很傻

而且把...你让它从 1 数到 10，数到 7 的时候问它数到几了，很多模型会直接说「10」。因为它脑子里已经预排到 10 了，中间打断它根本没用

之前只有一个解决方案，就是用 OpenAI 的 Realtime API，在加上一点魔改，实践下来每个麦克风每个小时的成本在 30 美金左右...太特么贵了，而且中文并不好

前些日子跟面壁智能的朋友聊，他们整出了个新东西：全双工全模态

全双工的意思是，模型可以同时输入和输出，互不阻塞。它说话的时候还在听、还在看，你可以随时打断它，它也能根据环境变化随时调整

更关键的是，模型自己判断什么时候该说话。不需要你说唤醒词，不需要你说「over」，它能根据语义判断你说完没、你想要什么，在生活的场景中，成为真正的交互伙伴

这正好是我的墙壁需要的能力，而这个模型今天开源了：MiniCPM-o 4.5，9B 参数

MiniCPM-o 4.5 模型架构先说清楚语音交互的几种模式

目前市面上的语音交互方案，大概分两类

第一类是「对讲机模式」

大多数语音助手用的都是这个。系统先把你说的话识别成文字，处理完之后再用 TTS（文字转语音）播报出来

流程是：语音 → 文字 → 处理 → TTS 播报

很显然...这里的延迟是打不下去的，而且语音里的语气，比如不同音调的 wocao，完全无法区分含义

第二类是端到端模式

OpenAI 的 Realtime API 和面壁的 MiniCPM-o 都属于这一类。模型直接处理语音，不需要先转成文字，交互更自然

Realtime API 的对话能力很强，但它只能处理语音，看不到画面

MiniCPM-o 能同时处理语音和视频。这是它的核心差异

这里要说一下，很多模型号称能「看视频」，其实是在你说话的间隙截一张摄像头的图片，然后处理这张静态图。不是真正的实时视频流

MiniCPM-o 4.5 做的是原生全双工全模态

「边看、边听、主动说」

无论模型在沉默还是在说话，都保持着对外界的感知。你可以随时打断它，它也可以根据环境变化随时调整输出

比如在下面的这个例子中，模型会随着画面的变化，不断描述

全双工具体是怎么回事

说人话就是：模型的眼睛、耳朵、嘴巴可以同时工作，互不干扰

技术上怎么实现的？

模型把视频流、音频流、文本输出这些并行的信息，切成很小的时间片（毫秒级），轮流处理。宏观上看起来是同时进行的，实际上是快速切换

这样做的好处是，模型说话的时候不会「闭眼捂耳」，可以根据你的反应随时调整

还有一个关键能力：模型自己判断什么时候该说话

现在很多产品靠 VAD（语音活动检测）来判断用户说完没。简单说就是检测到你停顿了一段时间（比如 1 秒），就认为你说完了

VAD 的问题很明显：

• 不知道是谁在说话，嘈杂环境下容易误判
• 拍个桌子可能被当成说话
• 必须硬等一段时间才能判断，延迟高

MiniCPM-o 4.5 不用 VAD。模型自己每秒判断很多次，根据语义来决定要不要回应

它可以预判你是否说完，不需要硬等；也可以被打断，根据你说的内容判断而不只是声音大小

主动交互机制示意主动择机回复

全双工带来的另一个能力是「主动交互」

你可以给模型下一个条件指令，它会持续监测，在条件触发时主动回应

比如：「等绿灯亮了叫我」

模型会一直盯着画面，看到信号灯变化就提醒你。这对视力不好的人过马路很有用

比如：「等电梯到 24 层了叫我」模型实时跟踪楼层数字，到了就喊你

这种模式，也可能会带了更多人与AI的交互创新，比如和 AI 打个扑克

更有意思的是环境音识别

现有很多视频通话模型只能听懂人说话（Speech），听不懂环境音（Audio）。MiniCPM-o 4.5 可以识别环境音

「微波炉叮了告诉我」、「听到门铃声提醒我」、「水流声停了喊我」这些它都能处理。因为是原生全双工，不靠外挂工具，对环境音的识别比那些只能听人声的模型灵敏很多

持续在线的两个层面

之前介绍过一个叫 OpenClaw 的项目

它是一个本地 AI Agent，可以理解为封装了一个类似 Claude Code 的东西。通过心跳机制（Heartbeat）和定时任务（Cron），实现周期性监控。比如每 30 分钟扫描一次紧急邮件，检测到异常可以半夜发消息

OpenClaw 做的是Agent 侧的持续在线。它负责执行任务、调用工具、管理流程

MiniCPM-o 4.5 做的是模型侧的持续在线。它负责感知环境、理解语义、决定何时回应

这两个层面如果结合起来会很有意思

一个持续感知的模型，加上一个持续执行的 Agent。模型看到什么、听到什么，Agent 就去做什么

这才是我想要的「言出法随」墙壁的完整形态

前几天开了个沟通会

前几天有个面壁的小会，聊了不少东西

有人问到具身智能。刘知远说：MiniCPM-o 4.5 这种全双工模型，非常接近机器人所需的状态。人类就是边听边说、多通道并行处理的。以前的模型做不到，一说话就不能看

姚远（面壁多模态研发负责人）补充：目前具身智能最大的问题不在底层控制，在泛化性和长程规划。全模态大模型是具身智能实现通用性的机会

李大海把具身智能分成三层：

• 0.1 Hz：深度思考
• 1 Hz：日常感知、规划（MiniCPM-o 4.5 做的这层）
• 10 Hz：具体动作控制

现在行业缺的是把 1Hz 的「大脑」和 10Hz 的「小脑」结合起来

面壁还将在今年年中，发布一个叫「松果派」的开发板，类似树莓派，预装了端侧这套模型和推理框架。开发者可以直接上手做 AI 硬件原型

回到我的墙

我的「言出法随」墙壁，硬件层面已经 ready 了。毕竟我是硬件出身

模型层面的需求是：一个能持续感知、不需要唤醒词、能自己判断我有没有说完话的 AI

MiniCPM-o 4.5 给了一个方案

9B 参数，端侧可部署，中文原生支持，成本可控

交互模式也变了。从「一问一答」到「随时插话」，从「对讲机」到正常人聊天

最后...再给大家看一个我觉得很有意义的东西：在盲道上，大模型会一直帮你看着路面，如果有不对的地方，它就会和你交互

然后，现在这个模型已经开源了，欢迎体验

GitHub
https://github.com/OpenBMB/MiniCPM-o

Hugging Face
https://huggingface.co/spaces/openbmb/minicpm-omni

体验链接
https://minicpm-omni.openbmb.cn/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

面向Agent时代！小米MiMo推出HySparse混合稀疏注意力架构

智东西 2026-02-07 15:43:18
0 跟贴 0
OpenClaw狂揽16万star，是时候聊聊Agent Tools的AB面了

机器之心Pro 2026-02-06 14:04:28
2 跟贴 2

地表最强编程王者PK！Opus 4.6双榜单封神， Codex 5.3速度满分

新智元 2026-02-07 10:29:05
1 跟贴 1

Stable-DiffCoder超越自回归模型！扩散模型在代码生成取得新突破

机器之心Pro 2026-02-06 13:42:33
0 跟贴 0
面壁智能开源全模态模型MiniCPM-o4.5，边看边听还能主动抢答

量子位 2026-02-05 23:20:12
0 跟贴 0

美国街头惊现机器人，行为不似机器更像模拟人，科技强国不一般！

茶笑观乐 2026-02-07 11:47:37
1 跟贴 1

美国开发六足机器人，跑起来堪比飞人博尔特

装甲铲史官 2026-01-03 11:19:04
765 跟贴 765
机器人表演时意外碰到围观老人双双倒地不起

观邯郸 2026-02-07 01:31:05
1 跟贴 1

新颖鳍足机器人，水陆两栖行动自如，适应各种地形

装甲铲史官 2025-12-25 10:58:04
0 跟贴 0
“机器人”手持双斧打功夫突然冲向观众席撞歪护栏多人被吓一跳

火炼树 2026-02-07 18:35:28
4621 跟贴 4621
马斯克：3年内机器人超越顶尖医生

财联社 2026-01-09 15:31:35
0 跟贴 0
原蚂蚁班底组队创业，打造GEO AI Agent，3个月内再融数千万

智东西 2026-02-06 16:02:13
0 跟贴 0
这才是机器人该替代的工作，让普通人干点，更轻松点的工作！

豆豆尬笑 2026-02-06 09:21:32
1 跟贴 1
十几万的宇树机器人，主驾50多万小米SU7Ultra，会产生怎样的火花

生活有易看点 2026-02-04 15:36:04
5 跟贴 5
波士顿机器狗练成“轻功”！连续七个后空翻

量子位 2025-09-07 01:03:18
0 跟贴 0
清华研究生开源大一统世界模型：性能超越硅谷标杆40%！

量子位 2026-02-07 22:06:28
0 跟贴 0
键盘长草，编程已死，agentic engineering时代已至

钛媒体APP 2026-02-06 23:26:12
1 跟贴 1
宇树机器人现场比心，机器狗表演马上翻身

财经网科技 2026-02-05 22:58:03
0 跟贴 0
深扒Rentahuman，AI雇佣人类是假，币圈“割韭菜”才是真？

钛媒体APP 2026-02-07 16:26:17
0 跟贴 0
苹果开放第三方大模型：开发工具接入AI，小白10分钟造APP不是梦

雷科技 2026-02-07 16:46:36
2 跟贴 2
五八智能四足机器人平台Q20A，适用于千行百业

量子位 2025-09-30 15:35:41
0 跟贴 0
工业机器人焊接，自从引进这工具后，生的三儿子活活饿死！

萱彤浅谈生活 2026-02-07 09:15:26
0 跟贴 0
五星红旗闪耀米兰冬奥会中国代表团开幕式登场

央视新闻客户端 2026-02-07 05:39:56
6625 跟贴 6625
爆火ClawdBot，划时代神器？

警花说 2026-02-05 23:36:20
0 跟贴 0
理想具身智能：从出行工具到“硅基家人”

燃擎频道 2026-02-06 16:41:04
0 跟贴 0
机器人三步上篮，以后打篮球，不愁没搭子了

烈焰童子 2026-02-06 11:21:05
0 跟贴 0
中方反击次日，巴拿马提解决方案，或归还长和经营权，但有个前提

看过人间的月色 2026-02-07 20:32:46
0 跟贴 0
人形机器人产业突破关键在于“大脑”核心技术

每日经济新闻 2025-09-16 20:30:32
0 跟贴 0
马斯克重磅发声：三年内部署AI成本最低的地方在太空，Optimus是“无限印钞机”

华尔街见闻官方 2026-02-07 20:43:04
0 跟贴 0
贾跃亭发布人形机器人

财联社 2026-02-05 16:34:58
0 跟贴 0
延迟下降20×，token减少4.4×！突破多智能体「共识」瓶颈

新智元 2026-02-07 12:23:24
0 跟贴 0
让机器人看视频学操作技能

机器之心Pro 2026-01-19 13:12:57
0 跟贴 0
湖北95后小伙从上海走回老家过年 36天瘦了27斤

大风新闻 2026-02-07 15:00:51
1311 跟贴 1311
掌心大小的AI伙伴，小巧却有温度，承包日常温柔陪伴

Maxonor创意公元 2026-02-05 18:37:34
0 跟贴 0
三天徒步百公里，打破吉尼斯世界纪录，解锁多场景实用模式

Maxonor创意公元 2026-02-07 18:17:31
0 跟贴 0
记者卧底揭秘黑茶营销内幕：收身份证、屏蔽信号、话术围攻，以卖茶为名拉人头，领队称“每天来四五千人，30天排满”

大风新闻 2026-02-07 12:08:18
532 跟贴 532
萧敬腾扶机器人撒贝宁说小心被碰瓷

三湘都市报 2026-02-05 21:09:51
8 跟贴 8
2026新年大扫除！这些清洁工具的坑，我们替你踩过了！

春光研究院 2026-02-05 18:39:43
3 跟贴 3
三维空间太难懂？1

机器之心Pro 2025-12-31 13:49:25
0 跟贴 0
三维空间太难懂？2

机器之心Pro 2025-12-31 13:49:19
0 跟贴 0

祖巴茨深情告别快船！人生中最艰难时刻之一永远不忘这七年时光

祖巴茨深情告别快船！人生中最艰难时刻之一永远不忘这七年时光

罗说NBA

2026-02-07 06:35:28

省了1亿还能补强！你就说还有谁！

省了1亿还能补强！你就说还有谁！

柚子说球

2026-02-06 21:30:02

北京东坝，房价从2015年40000涨到60000，如今价格分化差距拉大

北京东坝，房价从2015年40000涨到60000，如今价格分化差距拉大

石辰搞笑日常

2026-02-07 15:00:24

中国最丰满的5位女星，美的各有千秋，她们的身材也太犯规了

中国最丰满的5位女星，美的各有千秋，她们的身材也太犯规了

观察者海风

2026-02-07 14:48:53

当年举报毕福剑的那位告密者竟然变成这样了！谁能想到啊？

当年举报毕福剑的那位告密者竟然变成这样了！谁能想到啊？

霹雳炮

2026-02-06 13:48:54

全网催更李煜上线：这曲失败者的悲歌为什么动人

全网催更李煜上线：这曲失败者的悲歌为什么动人

澎湃新闻

2026-02-07 13:06:22

爱泼斯坦文件：没有搞垮前任和现任美国总统，却要掀翻英国首相？

爱泼斯坦文件：没有搞垮前任和现任美国总统，却要掀翻英国首相？

冰汝看美国

2026-02-07 04:16:24

31年前，娶了德国女明星的北京出租车司机王宏业，如今怎么样了？

31年前，娶了德国女明星的北京出租车司机王宏业，如今怎么样了？

东方不败然多多

2026-02-07 11:27:04

“资助不起装什么孙子！”2006年，贫困大学生向海清向媒体怒斥

“资助不起装什么孙子！”2006年，贫困大学生向海清向媒体怒斥

百态人间

2026-02-05 15:42:49

米尔诺赫拉德陷落，波克罗夫斯克仅剩北部区域，谁起了关键作用？

米尔诺赫拉德陷落，波克罗夫斯克仅剩北部区域，谁起了关键作用？

山河路口

2026-02-07 22:17:22

安佩姆加盟上海海港，提升球队进攻深度与灵活性。

安佩姆加盟上海海港，提升球队进攻深度与灵活性。

球天下资讯

2026-02-07 23:01:00

我在旧货市场花300买了个旧书柜，运回家清洗时发现抽屉有夹层

我在旧货市场花300买了个旧书柜，运回家清洗时发现抽屉有夹层

五元讲堂

2026-02-04 11:51:22

爱尔眼科董事长疑为湖北骗保精神病院实控人，爱尔股价暴跌

爱尔眼科董事长疑为湖北骗保精神病院实控人，爱尔股价暴跌

听心堂

2026-02-06 12:05:06

倒计时1天，中方取消稀土管制？高市内阁大悦：同时搞定中美两国

倒计时1天，中方取消稀土管制？高市内阁大悦：同时搞定中美两国

透视到底

2026-02-07 23:12:28

真敢说话！上海代表建议：网约车平台抽成必须卡死在10%以内！

真敢说话！上海代表建议：网约车平台抽成必须卡死在10%以内！

达文西看世界

2026-02-07 18:53:49

乐评人梁源：吴克群就是典型在我面前装，还TM锤子锤的就是你这种

乐评人梁源：吴克群就是典型在我面前装，还TM锤子锤的就是你这种

情感大头说说

2026-02-07 02:51:18

伊美阿曼谈判“暂时”结束

新京报

2026-02-06 21:56:13

125人合同到期+欠薪缠身，沙特联赛要走中超老路？

125人合同到期+欠薪缠身，沙特联赛要走中超老路？

篮球看比赛

2026-02-07 18:06:09

世界首富的烦恼：马斯克感叹“金钱买不到幸福”，两天浏览量破亿

世界首富的烦恼：马斯克感叹“金钱买不到幸福”，两天浏览量破亿

IT之家

2026-02-07 23:18:25

解放军为何迟迟不武统台湾？台前任防卫总长：目前大陆有3大障碍

解放军为何迟迟不武统台湾？台前任防卫总长：目前大陆有3大障碍

混沌录

2026-02-05 21:17:04

拜AI古佛，修赛博禅心

284文章数 33关注度

往期回顾全部

科技要闻

小米千匹马力新车亮相！问界M6双动力齐报

头条要闻

印度飞饼师傅被认定"外籍专家"领千元慰问费多方发声

头条要闻

印度飞饼师傅被认定"外籍专家"领千元慰问费多方发声

体育要闻

主队球迷唯一爱将，说自己不该在NBA打球

娱乐要闻

金晨处罚结果曝光！肇事逃逸被罚款

财经要闻

金价高波动时代来了

汽车要闻

工信部公告落地全新腾势Z9GT焕新升级

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手机

本地

时尚

数码

公开课

手机要闻

华为苹果领衔 TOP5厂商入场，阔折叠方向对了吗？

本地新闻

围观了北京第一届黑色羽绒服大赛，我笑疯了

今日热点：《惊蛰无声》终极预告；韩国翻拍《解忧杂货店》……

数码要闻

冠捷推出26.5英寸AOC G4白色显示器：LGD四代WOLED，2919元

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版