网易首页 > 网易号 > 正文 申请入驻

让大模型【告别回合制】:同时看、听、说、一直察言观色|MiniCPM-o 4.5 开源

0
分享至

我做了一面「言出法随」的墙:表面上是一面墙,随时在任何区域出现任何我想要的东西

这面墙,会出现在我的新的 AGI Bar 里(正在装修,很大)

整个酒吧会变成一个大的具身空间,布满麦克风,识别我朝哪儿、说了什么,然后对应区域的墙面开始变化,机械臂开始运动

甚至,我还可以让墙面去干活,比如可以让它去我的某个账号里拉取资料,也可以让它执行各种操作。生成内容、找材料、执行动作,都行


但我遇到一个很头疼的问题

现有的语音交互方案,一旦我脑子卡壳、话说到一半停顿了,系统就会判断「他说完了」,然后开始执行

这让交互变得很别扭。我不想每次都说一个唤醒词,也不想用「over」来告诉 AI 我说完了。我需要的是一个能感知我有没有说完话、能理解我到底想干什么的 AI

正常人聊天,不会是这样的

微信里聊天,可能我说两句、你说三句,甚至我不理你你又说了两句。现在的 AI 对话太刻板了,必须一问一答,显得很傻


而且把...你让它从 1 数到 10,数到 7 的时候问它数到几了,很多模型会直接说「10」。因为它脑子里已经预排到 10 了,中间打断它根本没用

之前只有一个解决方案,就是用 OpenAI 的 Realtime API,在加上一点魔改,实践下来每个麦克风每个小时的成本在 30 美金左右...太特么贵了,而且中文并不好

前些日子跟面壁智能的朋友聊,他们整出了个新东西:全双工全模态

全双工的意思是,模型可以同时输入和输出,互不阻塞。它说话的时候还在听、还在看,你可以随时打断它,它也能根据环境变化随时调整

更关键的是,模型自己判断什么时候该说话。不需要你说唤醒词,不需要你说「over」,它能根据语义判断你说完没、你想要什么,在生活的场景中,成为真正的交互伙伴

这正好是我的墙壁需要的能力,而这个模型今天开源了:MiniCPM-o 4.5,9B 参数


MiniCPM-o 4.5 模型架构 先说清楚语音交互的几种模式

目前市面上的语音交互方案,大概分两类

第一类是「对讲机模式」

大多数语音助手用的都是这个。系统先把你说的话识别成文字,处理完之后再用 TTS(文字转语音)播报出来

流程是:语音 → 文字 → 处理 → TTS 播报


很显然...这里的延迟是打不下去的,而且语音里的语气,比如不同音调的 wocao,完全无法区分含义

第二类是端到端模式

OpenAI 的 Realtime API 和面壁的 MiniCPM-o 都属于这一类。模型直接处理语音,不需要先转成文字,交互更自然

Realtime API 的对话能力很强,但它只能处理语音,看不到画面


MiniCPM-o 能同时处理语音和视频。这是它的核心差异

这里要说一下,很多模型号称能「看视频」,其实是在你说话的间隙截一张摄像头的图片,然后处理这张静态图。不是真正的实时视频流

MiniCPM-o 4.5 做的是原生全双工全模态

「边看、边听、主动说」


无论模型在沉默还是在说话,都保持着对外界的感知。你可以随时打断它,它也可以根据环境变化随时调整输出

比如在下面的这个例子中,模型会随着画面的变化,不断描述

全双工具体是怎么回事

说人话就是:模型的眼睛、耳朵、嘴巴可以同时工作,互不干扰

技术上怎么实现的?

模型把视频流、音频流、文本输出这些并行的信息,切成很小的时间片(毫秒级),轮流处理。宏观上看起来是同时进行的,实际上是快速切换


这样做的好处是,模型说话的时候不会「闭眼捂耳」,可以根据你的反应随时调整

还有一个关键能力:模型自己判断什么时候该说话

现在很多产品靠 VAD(语音活动检测)来判断用户说完没。简单说就是检测到你停顿了一段时间(比如 1 秒),就认为你说完了

VAD 的问题很明显:

  • • 不知道是谁在说话,嘈杂环境下容易误判

  • • 拍个桌子可能被当成说话

  • • 必须硬等一段时间才能判断,延迟高

MiniCPM-o 4.5 不用 VAD。模型自己每秒判断很多次,根据语义来决定要不要回应

它可以预判你是否说完,不需要硬等;也可以被打断,根据你说的内容判断而不只是声音大小


主动交互机制示意 主动择机回复

全双工带来的另一个能力是「主动交互」

你可以给模型下一个条件指令,它会持续监测,在条件触发时主动回应

比如:「等绿灯亮了叫我」


模型会一直盯着画面,看到信号灯变化就提醒你。这对视力不好的人过马路很有用

比如:「等电梯到 24 层了叫我」模型实时跟踪楼层数字,到了就喊你

这种模式,也可能会带了更多人与AI的交互创新,比如和 AI 打个扑克

更有意思的是环境音识别

现有很多视频通话模型只能听懂人说话(Speech),听不懂环境音(Audio)。MiniCPM-o 4.5 可以识别环境音

「微波炉叮了告诉我」、「听到门铃声提醒我」、「水流声停了喊我」这些它都能处理。因为是原生全双工,不靠外挂工具,对环境音的识别比那些只能听人声的模型灵敏很多


持续在线的两个层面

之前介绍过一个叫 OpenClaw 的项目

它是一个本地 AI Agent,可以理解为封装了一个类似 Claude Code 的东西。通过心跳机制(Heartbeat)和定时任务(Cron),实现周期性监控。比如每 30 分钟扫描一次紧急邮件,检测到异常可以半夜发消息

OpenClaw 做的是Agent 侧的持续在线。它负责执行任务、调用工具、管理流程

MiniCPM-o 4.5 做的是模型侧的持续在线。它负责感知环境、理解语义、决定何时回应

这两个层面如果结合起来会很有意思

一个持续感知的模型,加上一个持续执行的 Agent。模型看到什么、听到什么,Agent 就去做什么

这才是我想要的「言出法随」墙壁的完整形态


前几天开了个沟通会

前几天有个面壁的小会,聊了不少东西

有人问到具身智能。刘知远说:MiniCPM-o 4.5 这种全双工模型,非常接近机器人所需的状态。人类就是边听边说、多通道并行处理的。以前的模型做不到,一说话就不能看

姚远(面壁多模态研发负责人)补充:目前具身智能最大的问题不在底层控制,在泛化性和长程规划。全模态大模型是具身智能实现通用性的机会

李大海把具身智能分成三层:

  • • 0.1 Hz:深度思考

  • • 1 Hz:日常感知、规划(MiniCPM-o 4.5 做的这层)

  • • 10 Hz:具体动作控制


现在行业缺的是把 1Hz 的「大脑」和 10Hz 的「小脑」结合起来

面壁还将在今年年中,发布一个叫「松果派」的开发板,类似树莓派,预装了端侧这套模型和推理框架。开发者可以直接上手做 AI 硬件原型


回到我的墙

我的「言出法随」墙壁,硬件层面已经 ready 了。毕竟我是硬件出身

模型层面的需求是:一个能持续感知、不需要唤醒词、能自己判断我有没有说完话的 AI

MiniCPM-o 4.5 给了一个方案

9B 参数,端侧可部署,中文原生支持,成本可控

交互模式也变了。从「一问一答」到「随时插话」,从「对讲机」到正常人聊天

最后...再给大家看一个我觉得很有意义的东西:在盲道上,大模型会一直帮你看着路面,如果有不对的地方,它就会和你交互

然后,现在这个模型已经开源了,欢迎体验


GitHub
https://github.com/OpenBMB/MiniCPM-o

Hugging Face
https://huggingface.co/spaces/openbmb/minicpm-omni

体验链接
https://minicpm-omni.openbmb.cn/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
祖巴茨深情告别快船!人生中最艰难时刻之一 永远不忘这七年时光

祖巴茨深情告别快船!人生中最艰难时刻之一 永远不忘这七年时光

罗说NBA
2026-02-07 06:35:28
省了1亿还能补强!你就说还有谁!

省了1亿还能补强!你就说还有谁!

柚子说球
2026-02-06 21:30:02
北京东坝,房价从2015年40000涨到60000,如今价格分化差距拉大

北京东坝,房价从2015年40000涨到60000,如今价格分化差距拉大

石辰搞笑日常
2026-02-07 15:00:24
中国最丰满的5位女星,美的各有千秋,她们的身材也太犯规了

中国最丰满的5位女星,美的各有千秋,她们的身材也太犯规了

观察者海风
2026-02-07 14:48:53
当年举报毕福剑的那位告密者竟然变成这样了!谁能想到啊?

当年举报毕福剑的那位告密者竟然变成这样了!谁能想到啊?

霹雳炮
2026-02-06 13:48:54
全网催更李煜上线:这曲失败者的悲歌为什么动人

全网催更李煜上线:这曲失败者的悲歌为什么动人

澎湃新闻
2026-02-07 13:06:22
爱泼斯坦文件:没有搞垮前任和现任美国总统,却要掀翻英国首相?

爱泼斯坦文件:没有搞垮前任和现任美国总统,却要掀翻英国首相?

冰汝看美国
2026-02-07 04:16:24
31年前,娶了德国女明星的北京出租车司机王宏业,如今怎么样了?

31年前,娶了德国女明星的北京出租车司机王宏业,如今怎么样了?

东方不败然多多
2026-02-07 11:27:04
“资助不起装什么孙子!”2006年,贫困大学生向海清向媒体怒斥

“资助不起装什么孙子!”2006年,贫困大学生向海清向媒体怒斥

百态人间
2026-02-05 15:42:49
米尔诺赫拉德陷落,波克罗夫斯克仅剩北部区域,谁起了关键作用?

米尔诺赫拉德陷落,波克罗夫斯克仅剩北部区域,谁起了关键作用?

山河路口
2026-02-07 22:17:22
安佩姆加盟上海海港,提升球队进攻深度与灵活性。

安佩姆加盟上海海港,提升球队进攻深度与灵活性。

球天下资讯
2026-02-07 23:01:00
我在旧货市场花300买了个旧书柜,运回家清洗时发现抽屉有夹层

我在旧货市场花300买了个旧书柜,运回家清洗时发现抽屉有夹层

五元讲堂
2026-02-04 11:51:22
爱尔眼科董事长疑为湖北骗保精神病院实控人,爱尔股价暴跌

爱尔眼科董事长疑为湖北骗保精神病院实控人,爱尔股价暴跌

听心堂
2026-02-06 12:05:06
倒计时1天,中方取消稀土管制?高市内阁大悦:同时搞定中美两国

倒计时1天,中方取消稀土管制?高市内阁大悦:同时搞定中美两国

透视到底
2026-02-07 23:12:28
真敢说话!上海代表建议:网约车平台抽成必须卡死在10%以内!

真敢说话!上海代表建议:网约车平台抽成必须卡死在10%以内!

达文西看世界
2026-02-07 18:53:49
乐评人梁源:吴克群就是典型在我面前装,还TM锤子 锤的就是你这种

乐评人梁源:吴克群就是典型在我面前装,还TM锤子 锤的就是你这种

情感大头说说
2026-02-07 02:51:18
伊美阿曼谈判“暂时”结束

伊美阿曼谈判“暂时”结束

新京报
2026-02-06 21:56:13
125人合同到期+欠薪缠身,沙特联赛要走中超老路?

125人合同到期+欠薪缠身,沙特联赛要走中超老路?

篮球看比赛
2026-02-07 18:06:09
世界首富的烦恼:马斯克感叹“金钱买不到幸福”,两天浏览量破亿

世界首富的烦恼:马斯克感叹“金钱买不到幸福”,两天浏览量破亿

IT之家
2026-02-07 23:18:25
解放军为何迟迟不武统台湾?台前任防卫总长:目前大陆有3大障碍

解放军为何迟迟不武统台湾?台前任防卫总长:目前大陆有3大障碍

混沌录
2026-02-05 21:17:04
2026-02-07 23:52:49
赛博禅心
赛博禅心
拜AI古佛,修赛博禅心
284文章数 33关注度
往期回顾 全部

科技要闻

小米千匹马力新车亮相!问界M6双动力齐报

头条要闻

印度飞饼师傅被认定"外籍专家"领千元慰问费 多方发声

头条要闻

印度飞饼师傅被认定"外籍专家"领千元慰问费 多方发声

体育要闻

主队球迷唯一爱将,说自己不该在NBA打球

娱乐要闻

金晨处罚结果曝光!肇事逃逸被罚款

财经要闻

金价高波动时代来了

汽车要闻

工信部公告落地 全新腾势Z9GT焕新升级

态度原创

手机
本地
时尚
数码
公开课

手机要闻

华为苹果领衔 TOP5厂商入场,阔折叠方向对了吗?

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

今日热点:《惊蛰无声》终极预告;韩国翻拍《解忧杂货店》……

数码要闻

冠捷推出26.5英寸AOC G4白色显示器:LGD四代WOLED,2919元

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版