网易首页 > 网易号 > 正文 申请入驻

面壁智能开源全模态模型MiniCPM-o4.5,边看边听还能主动抢答

0
分享至

henry 发自 凹非寺
量子位 | 公众号 QbitAI

空气炸锅“叮”了一声。

我还没反应过来,AI先开口了:“好了,它已经叮了。”

这不是语音助手升级,而是面壁智能刚开源的全模态模型MiniCPM-o4.5

手机往厨房一放,它能一边跟你说话,一边盯着灶台、听动静。

不再是“你问一句、它答一句”,而是边看、边听、主动说的AI。

AI开始竖起耳朵,瞪大眼睛

既然这AI这么能盯,还能提醒,那是不是干脆给它挂在教室、楼道门口?

老师家长一来就提醒我,岂不美哉?(doge)



Wwwwwait!AI肯定不是这么用的。

不过,在实测和官方用例里,我们确实发现了一件挺有意思的事:它能干的事儿,已经和以前的AI不一样了。

先说最直观的。

这次面壁的MiniCPM-o4.5,最大的变化,其实就一句话:它能一边听、一边看,还能主动说

比如逛超市,人往前走,货架在变,商品也在变。

随口问一句:水果都什么价?它立马接得上。

这里的关键不在“答得快”,而在于它在回答我的同时,眼睛其实没停,一直跟着你看。

你走着,货架在变,它也能马上接话,就像旁边有个朋友。

要是放在以前的AI身上,基本就是你问一句,它答一句。

等它下一次再说话,才重新“看”一次世界,加载的圆圈多少要重新开始转几圈。

再比如出门上班。你走进电梯,刷着手机,脑子已经在想别的事了。

你只需要在一开始告诉它提醒你,它就能持续识别电梯楼层的变化,在你该下的时候,直接开口提醒。

还有一点也很关键:MiniCPM-o4.5不需要你先开口,也能主动应答

这一点,在开头的测试里表现得特别明显。因为在现实场景中,等你再去问一句“好了没”,往往已经晚了。

真正有用的是——你没问,AI听到“叮”的一声,直接来一句:“加热好了。”

此外,我们还发现MiniCPM-o4.5一个挺反直觉的地方:它在说话的时候,也还在听

因为大家都知道,人一旦开口说话,注意力基本就不在“听”上了。



但o4.5不一样,一方面,它能一边跟你聊天,一边留意外界的动静——

敲门声、烧水声、空气炸锅“叮”的那一下,都不会被漏掉。

更狠的是,在它自己说话的时候,也能听见你新插进来的指令,能实现即时自由对话

为此,我们刻意做了件有点“为难”模型的事。

它正在解说画面的蓝色鸭子在哪里,这时我突然插一句新的要求,让它告诉我小黄(鸭子)在哪里。

结果是,MiniCPM-o4.5在说完上句话后,立马回答了这句突然插入的话。

这也让MiniCPM-o4.5跟那种一问一答的AI不一样。

它不是等你说完一句再轮到它,而是一边听、一边说,一边随时改口

换句话说,今年的AI已经不玩回合制问答,开始整临场反应,学会抢答了。



顺带一提,除了上面这些,还有更“邪修”的玩法。比如让AI解说实况比赛,或者盯着你练组数、数次数。

我们就不一一演示了,链接在最后,留给大家自己去慢慢折腾。

首个可以「即时自由对话」的大模型

那么,上面这些“自由对话”是怎么做到的?

关键在于MiniCPM-o4.5对交互方式本身做了重构

以往的多模态模型,本质是串行的:先听完,再想,再说。

一旦开始输出,模型对外界输入的感知就会被暂停,形成典型的I/O阻塞,这是无法边看边听边说的原因。

在MiniCPM-o4.5中,面壁团队首次引入了全双工(Full-Duplex)多模态实时流机制。模型可以一边持续接收视频和音频输入,一边同步生成语音或文本输出,两条信息流并行运行,互不阻塞。

在实现上,MiniCPM-o4.5将原本离线的模态编码器与解码器,升级为支持流式输入/输出的在线版本;

语音侧采用文本与语音token交错建模,既支持全双工语音生成,也提升了长语音生成的稳定性。

同时,通过时分复用机制,对在毫秒级时间线上对齐的多模态输入与输出进行统一建模,实现高效的流式处理。



在整体架构上,MiniCPM-o4.5采用端到端的全模态设计,通过稠密特征将各模态的编码器与解码器直接连接到大语言模型主干,视觉、音频等模态在模型生成输出的同时仍能持续更新。

除了并行处理,MiniCPM-o4.5还改变了对话时机的判断方式。模型会持续进行语义层面的判断,并以1Hz的频率决定是否介入回应,而不再依赖“检测到静音就回答”的VAD(语音互动检测)机制。

(传统语音助手往往依赖外部的VAD:一旦检测到短暂静音,就认为用户“说完了”并开始回答)

这使得模型不仅能被自然打断,还能基于对场景的持续理解,主动发起提醒或评论。

这也是为什么前面我还没把话说完,它就已经“抢答”了。

此外,值得一提的是,在Benchmark测试上,MiniCPM-o4.5的表现同样亮眼。

在仅9B参数规模下,模型在全模态理解、视觉理解、文档解析、语音理解与生成,声音克隆等多个方向上,均达到了当前全模态模型的领先水平



那么像MiniCPM-o4.5这样,边看、边听、主动说的AI,意味着什么?

最近,Clawdbot(现已更名为OpenClaw)的爆火,其实已经提前给了答案:人们真正需要的,可能不是“更聪明的问答机”,而是能持续运行、一直在场的AI

不是你问它一句,它才醒一下;而是它本来就在运行,在看、在听,也随时准备说话。

这,正是这类“边看、边听、主动说”的模型真正产生价值的地方。

过去的AI,更像对讲机。你说完,它才听;它一开口,外界就等于被按了暂停键。

而这一次,面壁做的尝试是:让AI在说话的时候,世界周遭事物依然是流动的。它在持续感知世界的同时,也在持续参与对话和行为,而不是仅在节点式的“提问/回复”之间来回倒腾。

也正因为这样,它能自然地延展到更多地方:

对具身智能来说,感知、决策、动作本来就不该被拆开;对车端或终端助手来说,真正有用的往往不是“回答问题”,而是在合适的时机接话;对复杂系统来说,“等一下再想”本身就是一种失效。

因此,全双工并不是体验升级,而是AI能否真正进入现实连续世界的分水岭。

也正是在这个意义上,面壁将MiniCPM-o4.5定义为一款全模态的基础模型,并以此作为后续赋能汽车、手机、机器人等各类终端形态的起点。

面壁智能:只做端,把端做到极致

面壁智能成立于2022年8月。

在端侧AI还远没成为行业热词、讨论重心仍集中在云端和算力堆叠时,面壁就已经把方向押在了端侧AI模型这条路上。

这次发布的MiniCPM-o4.5,由清华大学人工智能学院助理教授、面壁智能多模态首席科学家姚远牵头研发。

在整场发布中,面壁反复强调了两个关键词:软硬一体,端侧部署

以MiniCPM-o4.5为例,它主打的是持续感知视觉和听觉环境。而这种“全天候伴随”的AI形态,本身就无法以云端为主要形态存在。

一方面是不可回避的隐私风险;另一方面,是延迟、稳定性和可用性在工程上根本扛不住。

也正因为如此,MiniCPM-o4.5从一开始就被定义为一款端侧模型,并且与面壁长期坚持的端侧路线保持高度一致。

面壁智能联合创始人、CEO李大海在采访中提到:

  • 端侧模型的目标,本来就是赋能终端,而赋能终端天然就要跟端侧芯片要做更深的结合。

据透露,过去近两年,面壁与多家芯片厂商形成了一种高度协同的工作方式:

芯片在设计阶段就向模型侧开放,验证架构是否匹配未来模型需求;模型研发也同步反向输入,对算子形式与硬件能力提出明确要求。

这种软硬一体、双向奔赴,已经成为模型演进的前提条件。

在具体的路径上,面壁智能联合创始人、COO雷升涛则给出了更清晰的拆解:

  • 端原生模型:不把云端模型压缩下来跑,而是在训练阶段就以端侧芯片为目标环境,让模型“生来就能跑在端上”。
  • 软硬协同的Infra层:包括量化、精度压缩之后能力如何保持。这一层技术难度极高,依赖长期积累,是最核心的壁垒。
  • 产品化交付:把这些能力打包成可直接使用的方案,交付给客户和合作伙伴,跑在不同终端上。

像面壁计划在年中发布的首款AI硬件松果派(Pinea Pi),用于支持硬件场景的全栈开发,以及过去一年多在智能座舱等方向的落地,都是这条软硬协同路线的具体体现。

从这个角度看,MiniCPM-o4.5本身也可以被理解为一款端侧原生的全模态模型。

据面壁智能介绍,MiniCPM-o4.5将与松果派这款AI Native的端侧智能开发板配套推出,计划于今年上市,在开发板上实现“开箱即用”,面向开发者快速构建端侧智能硬件。

与此同时,松果派等端侧硬件本身,也构成了面壁在生态层面的能力:

在发布模型的同时,就明确指定并深度适配好的硬件平台,让开发者更快上手,让终端厂商更快把能力真正跑进场景里。

本质上,这是在打通端侧模型到应用的最后一公里

当被问及如何看待有越来越多玩家进入端侧市场时,面壁也指出了一个常被误解的地方:很多人把“端侧”当成一个统一市场。

但在面壁看来,其实恰恰相反——端侧由大量差异化终端和长尾高价值场景构成。

从技术上看,端侧的关键不是规模,而是用尽可能少的参数,实现尽可能强的能力。

从商业上看,这也意味着:这是一个可以同时容纳很多创业公司的市场,而不是必须打“阵地战”的地方。

也正是在这种背景下,面壁给出的差异化非常明确:

  • 我们最大的差异化就是我们只做端,而且我们把端做到极致。如果一家公司专注于做端的话,那我觉得其他公司可能很难跟我们相比把端做得这么好。

从两三年前手机、车、机器人普遍质疑“真的需要大模型吗”,到今天逐渐成为共识,端侧AI正在不断被重新定义。

而MiniCPM-o4.5所呈现的,并不是一次炫技式的能力展示,而是面壁这条路线走到今天的自然结果:

只做端,把端做到极致

GitHub:https://github.com/OpenBMB/MiniCPM-o
HuggingFace:https://huggingface.co/openbmb/MiniCPM-o-4_5
ModelScope:https://www.modelscope.cn/models/OpenBMB/MiniCPM-o-4_5
体验链接-全双工全模态模式:https://huggingface.co/spaces/openbmb/minicpm-omni
体验链接-图文对话模式:http://211.93.21.133:18121/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
东风猛士高管暗指追觅抄袭,发“请尊重原创”海报

东风猛士高管暗指追觅抄袭,发“请尊重原创”海报

IT之家
2026-02-05 17:02:16
中方发“开战”檄文,对巴拿马连用9个判词,李嘉诚罕见带头冲锋

中方发“开战”檄文,对巴拿马连用9个判词,李嘉诚罕见带头冲锋

史智文道
2026-02-05 22:19:42
持续发放生活补贴或绩效奖金让机关事业单位退休人员收入稳中有升

持续发放生活补贴或绩效奖金让机关事业单位退休人员收入稳中有升

郭爱华追问教育
2026-02-05 06:16:54
河南一景区发巨额年终奖,有员工领到45万

河南一景区发巨额年终奖,有员工领到45万

大风新闻
2026-02-05 18:42:03
1977年上海“高考状元”袁钧瑛,公派留美后拒不回国,却在美国深修40年后,带着全部的积蓄回到了中国……

1977年上海“高考状元”袁钧瑛,公派留美后拒不回国,却在美国深修40年后,带着全部的积蓄回到了中国……

深度报
2026-02-05 20:55:14
巴拿马总统强硬回应中方警告,外媒:中国或暂停与巴方全部协议

巴拿马总统强硬回应中方警告,外媒:中国或暂停与巴方全部协议

头条爆料007
2026-02-05 18:45:01
亏麻了!苹果CarPlay 这些隐藏功能,90%车主开 5 年都没发现!

亏麻了!苹果CarPlay 这些隐藏功能,90%车主开 5 年都没发现!

沙雕小琳琳
2026-02-05 07:26:14
触目惊心!麻雀数量暴跌90%,中国人不吃它,为啥快见不到了?

触目惊心!麻雀数量暴跌90%,中国人不吃它,为啥快见不到了?

老特有话说
2026-02-04 23:42:16
0-2爆冷出局!王欣瑜无缘进四强,输球原因曝光,中国金花剩独苗

0-2爆冷出局!王欣瑜无缘进四强,输球原因曝光,中国金花剩独苗

侃球熊弟
2026-02-05 22:13:13
杨幂开撕微博风波升级!肖战已换回座位,微博之夜回应惹争议!

杨幂开撕微博风波升级!肖战已换回座位,微博之夜回应惹争议!

古希腊掌管月桂的神
2026-02-05 21:30:40
千万粉丝一夜清零:军事顶流“听风的蚕”被封,踩中了哪些红线?

千万粉丝一夜清零:军事顶流“听风的蚕”被封,踩中了哪些红线?

月满大江流
2026-02-05 09:17:22
人大代表:鸭子是对付福寿螺的高手,但农民告诉我,在上海养鸭子很麻烦,各种部门、各种证、各种规定

人大代表:鸭子是对付福寿螺的高手,但农民告诉我,在上海养鸭子很麻烦,各种部门、各种证、各种规定

新民晚报
2026-02-05 09:09:09
现在的考试是“伪考试“大量刷题!上海市政协委员:取消中高考是早晚的事

现在的考试是“伪考试“大量刷题!上海市政协委员:取消中高考是早晚的事

看看新闻Knews
2026-02-04 15:23:04
打虎!肖杰被查

打虎!肖杰被查

新京报政事儿
2026-02-05 16:14:04
轰29+5+9!请把球给哈登,米切尔赛后摊牌,他已经憋了太久

轰29+5+9!请把球给哈登,米切尔赛后摊牌,他已经憋了太久

篮球看比赛
2026-02-05 18:41:36
微博之夜卷入座位风波!肖战被挪到边缘,杨幂超话沦陷,好精彩!

微博之夜卷入座位风波!肖战被挪到边缘,杨幂超话沦陷,好精彩!

萌神木木
2026-02-05 19:37:39
不能更完美了,本泽马在利雅得新月生涯首秀上演帽子戏法

不能更完美了,本泽马在利雅得新月生涯首秀上演帽子戏法

懂球帝
2026-02-06 03:07:12
21人留12人,男篮9人离队名单预测:后卫3人,锋线4人,内线2人

21人留12人,男篮9人离队名单预测:后卫3人,锋线4人,内线2人

男足的小球童
2026-02-05 20:08:16
Shams:雄鹿将科尔-安东尼和科菲交易至太阳,换来理查兹

Shams:雄鹿将科尔-安东尼和科菲交易至太阳,换来理查兹

懂球帝
2026-02-06 01:12:16
这些冷门城市,竟是最具幸福感的地方?

这些冷门城市,竟是最具幸福感的地方?

大象新闻
2026-02-05 19:21:08
2026-02-06 05:48:49
量子位 incentive-icons
量子位
追踪人工智能动态
12120文章数 176372关注度
往期回顾 全部

科技要闻

美团买下叮咚买菜,防御还是进击?

头条要闻

与爱泼斯坦共舞嬉笑的神秘红衣女子身份披露

头条要闻

与爱泼斯坦共舞嬉笑的神秘红衣女子身份披露

体育要闻

奇才:我学生……独行侠:成交!

娱乐要闻

微博之夜卷入座位风波!杨幂超话沦陷

财经要闻

中美"只会有好消息" 经济冷暖看房价

汽车要闻

李想为全新L9预热 all in AI造更好的车

态度原创

健康
数码
旅游
本地
军事航空

耳石症分类型,症状大不同

数码要闻

航嘉 高能 S140 Pro氮化镓安全快充深度评测

旅游要闻

逛遍茂县古羌城才懂,这里的碉楼,每块石头都有故事!

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

军事要闻

54岁荷兰王后以预备役军人身份参军 王室解释原因

无障碍浏览 进入关怀版