网易首页 > 网易号 > 正文 申请入驻

MiniCPM-o 4.5 技术报告发布:全双工全模态 API 开放,RTX5070即可实时运行

0
分享至


附 Windows / macOS 一键安装包,最低 12GB 显存 GPU 即可运行。

你有没有想过,不用联网仅用一张消费级显卡,就能在个人电脑上拥有一个「边看、边听、边说、还能主动提醒」的类人 AI 助手?它既能实时感知环境变化、同步理解你的意图,又能全程保护隐私。

这就是MiniCPM-o 4.5所能做到的。在技术创新下,它仅凭 9B 参数,实现了业界首个端到端全双工全模态大模型,让端侧 AI 普惠成为现实。其自 2026 年 2 月模型发布以来,在 Hugging Face 上的下载量已突破 25 万+。

➤ 模型用例展示:https://openbmb.github.io/minicpm-o-4_5-omni/

➤ 在线体验(无需注册/下载):

https://minicpmo45.modelbest.cn/

今天,面壁智能联合 OpenBMB 开源社区、清华大学 THUNLP 实验室和 THUMAI 实验室正式发布MiniCPM-o 4.5 技术报告,首次公开面壁智能在全双工全模态交互领域的核心技术——Omni-Flow 流式全模态框架

➤ 技术报告:https://github.com/OpenBMB/MiniCPM-o/blob/main/docs/MiniCPM_o_45_technical_report.pdf

在技术报告发布的同时,MiniCPM-o 4.5 同步推出在线体验 Demo、全模态全双工 API、端侧安装包 Comni 和 Demo 仓库。

在线体验 Demo

在线 Demo 是 MiniCPM-o 4.5 的原型示例网页应用,展现传统轮次交互、语音双工交互、视频双工交互三大类应用原型,并完整开放模型支持的全部配置,包括 prompt 和参考音频设置。

Demo 可在手机、电脑端直接访问,并配套提供排队、录制、保存、分享、回看等功能,提升用户体验。

➤ 在线体验(手机端推荐)

https://minicpmo45.modelbest.cn/mobile/

➤ 在线体验(电脑端推荐)

https://minicpmo45.modelbest.cn/

全模态全双工 API

同步开放的 MiniCPM-o 4.5 API 支持全模态全双工实时交互,全双工下无需 VAD 机制控制对话轮次,便于开发者基于 MiniCPM-o 4.5 构建应用。

API 使用 https://api.modelbest.cn/minicpmo45/v1/ 端点,目前免费开放。详细使用方式见 API 文档。

➤ MiniCPM-o 4.5 API 文档

https://api.modelbest.cn/minicpmo45/docs

Windows / macOS 端侧安装包 Comni

MiniCPM-o 4.5 已基于 llama.cpp 完成模型量化和推理性能优化,实测最低 12GB 显存的 RTX 5070 即可流畅运行全双工模式(RTF0.4),极大降低了个人端侧部署的准入门槛。

为进一步降低端侧部署的操作门槛,桌面软件Comni集成了模型下载、环境安装和 Demo 运行能力,提供 Windows / macOS 版本。软件包下载链接如下:

平台: Windows

下载链接:GitHub:https://github.com/tc-mb/llama.cpp-omni/releases/latest/download/Comni-Setup-win64.exe;

ModelScope:https://modelscope.cn/models/OpenBMB/MiniCPM-o-4_5-gguf/resolve/master/app/Comni-Windows-x64.exe

硬件要求:12GB+ 显存 GPU,如 RTX 5070 / RTX 5080 / RTX 5090

平台: macOS

下载链接:GitHub:https://github.com/tc-mb/llama.cpp-omni/releases/latest/download/Comni-macOS-arm64.dmg;

ModelScope:https://modelscope.cn/models/OpenBMB/MiniCPM-o-4_5-gguf/resolve/master/app/Comni-macOS-arm64.dmg

硬件要求:M1-M5 Max / M5 Pro

(上方视频展示了 MiniCPM-o 4.5 在个人笔记本上的完整部署与运行过程,包括全双工语音对话、实时视觉理解、主动提醒等能力演示。)

Demo 仓库开源和 Linux 部署

上述 Demo 的全栈代码已开源,Linux 用户可克隆代码仓并部署完整的 Demo 服务。这也是首批可本地部署的全双工全模态交互演示项目之一。

Demo GitHub 仓库

https://github.com/OpenBMB/MiniCPM-o-Demo

01


为什么「全双工」是 AI 交互的下一站?

人类交流是流畅、并行的。我们边听边思考,甚至可以打断对方。

但过去,AI 与人类的交互模式是半双工的,像用对讲机:你说完,它才能处理;它说的时候,又听不见你的新指令。

AI 与人类的不同频,使得大多数用户无法在与大模型产品的交互中获得良好的体验感,甚至由于交流的「时空割裂」逐渐失去耐心。长此以往,大模型在多模态场景的落地无疑大大受阻。

而 MiniCPM-o 4.5 在全球范围内首创「全双工全模态」,模型能在持续感知环境(看视频、听声音)的同时进行思考和响应,这让 AI 从一个被动的工具变成了一个可以主动帮助人类的真正助手。

这背后离不开面壁智能与清华大学共同研发的Omni-Flow 流式全模态框架。本次技术报告也首次披露了 Omni-Flow 的技术核心:

简单来说,它创造了一个共享的「时间轴」,把视觉、音频、语言等所有信息流都对齐到毫秒级的时间片上。模型在每个极小的时间片内,完成一次「感知-思考-响应」的循环。

这套机制从底层赋予了模型持续感知即时反应的能力,是 MiniCPM-o 实现全双工的基石。

此外,MiniCPM-o 4.5 本次发布并坚持开源可本地部署的 Web Demo,这对开发者与用户意味着:

绝对的隐私安全:全天候陪伴式 AI 会接触大量敏感信息。数据不出本地,是最好的隐私保护。

断网也能跑的可靠性:没有网络也能用。即使在隧道、野外,你的 AI 助手也不会「掉线」。

开发者的游乐场:完整的 Demo 前后端代码已开源。你可以基于此快速构建自己的全双工多模态应用,无论是智能座舱、无障碍辅助还是具身智能,MiniCPM-o 4.5 都能成为你将想象变成现实的助推器。

02


技术报告深度解读:

揭秘 MiniCPM-o 4.5 的实现之道

MiniCPM-o 4.5 采用端到端全模态架构,总参数量 9B。核心设计包括:

全模态端到端架构:多模态编码器/语音解码器与 LLM 通过隐藏状态紧密连接,在高压缩率下实现通用视觉、听觉感知和语音对话。

时分复用机制:将并行多模态流划分为周期性时间片内的顺序信息组,实现高效的流式处理。

可配置语音建模:支持文本+音频双系统提示,通过参考音频和角色提示词即可实现声音克隆角色扮演。

双模式支持:同一模型支持传统的轮次交互模式与Omni-Flow全模态全双工模式。

▎实时交互:Omni-Flow 流式全模态框架

传统多模态模型将交互视为一系列孤立的回合,而 Omni-Flow 将其重塑为一个连续的过程


图1:交互范式的演进,MiniCPM-o 4.5 实现了最右侧的全双工流式交互

如图所示,Omni-Flow 将视觉、音频输入流和模型的文本、语音输出流,在时间上进行精确切片和对齐。模型不再是被动地等待用户输入完成,而是以极高的频率(例如每秒一次)持续刷新自己的“世界观”,并自主决定在哪个时间点介入(说话或提醒)。

这套机制原生支持了打断、插话等高级交互行为,彻底摆脱了对外部 VAD (语音活动检测) 等辅助工具的依赖。

▎端到端架构:9B 模型如何协同工作?

为了实现 Omni-Flow,面壁智能团队设计了一套高效的端到端全模态架构,总参数量 9B。


图2:MiniCPM-o 4.5 的端到端全模态架构

其核心组件包括:

视觉编码器(0.4B):SigLIP-ViT,负责「看」。

音频编码器(0.3B):Whisper-Medium,负责「听」。

LLM 基座(8B):Qwen3-8B,负责「思考」和理解。

语音 Token 解码器(~0.3B):轻量级 Llama 架构,负责将 LLM 的「想法」(文本)转化为语音单元。

声码器: 将语音单元合成为最终的波形。

这个架构最巧妙的设计之一是:LLM 基座只生成文本 Token,而专业的语音合成任务「外包」给了一个更小、更专业的语音解码器。这避免了让大模型直接处理复杂的声学任务,从而保证了其核心的语言和推理能力不受损害。

▎为实时而生:TAIL 语音生成方案

流式语音的一大难题是延迟。为了让语音听起来自然,模型通常需要「预读」一大段文本,但这会导致输出的语音远远滞后于用户的输入。在需要「即时打断」的全双工场景里,这是致命的。

因此,面壁智能团队提出了TAIL(Time-Aligned Interleaving)方案,可以让每个语音块的生成都紧紧跟随其对应的文本块,而不是让文本「抢跑」太多。

同时,通过一个轻量级的「预读」(pre-look) 机制,解决了跨词发音的连贯性问题。最终,TAIL 在保证音频流畅悦耳的同时,将语音输出与交互发生的延迟降到了最低。

▎性能表现:9B 模型硬刚业界顶尖

参数规模小不等于模型性能弱。MiniCPM-o 4.5 在多个维度的评测中,展现了与 SOTA 大模型掰手腕的实力。


推理效率:在显存方面,MiniCPM-o 4.5 的 INT4 量化版仅需 11GB 显存即可运行,几乎是 Qwen3-Omni INT4 版本的一半,使得其在消费级显卡上的本地部署成为可能。在性能方面,MiniCPM-o 4.5 的推理速度也更快,其 INT4 版本的解码速度达到了 212 tokens/s,比 Qwen3 快了 40% 以上,响应延迟更低。


综合视觉能力:在 OpenCompass、MMBench 等多个视觉基准上,9B 的 MiniCPM-o 4.5与 Gemini 2.5 Flash 表现相当


全模态与全双工交互:在需要联合音视频理解的基准上,MiniCPM-o 4.5全面超越了 Gemini 2.5 Flash 和 Qwen3-Omni。在全双工视频理解基准 LiveSports-3K-CC 上,其胜率(54.4%)更是大幅领先专用的流式视频模型。


语音生成:无论是中文还是英文,MiniCPM-o 4.5 的语音生成质量(字符/单词错误率更低)和情感表现力都优于 Qwen3-Omni 和业界领先的 CosyVoice2。


03


真 · 全双工,潜力无限

全双工全模态大模型不是一个遥远的概念,而是会催生一系列全新的应用,例如:

主动式伴侣:在你烹饪、修理或运动时,给你实时的指导和提醒。

无障碍辅助:成为视障人士的「眼睛」,为视障人士持续观察环境,主动播报绿灯亮起、水杯将满等关键环境信息,帮助他们安全生活。

智能座舱:持续监控路况和驾驶员状态,主动提示「左侧有可用车位」并引导泊车,提供更智能、更及时的安全预警和驾驶辅助。

具身智能:作为机器人的「大脑」,持续感知动态环境并自主决策交互时机。

这些场景的共同点是:需求并非一次性问答,而是需要 AI 作为「沉默的观察者」和「及时的提醒者」融入动态生活流——这正是传统轮次对话模型无法胜任的。

MiniCPM-o 4.5 是原生全双工模型,摆脱了对VAD的依赖。这意味着:支持 general 声音感知(环境噪音、音乐等,不仅是语音);画面变化跟进更快(native全双工,无需等上句说完);AI 说话时可被实时引导改变内容。

当然,MiniCPM-o 4.5 目前还存在可提升空间,如长时间交互的稳定性、主动行为的丰富性等。多模态智能的下一个前沿,不仅在于模型能力的扩展,更在于重新思考智能表达的交互范式。Omni-Flow 和 MiniCPM-o 4.5 是面壁智能在这一方向上的关键探索。

开放与协作将持续推动人机交互演进。欢迎所有开发者试用模型、参与讨论、贡献代码,共同探索人机交互的未来!

➤ 技术报告 PDF:

https://github.com/OpenBMB/MiniCPM-o/blob/main/docs/MiniCPM_o_45_technical_report.pdf

➤ 在线体验:

https://minicpmo45.modelbest.cn/

➤ GitHub Demo(含本地安装包):

https://github.com/OpenBMB/MiniCPM-o-Demo

➤ Hugging Face 下载链接:

https://huggingface.co/openbmb/MiniCPM-o-4_5

➤ ModelScope 下载链接:

https://www.modelscope.cn/models/OpenBMB/MiniCPM-o-4_5

对于demo安装、api调用或模型使用中您遇到任何问题、或者想分享交流,欢迎扫码加入飞书群。

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
斯洛特:赛季收官三连胜也不会平息批评,我们需要长期的表现

斯洛特:赛季收官三连胜也不会平息批评,我们需要长期的表现

懂球帝
2026-05-09 00:16:12
欧盟称中国高风险,中方八字回应,特朗普发出通牒:不履行就加税

欧盟称中国高风险,中方八字回应,特朗普发出通牒:不履行就加税

轩逸阿II
2026-05-09 00:32:57
胖东来商场卫生间一家长抱着孩子在洗手池小便,工作人员:事发时该区域暂无人员在岗,洗手池及周边区域已进行专业消杀,水龙头也已更换

胖东来商场卫生间一家长抱着孩子在洗手池小便,工作人员:事发时该区域暂无人员在岗,洗手池及周边区域已进行专业消杀,水龙头也已更换

扬子晚报
2026-05-08 14:41:21
100股今日获机构买入评级 12股上涨空间超20%

100股今日获机构买入评级 12股上涨空间超20%

证券时报
2026-05-08 17:52:29
突发利空!亚太股市全线下跌,国产算力突发大跌,商业航天卷土重来?

突发利空!亚太股市全线下跌,国产算力突发大跌,商业航天卷土重来?

看财经show
2026-05-08 17:19:24
富商马清铿情妇喊话原配妻子,恭喜对方解脱,原配至今沉默没离婚

富商马清铿情妇喊话原配妻子,恭喜对方解脱,原配至今沉默没离婚

树娃
2026-05-06 09:19:57
追踪24年,科学家发现一个人的“生物钟”走得越快,寿命就越短

追踪24年,科学家发现一个人的“生物钟”走得越快,寿命就越短

混沌录
2026-05-06 23:43:06
锐评:郑钦文击败布克沙丑陋地赢?又哭了?药娃退赛是个好消息?

锐评:郑钦文击败布克沙丑陋地赢?又哭了?药娃退赛是个好消息?

网球之家
2026-05-07 23:04:17
浙江宣传评世界杯转播权之争:与其花费巨资追捧海外赛事,不如投入本土足球

浙江宣传评世界杯转播权之争:与其花费巨资追捧海外赛事,不如投入本土足球

澎湃新闻
2026-05-08 12:24:10
网传山西大同订婚强奸案男主出狱后发文:一天刑期未减,因我始终没有认罪

网传山西大同订婚强奸案男主出狱后发文:一天刑期未减,因我始终没有认罪

互联网大观
2026-05-07 18:16:26
只有4国领导人敢去红场?普京痛苦抉择,泽连斯基反手放出一招

只有4国领导人敢去红场?普京痛苦抉择,泽连斯基反手放出一招

阿离家居
2026-05-08 08:54:34
叶珂终于摊牌!生女两年无名分,分手真相扯出黄晓明私生活

叶珂终于摊牌!生女两年无名分,分手真相扯出黄晓明私生活

橙星文娱
2026-05-08 09:06:29
海事情报公司称有3艘伊朗油轮突破美军封锁

海事情报公司称有3艘伊朗油轮突破美军封锁

界面新闻
2026-05-08 18:58:20
日本3-1德国!赢球不可怕,可怕的是赛后张本的这番话,格局很大

日本3-1德国!赢球不可怕,可怕的是赛后张本的这番话,格局很大

刘哥谈体育
2026-05-08 13:24:01
iOS 26.5下周正式推送,一口气上线五大新功能

iOS 26.5下周正式推送,一口气上线五大新功能

环球网资讯
2026-05-08 10:49:06
一场季前赛就打出身价!女篮一姐重返WNBA,宫鲁鸣请放她一马

一场季前赛就打出身价!女篮一姐重返WNBA,宫鲁鸣请放她一马

弄月公子
2026-05-08 21:04:07
43岁身材还这么“满”?王心凌的身材到底是怎么保持的?

43岁身材还这么“满”?王心凌的身材到底是怎么保持的?

马拉松跑步健身
2026-05-04 19:32:40
属兔人注意:5月8-11号人在家中坐,事从天上来!是福是祸自己看

属兔人注意:5月8-11号人在家中坐,事从天上来!是福是祸自己看

匹夫来搞笑
2026-05-08 19:49:28
一艘中国油轮在霍尔木兹海峡附近遇袭?外交部:相关遇袭船只系马绍尔群岛籍,船上有中国籍船员

一艘中国油轮在霍尔木兹海峡附近遇袭?外交部:相关遇袭船只系马绍尔群岛籍,船上有中国籍船员

环球网资讯
2026-05-08 15:40:12
高璐,加盟清华大学

高璐,加盟清华大学

双一流高校
2026-05-08 00:09:47
2026-05-09 01:23:00
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7254文章数 20751关注度
往期回顾 全部

科技要闻

SK海力士平均奖金600万 工服成相亲神器

头条要闻

外籍银行高层在香港豪宅性虐及杀害两女子 内幕解密

头条要闻

外籍银行高层在香港豪宅性虐及杀害两女子 内幕解密

体育要闻

他把首胜让给队友,然后用一年时间还清账单

娱乐要闻

古天乐被曝隐婚生子,新娘竟是她

财经要闻

估值3000亿 DeepSeek寻求500亿元融资

汽车要闻

MG 4X实车亮相 将于5月11日开启盲订

态度原创

房产
旅游
数码
家居
公开课

房产要闻

豪掷6.8亿拿地!何猷君大手笔投资三亚!

旅游要闻

母亲节+护士节,临沂景区优惠合集暖心上线

数码要闻

华硕京东重磅新品日,华硕天选7系列游戏本开启预约

家居要闻

流动的尺度 打破家的形式主义

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版