网易首页 > 网易号 > 正文 申请入驻

Mini-Omni-Reasoner:实时推理,定义下一代端到端对话模型

0
分享至



本文第一作者谢之非,共同第一作者马子阳皆是来自于南洋理工大学的博士生。通讯作者为新加坡国立大学特聘教授颜水成和南洋理工大学数据与科学系校长讲席教授苗春燕。共同作者为腾讯AI首席专家叶德珩和新加坡国立大学博士后研究员廖越。

两千多年前,孔子说过「三思而后行」。这句古老箴言,其实点出了人类面对复杂问题的核心智慧:一步步推理,层层拆解,最终做出可靠的决策。

现在,已有诸多模型在复杂推理方面展现出显著进展,如 DeepSeek-R1 和 OpenAI o1,部分多模态系统甚至能够处理跨领域的复杂任务,展现出解决复杂现实问题的潜力。然而,在端到端对话模型中,推理能力尚未解锁。

原因并不复杂。深度思考意味着模型往往需要在输出前生成完整推理链,而这直接带来延迟。对于语音对话系统而言,速度与质量同样关键。一旦停顿过长,哪怕答案再精妙,也会破坏交互的自然感。

设想一个场景:你问语音助手「这份研究报告的结论可靠吗?」。如果模型沉默十秒才给出语音的回复,则完全失去对话的体验;若它立刻回答,但推理缺乏深度,又容易显得表面化。问题在于:要么得到一个「强大但反应迟钝」的助手,要么得到一个「迅速但思维简单」的助手。鱼与熊掌,似乎不可兼得。

基于这一挑战,我们提出了 Mini-Omni-Reasoner——一种专为对话场景打造的实时推理新范式。它通过「Thinking-in-Speaking」实现边思考边表达,既能实时反馈、输出自然流畅的语音内容,又能保持高质量且可解释的推理过程。



  • 论文标题:MINI-OMNI-REASONER: TOKEN-LEVEL THINKING-IN-SPEAKING IN LARGE SPEECH MODELS
  • 论文链接
  • https://arxiv.org/pdf/2508.15827
  • 项目主页
  • https://github.com/xzf-thu/Mini-Omni-Reasoner

Mini-Omni-Reasoner:

边思考,边表达



让我们暂时把视角放回人类自己。当一个人面对复杂问题时,往往不是「想完再说」,而是「边说边想」。当被问到「如何理解人工智能的未来」时,大多数人不会先默默推理数分钟再完整输出结论,而是会边思考边组织语言:「这个问题挺复杂的……我觉得可以从技术和社会两个层面来看……」

Mini-Omni-Reasoner 正是受到这一启发,探索「边思考,边表达」的新范式。它允许模型在生成回答的同时进行内部推理,实现token 级别的思维流与输出流交替生成。这样既能保留逻辑深度与可解释性,又能提供自然、低延迟的交互体验。

「一心二用」——如何在大模型中实现?



「Thinking-in-Speaking」推理范式:传统推理模型遵循「thinking-before-speaking」路线:先完整生成推理链,再一次性给出答案。逻辑虽完整,但交互性差,用户必须等待较长时间。尤其在语音交互场景下,这种长时间的停顿极大削弱了使用体验。

Mini-Omni-Reasoner 提出的则是「thinking-in-speaking」范式。模型在生成过程中同时维护两条流:回答流(response stream)和推理流(reasoning stream)。二者像两支交错前进的队伍,一边输出用户可听到的回答,一边在后台继续进行逻辑演算。

通俗理解为:模型循环输出p 个回答 token + q 个推理 token,直到完成任务。用户感受到的是自然、几乎无停顿的对话,而模型在内部始终维持严谨的推理链。整个推理过程如下。



这种机制突破了「要么快,要么准」的二元困境,让「会想、会说」真正成为可能。

模型架构:Mini-Omni-Reasoner 采用了Thinker-Talker架构,像一对分工明确的搭档:

  • Thinker:大脑担当,负责语音理解和逻辑推理,交替产出回答 token 和推理 token。内部结构是「音频编码器 + 大模型」。

  • Talker:嘴巴担当,只负责把回答 token 变成语音,而对推理 token 保持沉默,确保输出始终简洁、自然。

这种解耦方式的好处很直观:Thinker 全力搞逻辑,Talker 专心搞对话,谁也不分心。

2:8 Token 交替设计:我们最终选择了2:8 的回答–推理 token 比例,背后有几层考量:

  • 推理比例更高 → 思维更完整,但可能反应太慢,实时性差。

  • 回答比例更高 → 说得快,但容易「说过头」,逻辑没跟上,甚至产生幻觉。

  • Chunk 过长 → 不管是全推理还是全回答,都会带来延迟或质量问题。

结合实验结果,我们发现推理链长度大约是回答的 2~3 倍,因此 2:8 是一个平衡点:既保证推理深度,又能保持实时语音合成的流畅性。比如,当模型每秒生成 50 token,就能给用户带来 10 个回答 token——对实时对话来说已经非常充裕。

「点石成金」——四阶段数据合成管线



仅有架构还不够,要真正掌握「边思考边表达」,还需要精心设计的数据与训练流程。为此,我们构建了Spoken-Math-Problems-3M数据集,并设计了严谨的数据管线。

在数据构建中,我们面临一个核心挑战——解决**「逻辑错位」(Anticipation Drift)**问题。即如何防止模型在回答时「抢跑」,说出推理流中尚未得出的结论。我们为此设计了两大核心策略:

  • 异步推理机制:我们在数据层面「教会」模型一种新的说话艺术。在回答流中,先说一些「铺垫语境」的话,为后续的推理争取时间;而在推理流中,则要求模型「开门见山」,直奔主题,不讲废话。

  • 反序列化验证:我们像一位严格的考官,将所有交错的 token 重新组合成自然语言文本,然后利用强大的 GPT 模型进行语义和时间一致性检查,剔除所有逻辑不连贯或存在「超越」现象的不合格样本。

通过上图中的四阶段数据管线,我们为 Mini-Omni-Reasoner 提供了超过百万份高质量的训练数据。

「百炼成钢」——五阶段训练方法

训练 Mini-Omni-Reasoner 需要一个精心设计的五阶段管线,因为模型不仅引入了定制化架构,还采用了全新的输出形式。为了确保稳定收敛并有效将文本推理能力迁移到语音,我们将训练过程分解为五个逐步递进的阶段,总体思路为先在文本模态中保持或增强推理能力,再将其与语音模态对齐。

  • 对齐训练:我们从 Qwen2.5-Omni-3B 初始化模型,解决架构不兼容问题,并先只微调音频适配器,使用语音问答和对话数据桥接语音编码器与 LLM 主干的接口,然后解冻除音频编码器外的所有模块,适应新加入的特殊 token,确保模型在定制化 token 格式下无缝工作。

  • 混合数学预训练:在模型对齐后,我们增强其数学推理能力,使用标准的「先推理再说话」数据集(包括文本和语音形式)进行预训练,确保在引入 token 级交错生成之前具备扎实的推理能力和数据对齐。

  • 文本 thinking-in-speaking 训练:在文本模态中训练模型交替生成推理 token 和回应 token,仅更新语言模型参数,专注于掌握交错推理-回应结构,不涉及语音变化。

  • 语音 thinking-in-speaking 训练:将输入替换为语音,仅微调音频编码器,保持 LLM 固定,使模型能够在语音条件下保持推理增强的生成方式,实现推理范式在模态间的迁移。

  • Talker 训练:最终阶段训练说话模块,实现流畅自然的语音生成,整个 Thinker 组件冻结,仅训练 Talker 以将交错输出转换为语音,同时保留前面阶段建立的逻辑基础和推理能力。

「真金火炼」——实验数据与案例分析

为了验证 Mini-Omni-Reasoner 的有效性,我们在 Spoken-MQA 数据集上测试了模型与多种不同类型方法的对比,模型相比于基座模型 Qwen2.5-Omni-3B 有明显的性能提升。



为了进一步展现 Mini-Omni-Reasoner 与传统的对话模型和基础模型 Qwen2.5-Omni 模型的区别,我们分析了针对同样问题不同模型的回答结果:实验证明「Thinking-in-Speaking」方法可以有效地在保持回复内容自然简洁的情况下保持高质量的推理过程。



结语

当下,大模型的推理能力已逐渐成为解决复杂问题的核心驱动力。但遗憾的是,这一能力在对话系统中仍未被真正释放。为此,我们提出了Mini-Omni-Reasoner——一次早期的尝试。诚然,它距离成熟应用还有很长的路要走,但「thinking-in-speaking」的实时推理机制,我们相信正是对话模型迈向复杂问题解决的必经之路。

展望未来,我们认为至少有几个值得深入探索的方向:

  • 如何科学地评测模型在通用问题上的推理增益,如「人生的意义是什么」;
  • 如何让对话模型自主决定何时需要「思考」;
  • 如何突破固定比例生成,探索更灵活多样的思维范式。

总的来说,Mini-Omni-Reasoner 并非终点,而是一个起点。我们更希望它能成为抛砖引玉,引发学界和产业界对「对话中的推理能力」的持续关注与探索。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中金资本董事长单俊葆被查,姐姐单俊芬的生意显形

中金资本董事长单俊葆被查,姐姐单俊芬的生意显形

法经网
2025-11-12 10:05:31
刘道玉逝世:民间哀思如潮,体制内媒体为何却保持沉默?

刘道玉逝世:民间哀思如潮,体制内媒体为何却保持沉默?

娱乐的宅急便
2025-11-12 02:24:35
轻断食翻车,再添新证!最新研究:进食<8小时,心血管死亡风险飙升135%;且伤β细胞,代谢疾病风险也激增

轻断食翻车,再添新证!最新研究:进食<8小时,心血管死亡风险飙升135%;且伤β细胞,代谢疾病风险也激增

梅斯医学
2025-11-12 07:53:26
1.2亿!马云妻子买下前意大利使馆,学学顶级富豪的资产安全操作

1.2亿!马云妻子买下前意大利使馆,学学顶级富豪的资产安全操作

商悟社
2025-11-12 00:55:09
高市支持率82%,薛领事被围攻,日防卫省称先发制人,特朗普发声

高市支持率82%,薛领事被围攻,日防卫省称先发制人,特朗普发声

科普100克克
2025-11-12 06:11:34
破防了!中方首次在大会上用“冲绳原住民”,结果日本闹了一个月

破防了!中方首次在大会上用“冲绳原住民”,结果日本闹了一个月

青青子衿
2025-11-11 02:11:09
弹无虚发,切特成为NBA历史第4位100%命中率砍20分10板的球员

弹无虚发,切特成为NBA历史第4位100%命中率砍20分10板的球员

懂球帝
2025-11-12 12:44:08
官方:独行侠总经理尼科-哈里森被解雇

官方:独行侠总经理尼科-哈里森被解雇

懂球帝
2025-11-12 02:21:04
媒体人:浙江曾挽留余嘉豪打完决赛再走,但西班牙方面催促其归队

媒体人:浙江曾挽留余嘉豪打完决赛再走,但西班牙方面催促其归队

懂球帝
2025-11-12 10:37:11
2909亿身家有何用?97岁的李嘉诚无力回天,两个60岁儿子已成心病

2909亿身家有何用?97岁的李嘉诚无力回天,两个60岁儿子已成心病

冷紫葉
2025-11-11 20:23:54
被老鼠吃到灭绝!70年后,在悬崖巨石上发现26只“树上龙虾”

被老鼠吃到灭绝!70年后,在悬崖巨石上发现26只“树上龙虾”

万象硬核本尊
2025-11-10 19:06:45
广西百色市人大常委会原副主任石永超获刑十年半,收受财物1914万元

广西百色市人大常委会原副主任石永超获刑十年半,收受财物1914万元

澎湃新闻
2025-11-12 13:24:26
申请3天就获批!A股1300亿市值公司“摘帽”

申请3天就获批!A股1300亿市值公司“摘帽”

每日经济新闻
2025-11-10 23:11:07
两地市委政法委书记调整

两地市委政法委书记调整

上观新闻
2025-11-12 12:44:15
英伟达市值一夜蒸发超万亿元!这只AI科技股大跌16%,发生了什么?比特币跌超3%,加密币全网超15万人爆仓,32亿元灰飞烟灭

英伟达市值一夜蒸发超万亿元!这只AI科技股大跌16%,发生了什么?比特币跌超3%,加密币全网超15万人爆仓,32亿元灰飞烟灭

每日经济新闻
2025-11-12 06:26:06
专家解读“阿坝红旗桥因边坡滑坡垮塌”:桥梁建设选址前会进行充分地质勘察,此类事故不常见

专家解读“阿坝红旗桥因边坡滑坡垮塌”:桥梁建设选址前会进行充分地质勘察,此类事故不常见

极目新闻
2025-11-11 21:46:04
真不能怪祖院长,就曾医生这颜值、这才华和魅力,谁遭的住?

真不能怪祖院长,就曾医生这颜值、这才华和魅力,谁遭的住?

吃瓜局
2025-11-11 16:23:49
巴媒:奥斯卡此前并无严重心脏问题病史,医生正调查异常原因

巴媒:奥斯卡此前并无严重心脏问题病史,医生正调查异常原因

懂球帝
2025-11-12 06:34:05
曾琦老公曝光,祖院长老婆被挖出,网友:理解他们俩为何在一起了

曾琦老公曝光,祖院长老婆被挖出,网友:理解他们俩为何在一起了

李昕言温度空间
2025-11-11 22:30:23
快报,快报  菲律宾正式宣布

快报,快报 菲律宾正式宣布

南权先生
2025-11-12 09:15:03
2025-11-12 14:07:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11697文章数 142502关注度
往期回顾 全部

科技要闻

Meta"宫斗"持续,AI教父杨立昆被"气"走了

头条要闻

美媒爆出猛料 "北溪"破坏行动由扎卢日内指挥

头条要闻

美媒爆出猛料 "北溪"破坏行动由扎卢日内指挥

体育要闻

太阳三连胜&活塞东部第一 哪个更想不到

娱乐要闻

辛芷蕾配得上威尼斯影后吗?

财经要闻

专家建议设立5万亿房地产稳定基金

汽车要闻

能得到央视的肯定 长安马自达EZ-60可不简单

态度原创

健康
艺术
本地
家居
手机

血液科专家揭秘白血病七大误区

艺术要闻

毛主席珍贵签名照曝光,鲜为人知的历史瞬间!

本地新闻

云游安徽 | 凌滩玉魄淬千年,诗意钢城马鞍山

家居要闻

国美学子 打造筑梦空间

手机要闻

荣耀500系列官宣:超级标准版+超级Pro版!自带拍照按键

无障碍浏览 进入关怀版