网易首页 > 网易号 > 正文 申请入驻

逻辑智能推出全球首个完全开源语音大模型框架,定义LSLM研究基准

0
分享至

在大型语言模型(LLM)的浪潮下,多模态 AI 取得了飞速发展,尤其是在视觉语言(LVLM)领域,已经形成了成熟的研究范式。然而,与之形成鲜明对比的是,大型语音语言模型(LSLM)的发展却显得零散且步调缓慢。

该领域长期被碎片化的架构、不透明的训练数据和缺失的评估标准所困扰,导致研究之间难以进行公平比较,严重阻碍了技术的可复现性和社区的系统性进步。许多研究虽然发布了模型权重,但其赖以成功的关键 —— 训练数据和配置细节 —— 却常常被 “雪藏” 起来。

为了打破这一僵局,北京深度逻辑智能科技有限公司推出了 LLaSO—— 首个完全开放、端到端的语音语言模型研究框架。

LLaSO 旨在为整个社区提供一个统一、透明且可复现的基础设施,其贡献是 “全家桶” 式的,包含了一整套开源的数据、基准和模型,希望以此加速 LSLM 领域的社区驱动式创新。

  • 论文标题:LLaSO: A Foundational Framework for Reproducible Research in Large Language and Speech Model
  • 论文地址:https://arxiv.org/abs/2508.15418v1
  • 代码地址:https://github.com/EIT-NLP/LLaSO
  • 模型地址:https://huggingface.co/papers/2508.15418

LSLM 领域的技术挑战与研究痛点

相比视觉语言模型(LVLM)领域已形成 CLIP 编码器 + LLaVA 范式的成熟生态,LSLM 研究面临四大核心挑战:

1. 架构路径分化严重

当前 LSLM 架构主要包括外部特征融合、跨模态注意力机制、隐式对齐等多种技术方案,缺乏如 LVLM 领域般的统一范式。不同研究团队采用差异化架构,导致技术进展难以积累和比较。

2. 训练数据严重私有化

主流 LSLM 如 Qwen-Audio、Kimi-Audio等均依赖私有数据训练,数据规模、质量、构成等关键信息不透明。这使得:

  • 可复现性差:其他研究者无法复现相同结果
  • 性能归因模糊:难以判断性能提升源于架构创新还是数据优势
  • 研究门槛高:新入场者需要大量资源构建私有数据集

3. 任务覆盖局限性明显

现有数据集主要聚焦语义理解任务,对语音中的副语言学信息(paralinguistic information)如情感、口音、韵律、说话人特征等覆盖不足,限制了模型的全面语音理解能力。

4. 交互模态单一化

大多数 LSLM 仅支持 "文本指令 + 音频输入" 的单一交互模式,缺乏对 "音频指令 + 文本输入" 和纯音频交互等复杂模态组合的系统性支持。

LLaSO 框架:三大核心组件构建完整生态

图一:llaso 语料库的制作流程

LLaSO 框架通过三个核心开源组件解决上述挑战:

LLaSO-Align:大规模语音 - 文本对齐数据集

  • 数据规模:1200 万语音 - 文本对齐样本
  • 数据来源:聚合对话、有声书、多口音语音等多样化来源
  • 技术目标:通过自动语音识别(ASR)任务建立语音表示与文本语义空间的精确对齐
  • 质量控制:采用多重过滤机制确保数据质量和说话人多样性

LLaSO-Instruct:多任务指令微调数据集

  • 数据规模:1350 万多任务指令样本
  • 任务覆盖:涵盖语言学、语义学、副语言学三大类共 20 项任务

  • 语言学任务:ASR、翻译、总结等基础语言理解
  • 语义学任务:问答、推理、内容分析等高级认知
  • 副语言学任务:情感识别、口音检测、说话人分析等

  • 模态支持:系统性支持三种交互配置

  • 文本指令 + 音频输入(Text-Audio)
  • 音频指令 + 文本输入(Audio-Text)
  • 纯音频指令与输入(Audio-Audio)

图二:LLaSO 语料库的任务组成

LLaSO-Eval:标准化评估基准

  • 样本规模:15,044 个测试样本
  • 数据隔离:与训练集严格分离,确保评估公平性
  • 评估维度:覆盖所有 20 项任务的 comprehensive evaluation
  • 可复现性:提供统一评估协议和自动化评估工具

图三:LLaSO-Base 在 LLaSO-Eval 基准测试上的表现结果

这三大组件共同构成了一个完整的训练、微调和评估流水线,为 LSLM 研究提供了前所未有的开放性和便利性。

LLaSO-Base:技术验证与性能基准

为验证框架有效性,逻辑智能团队基于 LLaSO 数据训练了 38 亿参数的参考模型 LLaSO-Base。

模型架构设计

采用经典三阶段架构:

  • 语音编码器:Whisper-large-v3,负责语音特征提取
  • 模态投影器:多层感知机(MLP),实现语音 - 文本特征空间映射
  • 语言模型backbone:Llama-3.2-3B-Instruct,提供语言理解和生成能力

两阶段训练策略

  • 对齐阶段:冻结编码器和 LLM,仅训练投影器,使用 LLaSO-Align 数据建立 modality alignment
  • 指令微调阶段:联合训练投影器和 LLM,使用 LLaSO-Instruct 数据学习 complex instruction following

图四:LLaSO 模型架构示意图

LLaSO-Base 模型实验结果分析

我们在一系列严格设计的实验中,将 LLaSO-Base 与多个业界领先的语音语言模型(LSLMs)进行了直接对比。所有实验均在我们构建的标准化评估基准 LLaSO-Eval 上完成,确保了比较的公平性和结果的可复现性。

实验设置与评估基准

为确保评估的全面性,我们选取了 10 个主流的语音语言模型作为基准,包括 Qwen2-Audio、Typhoon-Audio、Salmonn、GLM-4-Voice、Mini-Omni、Kimi-Audio 等。所有模型的评估均在统一的 LLaSO-Eval 测试集上进行。

图五:详细描述了 LLaSO-Eval 评估基准的构成。

该基准包含 15,044 个样本,覆盖了 20 种不同任务。这些任务被系统地划分为三大类别,以实现对模型能力的深度剖析:

  • 语言学任务(Linguistic): 核心是自动语音识别 (ASR),评估模型最基础的语音转文本能力 。
  • 语义任务 (Semantic): 核心是音频问答 (AQA),评估模型对音频内容的高层次理解、推理和生成能力 。
  • 副语言学任务 (Paralinguistic): 进一步细分为 “以说话人为中心”(如性别、年龄、口音识别)和 “以内容为中心”(如意图预测、实体提取)两类,旨在评估模型对言外之意的捕捉能力 。

评估指标说明

我们的评估体系采用了多种指标,以确保对模型各方面性能的精确衡量 :

  • WER/CER (词 / 字错误率): 用于 ASR 等转录任务,数值越低,表示准确率越高。
  • Accuracy (准确率): 用于分类任务(如性别、口音识别),数值越高,性能越好。
  • MAE (平均绝对误差): 用于数值预测任务(如年龄识别),数值越低,预测越精准。
  • GPT-4o Score (GPT-4o 评分): 针对 AQA 等开放式生成任务,我们使用 GPT-4o 对模型输出的相关性和准确性进行 1-5 分的打分,分数越高代表表现越好。
  • Abstention Rate (拒绝回答率): 衡量模型在面对不熟悉或困难任务时的 “回避” 倾向。此比率越低,说明模型的指令遵循能力和鲁棒性越强。

总体性能对比:LLaSO-Base 表现全面领先

图六: 直观地展示了所有模型在 LLaSO-Eval 上的总体性能得分(经过归一化处理)。

从图中可以清晰地看到,LLaSO-Base 取得了 0.72 的最高分,位列第一 。这一成绩显著优于其他所有竞争模型,例如表现次之的 Kimi-Audio (0.65) 和 Qwen2-Audio (0.57) 。这一结果强有力地证明了 LLaSO-Base 的综合实力。研究发现,像 LLaSO-Base 这样在更多样化的任务上进行训练的模型,其综合性能远超那些主要针对 AQA 等少数任务进行优化的模型(如 Llama-Omni 和 Mini-Omni)。这凸显了我们所提倡的广泛任务覆盖训练策略的有效性。

详细任务性能分析

图七: 深入比较了各模型在语言学 (ASR) 和语义 (AQA) 任务上的具体表现 。

  • 在 ASR 任务上,LLaSO-Base 展现了压倒性优势。其 WER 和 CER 分别低至 0.08 和 0.03,是所有模型中最低的,这意味着它拥有最精准的语音转录能力 。相比之下,即便是 Kimi-Audio (WER 0.14) 和 Typhoon-Audio (WER 0.11) 等强劲对手,也存在明显差距 。

  • 在 AQA 任务上,竞争十分激烈。Kimi-Audio 在标准 “文本指令 + 音频输入” 模态下表现突出,获得了 3.35 的高分 。LLaSO-Base 在此项上得分 2.58,表现稳健 。但值得注意的是,在更具挑战性的 “音频指令 + 文本输入” 模态下,

LLaSO-Base 的得分 (2.70) 展现了更强的模态适应性,超过了多数模型。

图八:呈现了在 18 个细分的副语言学任务上的对比结果,这是对模型能否理解 “弦外之音” 的终极考验。

在这些更复杂的任务上,LLaSO-Base 几乎在所有任务上都取得了顶尖或接近顶尖的成绩。

  • 以说话人为中心的任务:在说话人性别识别 (SGC) 和口音分类 (AC) 任务上,LLaSO-Base 的准确率名列前茅,展现了对说话人特征的敏锐洞察力 。

  • 以内容为中心的任务:LLaSO-Base 的优势更为显著。在音素识别 (PR) 任务中,其 PER 仅为 0.03;在语音命令识别 (SCR) 任务中,WER/CER 低至 0.04/0.02 。这两项指标均以数量级的优势领先于所有其他模型,展示了其在精细语音内容分析上的卓越能力。

  • 指令遵循能力:更重要的是,LLaSO-Base 在这些任务中的拒绝回答率极低。相比之下,Llama-Omni 和 Mini-Omni 等模型在许多副语言学任务上直接选择 “拒绝回答”(表格中标记为 "Reject"),这表明它们缺乏处理此类任务的能力。LLaSO-Base 的稳定响应证明了其强大的指令遵循能力和任务泛化性。

模态泛化与任务覆盖度分析

图九:模型在不同输入模态下的性能稳定性

  • 模态泛化能力 (Figure 9): 该图分析了模型在不同输入模态(纯音频、文本 + 音频、音频 + 文本)下的性能稳定性。结果显示,大多数模型在切换到不熟悉的模态时性能会下降。虽然 LLaSO-Base 也存在性能波动,但其在标准模态下的峰值性能远高于其他模型,这是其总体得分领先的关键。同时,研究也发现,采用 “交错或并行解码” 策略的模型(如 Mini-Omni、GLM-4-Voice)通常表现出更好的稳定性。

图十:模型训练正相关关系

  • 任务覆盖度的重要性 (Figure 10): 该图清晰地揭示了模型训练任务数量与其性能和拒绝回答率之间的正相关关系。

LLaSO-Base 经过 20 个任务的训练,其总体性能和指令遵循能力(低拒绝回答率)均处于领先地位 。而那些训练任务较少的模型,性能普遍偏低,且更容易 “拒绝” 回答,这进一步验证了 LLaSO 框架设计理念的正确性与前瞻性。

开源策略的技术价值与社区影响

对学术研究的推动作用

1.可复现性保障:完整开放的训练数据和代码实现

2.公平比较基础:统一评估基准消除 evaluation bias

3.研究门槛降低:研究者可专注于算法创新而非数据收集

4.技术积累加速:基于统一框架的增量改进更易实现

对工业应用的促进效应

1.开发成本降低:相比私有数据方案节省数千万数据构建成本

2.技术风险可控:开源方案的透明性降低技术选型风险

3.定制化便利:开放架构支持针对性的领域 adaptation

4.生态建设基础:为 LSLM 生态标准化提供参考实现

技术局限与未来方向

当前局限性

1.模型规模:38 亿参数相比 GPT-4 级别模型仍有性能 gap

2.多语言支持:主要针对英文和中文,其他语言覆盖有限

3.实时性能:大模型推理延迟对实时应用仍有挑战

4.长音频处理:对超长音频序列的处理效率有待优化

发展方向

1.模型 scaling:探索更大规模模型的性能上限

2.效率优化:模型压缩、量化等技术降低部署门槛

3.多模态扩展:集成视觉信息实现 Audio-Visual-Language understanding

4.领域适应:针对医疗、教育、客服等垂直领域的专用优化

结论

LLaSO 作为全球首个完全开源的 LSLM 研究框架,通过提供大规模数据、统一基准和参考实现,为语音语言模型研究建立了透明、可复现的技术基础设施。其开源策略不仅降低了研究门槛,更重要的是为 LSLM 领域建立了统一的技术标准,有望推动该领域从 "各自为战" 向 "协同创新" 转变。

随着框架的广泛采用和社区贡献,LLaSO 有望成为 LSLM 研究的 "ImageNet 时刻",为构建真正理解人类语音 nuance 的 AI 系统奠定坚实基础。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
雷军15小时不眠直播:车越来越好,手机却被“偷家”了

雷军15小时不眠直播:车越来越好,手机却被“偷家”了

无相商业趋势
2026-04-17 17:42:43
广东惨遭18分逆转疑似放水!专家暗示打假球:杜锋为季后赛挑对手

广东惨遭18分逆转疑似放水!专家暗示打假球:杜锋为季后赛挑对手

篮球快餐车
2026-04-19 06:11:53
西伯利亚:吃不完的鹿肉,收不完的粮;砍不完的森林,挖不完的矿

西伯利亚:吃不完的鹿肉,收不完的粮;砍不完的森林,挖不完的矿

小莜读史
2026-04-17 20:53:45
尴尬!湖北一美女称隔壁男子塞纸条索要微信,结果她直接挂网上了

尴尬!湖北一美女称隔壁男子塞纸条索要微信,结果她直接挂网上了

火山詩话
2026-04-18 14:42:35
我国摧毁特大假酒网络

我国摧毁特大假酒网络

财联社
2026-04-19 12:34:17
不服 35岁对手:我只是打丢了简单球 赵心童回应:压力让我有些乱

不服 35岁对手:我只是打丢了简单球 赵心童回应:压力让我有些乱

风过乡
2026-04-19 06:36:27
新型啃老正在流行,68岁老人哭诉:你们的孝顺让我有苦说不出

新型啃老正在流行,68岁老人哭诉:你们的孝顺让我有苦说不出

蝉吟槐蕊
2026-04-18 08:26:05
李逵母亲被老虎吃掉,宋江为何大笑?长大后才看透她母亲有多坏

李逵母亲被老虎吃掉,宋江为何大笑?长大后才看透她母亲有多坏

耳东文史
2026-04-12 00:01:27
日本军舰强闯台湾海峡:咱们为什么没打了它,或者上船去抓人?

日本军舰强闯台湾海峡:咱们为什么没打了它,或者上船去抓人?

黄娜老师
2026-04-19 01:00:29
在美以高压下,伊朗内部出现多起极端事件

在美以高压下,伊朗内部出现多起极端事件

高博新视野
2026-04-18 06:00:18
卡帅神了!1-0通杀英超4强队+前五稳了,曼联还不让他转正欺负人

卡帅神了!1-0通杀英超4强队+前五稳了,曼联还不让他转正欺负人

体育知多少
2026-04-19 07:38:28
完胜!唐斯25+8+4+3,麦科勒姆26+4,哈特立大功,季后赛走势改变

完胜!唐斯25+8+4+3,麦科勒姆26+4,哈特立大功,季后赛走势改变

篮球大视野
2026-04-19 09:05:54
反转来了,中方全面断供钨原料,日本作冒险决定,拒不还中国文物

反转来了,中方全面断供钨原料,日本作冒险决定,拒不还中国文物

风信子的花
2026-04-17 12:31:50
医生忠告:肺癌早期不是咳嗽,而是频繁出现这3个症状,小心异常

医生忠告:肺癌早期不是咳嗽,而是频繁出现这3个症状,小心异常

芹姐说生活
2026-04-18 15:22:35
赵心童10-7,同行怎么看?亨德利这样点评 前冠军:可能只发挥50%

赵心童10-7,同行怎么看?亨德利这样点评 前冠军:可能只发挥50%

生活新鲜市
2026-04-19 12:42:16
别割肉!4月有色80%概率上涨,这3类金属要起飞

别割肉!4月有色80%概率上涨,这3类金属要起飞

趣味萌宠的日常
2026-04-19 12:10:52
亲爸后妈闹离婚,湖北15岁女孩坚定选择跟后妈生活:“她比亲妈还亲”;法院:尊重孩子意愿,孩子由继母抚养,生父按月支付抚养费

亲爸后妈闹离婚,湖北15岁女孩坚定选择跟后妈生活:“她比亲妈还亲”;法院:尊重孩子意愿,孩子由继母抚养,生父按月支付抚养费

大象新闻
2026-04-18 12:44:03
切记,半夜醒来千万不要看时间!

切记,半夜醒来千万不要看时间!

环球网资讯
2026-04-16 07:56:25
中超无扣分积分榜:成都第一申花第二,天津首胜后升至第13

中超无扣分积分榜:成都第一申花第二,天津首胜后升至第13

懂球帝
2026-04-18 22:15:11
特朗普把美伊谈判搞黄了!!!

特朗普把美伊谈判搞黄了!!!

山河路口
2026-04-19 12:19:15
2026-04-19 16:00:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12792文章数 142632关注度
往期回顾 全部

科技要闻

50分26秒破人类纪录!300台机器人狂飙半马

头条要闻

半年下沉22厘米 女子家中坐拥价值上亿别墅却没法住人

头条要闻

半年下沉22厘米 女子家中坐拥价值上亿别墅却没法住人

体育要闻

湖人1比0火箭:老詹比乌度卡像教练

娱乐要闻

张天爱评论区沦陷!被曝卷入小三风波

财经要闻

华谊兄弟,8年亏光85亿

汽车要闻

29分钟大定破万 极氪8X为什么这么多人买?

态度原创

游戏
健康
教育
家居
时尚

“浩浩妈”新作被捆绑!表情娇羞 身材太难顶

干细胞抗衰4大误区,90%的人都中招

教育要闻

陕西某中学家长集体白嫖演出服,给孩子们上了最坏的一课

家居要闻

法式线条 时光静淌

3组出游穿搭,惊艳你的假期!

无障碍浏览 进入关怀版