网易首页 > 网易号 > 正文 申请入驻

SenseVoice:阿里开源语音大模型,10秒音频70ms识别完

0
分享至

核心价值:阿里通义实验室开源的极速多语言语音理解模型,处理 10 秒音频仅需 70ms,比 Whisper-Large 快 15 倍 同时支持语音识别(ASR)、语种识别(LID)、情感识别(SER)、音频事件检测(AED)四大能力,50+ 语言通用,q8 量化后仅 254MB,移动端/边缘设备也能跑。



什么是 SenseVoice?

SenseVoice 是阿里通义实验室FunAudioLLM家族开源的核心模型,专门解决"语音理解"这一难题。不同于 OpenAI Whisper 只能做"语音→文字"的单一转换,SenseVoice 在一个模型里同时集成 4 大能力:

  • ASR(自动语音识别):把音频转成文字
  • LID(语种识别):自动判断说的是中文、英文还是粤语
  • SER(情感识别):识别说话人是开心、难过还是愤怒
  • AED(音频事件检测):识别背景音是掌声、笑声还是咳嗽

模型用40 万小时多语言音频数据训练,覆盖中文、英文、粤语、日语、韩语等 50+ 种语言。在中文识别(CER)和粤语识别上效果都显著优于 OpenAI Whisper 同尺寸模型。

核心定位:Whisper 的中文/粤语加强版 + 情感事件检测 + 推理速度 15x 提升

✨ 核心功能一览



️ 快速上手:5 分钟跑通示例安装 FunASR

# 推荐使用 ModelScope 源(国内下载快)pip install funasr modelscope# 如果用 HuggingFace 源pip install funasr huggingface_hub
一行代码跑通 ASR

from funasr import AutoModelfrom funasr.utils.postprocess_utils import rich_transcription_postprocess# 加载模型(首次会自动下载 ~234MB)model = AutoModel(model="iic/SenseVoiceSmall", trust_remote_code=True)# 识别一段音频res = model.generate(input="test.wav",language="auto",   # 自动检测语种:zh/en/yue/ja/kouse_itn=True,      # 数字归一化("一百" → "100")text = rich_transcription_postprocess(res[0]["text"])print(text)# 输出示例:<|zh|><|HAPPY|>大家好,欢迎使用 SenseVoice 语音识别!

注意:输出文本中的 <|zh|>、<|HAPPY|> 是特殊标签,前者是语种,后者是情感。这种"自包含标签"是 SenseVoice 区别于 Whisper 的关键设计——一个模型同时输出多维度信息。

流式实时识别(语音助手场景)

from funasr import AutoModelmodel = AutoModel(model="iic/SenseVoiceSmall", trust_remote_code=True)# 流式识别:边录边出文字res = model.generate(input="microphone",          # 麦克风输入language="zh",use_itn=True,stream=True,                 # 开启流式chunk_size=[0, 10, 5],       # 音频分块:[左窗长, 右窗长, 块长]# 实时输出识别片段for chunk in res:print(rich_transcription_postprocess(chunk["text"]), end="", flush=True)
llama.cpp / GGUF 部署(无需 Python、无需 GPU)

# 1. 下载 GGUF 量化模型(q8 仅 254MB)bash download-funasr-model.sh sensevoice ./gguf# 2. 编译 llama-funasr-sensevoice 可执行文件git clone https://github.com/FunAudioLLM/SenseVoice.cppcd SenseVoice.cpp && cmake -B build && cmake --build build -j# 3. 命令行直接跑(类似 whisper.cpp,但中文/粤语更强)./build/bin/llama-funasr-sensevoice \-m ./gguf/SenseVoiceSmall-f16.gguf \--vad ./gguf/fsmn-vad.gguf \-a ./test.wav \-l zh
与竞品对比



核心优势总结:SenseVoice-Small 234M 参数,推理速度比 Whisper-Large(1550M)快 15 倍,但中文 CER 低至 3%(Whisper-Large 是 5%)。换言之,用 1/7 的参数量、15x 的速度,拿到比 Whisper-Large 更好的中文识别效果。

适用场景场景 1:会议录音转写 + 说话人分离



功能说明:SenseVoice 不仅能识别中文、英文、粤语等 50+ 语言,还能自动在输出文本中标注语种标签 <|zh|>、<|yue|>。最新的 2026/05 版本新增了说话人日志(Speaker Diarization),可以自动识别"Speaker 1"、"Speaker 2",并给出每段话的时间戳。

输入要求:mp3/wav 音频文件,任意长度(流式 API 支持实时)

输出效果

<|zh|><|NEUTRAL|>Speaker 1 [00:00-00:15]: 大家好,今天我们讨论项目进展<|zh|><|HAPPY|>Speaker 2 [00:15-00:32]: 好的,我这边进展很顺利<|en|><|NEUTRAL|>Speaker 1 [00:32-00:48>: The first demo is ready

适用场景:会议记录、采访整理、播客转字幕、客服对话分析

场景 2:粤语/英语/普通话混说识别



功能说明:SenseVoice 训练数据专门覆盖中文普通话、粤语、英语三语,能在混合语种音频中自动切换识别。这对于粤港澳大湾区、跨境电商客服、外贸直播等场景价值极大。Whisper 在粤语识别上一直偏弱,SenseVoice 直接超越。

输入要求:包含多语种混合的音频

输出效果:自动判断每句话的语种,并应用对应语种的标点和分词规则

适用场景:粤港澳跨境业务、双语直播、跨国会议、外语学习 App

场景 3:情感识别(客服满意度分析)



功能说明:SenseVoice 内置 7 种情感识别(喜怒哀乐惊讶厌恶恐惧中性),输出格式为 <|HAPPY|>、<|ANGRY|> 等标签。客服场景下,可以自动标记"客户在生气"或"客户很满意",结合 ASR 转写的话术做满意度评估。

输入要求:客服通话录音

输出效果

<|ANGRY|>你们这个产品怎么回事,根本不能用!<|SAD|>我希望你们能改进一下...<|HAPPY|>感谢客服小姐姐的耐心解答

适用场景:客服质检、舆情监控、心理评估、智能音箱情感反馈

场景 4:音频事件检测(剪辑/标注辅助)



功能说明:SenseVoice 能识别音频中的非语音事件,包括BGM(背景音乐)、Applause(掌声)、Laughter(笑声)、Cry(哭声)、Cough(咳嗽)、Sneeze(喷嚏)、Breath(呼吸)等。视频剪辑师可以用它自动找"笑声点"、"掌声点"作为剪辑锚点。

输入要求:音视频文件

输出效果

[00:12.3] <|Applause|>  ← 自动标注掌声[00:18.7] <|Laughter|>  ← 自动标注笑声[00:25.0] <|Speech|>大家好...  ← 自动识别语音起止

适用场景:播客剪辑、视频自动字幕标注、媒体内容分析、无障碍辅助(识别哭声/咳嗽用于看护)

场景 5:WebUI 可视化体验



功能说明:官方提供了基于 Gradio 的 WebUI,下载模型后直接 python webui.py 就能在浏览器中拖入音频文件、看识别结果、试听对照。适合快速验证效果和非开发同学使用。

输入要求:浏览器访问 http://localhost:7860

输出效果:可视化界面,显示 ASR 文本、语种标签、情感标签、事件标签

适用场景:技术选型对比、Demo 演示、教学场景、效果评估

场景 6:推理流程(FastAPI / Docker 部署)



功能说明:SenseVoice 提供了完整的部署方案,包括FastAPI 服务Docker 镜像Docker Compose 编排。生产环境可以用 VAD 模型先切分长音频(fsmn-vad),再分片送入 SenseVoice 处理,避免 OOM;推理完成后用标点模型(ct-punc)补全标点。

输入要求:长音频文件(数小时会议录音)

输出效果:分片处理 + 说话人合并 + 时间戳对齐的完整转写

适用场景:长会议录音、客服通话系统、音视频字幕生产

用户群体总结

  • • ✅AI 应用开发者:需要本地化、低延迟、多语种的语音理解能力
  • • ✅客服/外呼系统:需要情感识别 + 说话人分离 + ASR 联合分析
  • • ✅媒体/视频剪辑师:需要事件检测(掌声/笑声锚点)+ 字幕生成
  • • ✅跨境电商/外贸团队:需要中英粤混合识别
  • • ✅教育/科研机构:需要一个开源、可商用、轻量的语音基础模型
  • • ❌不适合:需要在线 SaaS 服务的用户(SenseVoice 是本地模型,需要自己部署)
定价方案

完全开源免费

  • 模型权重:Apache-2.0 协议,商用免费
  • 代码仓库:https://github.com/FunAudioLLM/SenseVoice
  • 模型下载:• ModelScope:https://www.modelscope.cn/models/iic/SenseVoiceSmall• HuggingFace:https://huggingface.co/FunAudioLLM/SenseVoiceSmall
  • GGUF 量化版:https://huggingface.co/FunAudioLLM/SenseVoiceSmall-GGUF(q8 仅 254MB)

硬件要求

部署方式最低配置SenseVoice-Small FP16GPU 4GB(如 RTX 3050)SenseVoice-Small INT8 (ONNX)CPU 可跑,移动端可用SenseVoice-Small GGUF q8任意 CPU,单核也能跑SenseVoice-Large(未开源)GPU 16GB+

对比 Whisper:Whisper-Large-v3 商用必须遵守 OpenAI 条款,而 SenseVoice Apache-2.0 完全无限制。

总结

SenseVoice 是一款"小而强"的多语言语音理解模型,对中文和粤语的识别能力远超 Whisper 同尺寸模型,同时集成情感识别、事件检测、说话人分离等 Whisper 没有的能力,加上 15x 的推理速度优势,是 2026 年本地化语音 AI 应用的首选基础模型。

推荐指数:⭐⭐⭐⭐⭐(满分 5 星)

适合人群:需要在本地部署、低延迟、多语种、含情感/事件检测的语音 AI 应用的开发者

立即体验

  • GitHub 仓库:FunAudioLLM/SenseVoice
  • ModelScope 模型:iic/SenseVoiceSmall
  • HuggingFace 模型:FunAudioLLM/SenseVoiceSmall

开源协议:Apache-2.0

数据截至 2026-06-24,最新信息请以官方 GitHub 仓库为准。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
世界杯:亚洲9队减1席!西亚强队惨遭翻盘,亚洲各队形势分析

世界杯:亚洲9队减1席!西亚强队惨遭翻盘,亚洲各队形势分析

刘哥谈体育
2026-06-26 18:15:05
心理学:一个女人允许你“摸”这两地方,意味着她爱上你了

心理学:一个女人允许你“摸”这两地方,意味着她爱上你了

心理观察局
2026-06-23 07:19:13
外媒终于发现不对劲:平壤街头大变样,朝鲜靠着中国偷偷干件大事

外媒终于发现不对劲:平壤街头大变样,朝鲜靠着中国偷偷干件大事

旧窗老街
2026-06-13 03:11:21
日本突发地震,东京震感强烈

日本突发地震,东京震感强烈

蓬勃新闻
2026-06-26 12:49:54
新西兰报告称中国正扩大在太平洋地区军事部署,外交部回应

新西兰报告称中国正扩大在太平洋地区军事部署,外交部回应

澎湃新闻
2026-06-26 16:45:05
再进一球就创历史,34岁的内马尔终于踏上了他的最后一舞!

再进一球就创历史,34岁的内马尔终于踏上了他的最后一舞!

无法克制的烦恼
2026-06-25 17:09:32
浙江省纪委省监委:严齐斌,主动投案!

浙江省纪委省监委:严齐斌,主动投案!

浙江之声
2026-06-26 19:30:04
跟队:皇马保留了下赛季8000万欧回购尼科-帕斯的条款

跟队:皇马保留了下赛季8000万欧回购尼科-帕斯的条款

懂球帝
2026-06-26 21:24:19
长城H10实车到店,长近5米3+大六座方盒子,配冰彩沙+Hi4插混

长城H10实车到店,长近5米3+大六座方盒子,配冰彩沙+Hi4插混

燕赵女司机
2026-06-26 17:41:31
一句江湖话,撞上一堵时代墙!

一句江湖话,撞上一堵时代墙!

梳子姐
2026-06-26 18:38:36
全体集合,下周的预测出来了!A股普跌,我来说两句!

全体集合,下周的预测出来了!A股普跌,我来说两句!

一担金
2026-06-26 11:56:15
癌症并非突然出现,最新研究:患癌前3~6个月,或反复出现6大信号

癌症并非突然出现,最新研究:患癌前3~6个月,或反复出现6大信号

路医生健康科普
2026-06-26 17:05:03
一小时狂卖2272台!张雪机车820系列刚开卖 销售额轻松破亿

一小时狂卖2272台!张雪机车820系列刚开卖 销售额轻松破亿

快科技
2026-06-26 16:37:16
沉默48小时,国台办正式回应,岛内官员公开道歉,郑丽文回应统一

沉默48小时,国台办正式回应,岛内官员公开道歉,郑丽文回应统一

林子说事
2026-06-26 15:19:30
茶叶是糖尿病的“帮凶”?医生警告:不想高血糖,最好少喝5种茶

茶叶是糖尿病的“帮凶”?医生警告:不想高血糖,最好少喝5种茶

今日养生之道
2026-06-26 09:59:50
县中崛起!安徽屏蔽生名单流出:合肥有9人,超十所县中榜上有名

县中崛起!安徽屏蔽生名单流出:合肥有9人,超十所县中榜上有名

东东趣谈
2026-06-26 15:15:21
输球=踢阿根廷!西班牙VS乌拉圭已别无选择

输球=踢阿根廷!西班牙VS乌拉圭已别无选择

何老师呀
2026-06-26 18:40:04
大家提前做好准备,不出意外的话,7月开始中国或将出现4大变化

大家提前做好准备,不出意外的话,7月开始中国或将出现4大变化

混沌录
2026-06-25 22:08:23
俄罗斯前防长谢尔盖·伊万诺夫去世,普京向其亲属表示慰问

俄罗斯前防长谢尔盖·伊万诺夫去世,普京向其亲属表示慰问

环球网资讯
2026-06-26 20:54:19
男子因汗多味大被健身房退卡,还送他其他店月卡;男子:我是“严肃的健身爱好者”,出汗后都会清理;健身房:很浓很浓的味道

男子因汗多味大被健身房退卡,还送他其他店月卡;男子:我是“严肃的健身爱好者”,出汗后都会清理;健身房:很浓很浓的味道

洪观新闻
2026-06-25 16:14:01
2026-06-26 22:47:00
侃故事的阿庆
侃故事的阿庆
几分钟看完一部影视剧,诙谐幽默的娓娓道来
829文章数 8815关注度
往期回顾 全部

科技要闻

拿了500亿的梁文锋,只挖地基,不信销售

头条要闻

女生被男友劫持到天台坠亡 初次约会就被灌醉发生关系

头条要闻

女生被男友劫持到天台坠亡 初次约会就被灌醉发生关系

体育要闻

我在世界杯的每次奔跑,都为了证明你没看错

娱乐要闻

玥儿不回北京,马筱梅解释后妈身份

财经要闻

悬在科技头上的达摩克利斯之剑

汽车要闻

老板们的新座驾!65万元起,尊界V800/V680开启预订

态度原创

艺术
家居
手机
教育
军事航空

艺术要闻

莫兰迪不多见的简约风景画!

家居要闻

绿意盎然 自然之境

手机要闻

特朗普手机T1正式开放销售 499美元可直接购买但何时发货仍成谜

教育要闻

合肥师范学院今年计划招生3700人 多少分可以填报该校,来看官方解答!(编辑:檀檀)

军事要闻

伊朗:驶离指定航线船舶不享有安全保障

无障碍浏览 进入关怀版