兄弟们,Qwen3.5 系列我写过十几篇了,涉及简介、测评、本地部署、微调等等
![]()
本来以为可以收手了,没想到还有高手!
它就是全面超越 Gemini 3.1 Pro 的全模态大模型——Qwen3.5-Omni
简介
Qwen3.5-Omni 是 Qwen3-Omni 的全面进化版,真正把“看、听、说、想”放进同一套开源底座里的模型,在海量文本、视觉,以及超过 1 亿小时的音视频数据上进行原生多模态预训练,支持文本、图片、音频、音视 频全模态理解与生成。
几个关键数字:
256k 超长上下文 ,可支持超过 10 小时 的音频理解
支持超过 400 秒的 720P 音视频 对话
113 种语种和方言 语音识别, 36 种语种和方言 语音生成
音频/音视频的理解、推理和交互任务上取得了 215 项 子任务 / Benchmark 的 SOTA
根据官方披露的数据,Qwen3.5-Omni-Plus 在通用音频理解、推理、识别、翻译、对话能力上全面超越了 Gemini 3.1 Pro,在多语言语音识别/生成上也显著优于 Gemini 3.1 Pro,215 项音频/音视频子任务达到 SOTA 成绩。
![]()
这次 Qwen3.5-Omni 分 Plus / Flash / Light 三档:
版本
定位
Plus
旗舰,音频/音视频理解 215 项 SOTA,对标顶级商业模型
Flash
平衡,速度与能力折中
Light
轻量,适合资源受限或高并发场景
API 接入分两种:离线 API(文件级批量处理)和实时 API(流式语音对话、实时交互),根据场景选就行。
实测 1、音频理解
输入音频让其转录成字幕,实测有些错别字,这点是任何模型都不可避免的,比如这个老张/老章。
![]()
我之前用剪映做字幕,那是相当难受,先语音识别,再导出字幕文件用本地编辑器打开(剪映自带的操作太难受了),逐个修改错别字。
有了 Qwen 3.5-Omni-Plus 我感觉完全可以这样:先用它录音转录成字幕,然后把口播稿给它,修复其中所有错别字,识别错误之处,然后给出的就是完美字幕文件了。
2、超长音频转录
Qwen 3.5-Omni-Plus超过 10 小时的音频输入,这有点太诱人了,又臭又长的会议录音有救了。但是网页端处理不了,好在阿里云百炼平台提供了 API,调用方式与之前一致。
我拿最近特别火的张小珺 7 小时马拉松对话做测试
![]()
用我的 B 站音、视频下载 skills 将其下载,抽取 MP3 音频
![]()
我写了一个脚本,用 Qwen3.5-Omni-Plus 将其完整,一口气把这个将近 7 个小时的 MP3 转成文字稿
# 代码太长了,仅展示一下提示词
PROMPT = (
"请将这段音频完整逐字转录为文字稿。要求:\n"
"1. 保留所有对话内容,不要遗漏或概括\n"
"2. 标注不同说话人(如 说话人A、说话人B)\n"
"3. 保留口语化表达、语气词\n"
"4. 如果有明显的话题转换,用空行分隔"
)
结果如下,整整 14 万字,如果加上一些提示词会更好,比如人名:
![]()
3、联网搜索+工具调用+可变音色音频输出
看简介,Qwen 3.5-Omni-Plus 支持端到端语音控制,模型可以像人一样遵循指令来对声音的大小/语速/情绪等自由调节;还支持音色克隆,可以上传自己的声音,定制 AI 的专属音色。这个我很有兴趣,大家看我的视频配音,其实用的就是我的音色克隆,本地跑有点慢,不太稳定,后面决定试试 Omni-Plus。
但是,我更加感兴趣的是它的原生联网搜索支持与工具调用能力,加上输出音频的音色支持,完全可以复刻出一个大模型支持的智能音箱了(Qwen 3.5-Omni 有实时版本,也支持联网搜索),事实上,我正在做这个,把我那台要退休的 M1 Macmini 改造成支持语音唤醒的智能音响,大家静待佳音。
实际测试,它真的相当可以
![]()
大家感受一下
而且还可以切换音色
4、语义打断,视频通话
传统语音助手有个经典问题:你还没说完,它就抢话了;或者背景有点噪音,它以为你在叫它。Qwen3.5-Omni 支持语义打断,自动识别turn-talking意图,模型可以精准判断什么时候该接话,什么只是用户无意识的附和、停顿或背景声音。
![]()
也支持视频通话,我的 macmini 没有摄像头,所以没有测试
![]()
5、视频理解
整个活儿,鸡汤来了的视频,它是真实看懂了的,几个问题它都能精准找到答案
![]()
我确认了一下,看左下角时间轴,分秒不差
![]()
我还给了它我最近的一个视频让其总结
![]()
它对关键帧画面的理解很不错,而且对整理风格和内容也有总结:
![]()
6、图像理解
这个题目之前我测试过几个号称支持图像输入的旗舰大模型,都失败了。
Qwen3.5-Omni-Plus 表现的确实像真实看过的样子
![]()
意外发现,它自带 OCR 能力也相当可以,比如我常需要的 latex 公式识别
![]()
它可以自动识别,并渲染
![]()
然后它的 OCR 能力不输专业 OCR 大模型,比如我这张测试专用图片
![]()
核心内容完成 get 到了,右下角那个表格也准确识别
![]()
7、图片生成
这没什么好说的,应该是全模态大模型的基本功了,我试了一个之前 Gemini 中用过的提示词,Qwen3.5-Omni-Plus 表现也非常不错,细节很多,人物也很自然。
生图之后还支持局部修改,这种精准 PS 级别的操作,确实可以
![]()
8、文档解析
提示词:把这个 PDF 完整解析成结构清晰的 markdown 文档,翻译成中文,doublecheck 翻译质量,不要总结,不要遗漏
意外的是,它出奇的快,几乎是我按下 Enter 之后立即便开始输出了
![]()
对比了原文,质量也没问题
![]()
如何体验 Qwen3.5-Omni
官方提供两个正式渠道:
阿里云百炼 :API 调用,离线 API 和实时 API 分别适合批量处理和流式交互场景
● 非实时:https://help.aliyun.com/zh/model-studio/qwen-omni
● 实时:https://help.aliyun.com/zh/model-studio/realtime
Qwen Chat :网页/App 端直接对话,上手最快 https://chat.qwen.ai/
Qwen3.5-Omni 给我的整体感觉是,野心很大,完成度也不低。它真正有意思的地方,在于把文本、图像、音频、视频、实时语音回复放进了同一个统一框架里,把多模态从"能看图"推进到了"能听音频、看视频、还能直接说话",解决统一底座问题,工程上更省拼装成本。
大模型世界很缺"图像理解+音视频理解 + 语音输出"一体化底座,很多团队只能自己拼ASR、VLM、TTS、Agent;人机交互也正在从键盘窗口走向摄像头、麦克风、耳机、车机、眼镜,一个统一模型把交互层、理解层、生成层接起来,产品形态会快很多。
一旦跑顺,能做的事情太多了:私有化会议助手、本地视频问答、播客整理、素材打标、语音Agent、OCR + 多模态知识库……这类能力对播客摘要、音频检索、会议记录增强都有直接价值,很多人现在都盯着视频理解和实时助手,我反而觉得 audio caption这条线后面很可能会跑出不少特别实用的场景。
我判断,未来一两年 Omni 模型会成为很多设备助手和企业助手的默认底座,路线也很明确,后面会继续往低延迟、更轻量推进。真正爆发的场景大概率在车载、教育、客服、内容生产、个人知识管理这几类持续听、持续看、持续说的产品里。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.