网易首页 > 网易号 > 正文 申请入驻

Qwen3.5 还有高手,全模态大模型来了,实测很强

0
分享至

兄弟们,Qwen3.5 系列我写过十几篇了,涉及简介、测评、本地部署、微调等等


本来以为可以收手了,没想到还有高手!

它就是全面超越 Gemini 3.1 Pro 的全模态大模型——Qwen3.5-Omni

简介

Qwen3.5-Omni 是 Qwen3-Omni 的全面进化版,真正把“看、听、说、想”放进同一套开源底座里的模型,在海量文本、视觉,以及超过 1 亿小时的音视频数据上进行原生多模态预训练,支持文本、图片、音频、音视 频全模态理解与生成。

几个关键数字:

  • 256k 超长上下文 ,可支持超过 10 小时 的音频理解

  • 支持超过 400 秒的 720P 音视频 对话

  • 113 种语种和方言 语音识别, 36 种语种和方言 语音生成

  • 音频/音视频的理解、推理和交互任务上取得了 215 项 子任务 / Benchmark 的 SOTA

根据官方披露的数据,Qwen3.5-Omni-Plus 在通用音频理解、推理、识别、翻译、对话能力上全面超越了 Gemini 3.1 Pro,在多语言语音识别/生成上也显著优于 Gemini 3.1 Pro,215 项音频/音视频子任务达到 SOTA 成绩。


这次 Qwen3.5-Omni 分 Plus / Flash / Light 三档:

版本

定位

Plus

旗舰,音频/音视频理解 215 项 SOTA,对标顶级商业模型

Flash

平衡,速度与能力折中

Light

轻量,适合资源受限或高并发场景

API 接入分两种:离线 API(文件级批量处理)和实时 API(流式语音对话、实时交互),根据场景选就行。

实测 1、音频理解

输入音频让其转录成字幕,实测有些错别字,这点是任何模型都不可避免的,比如这个老张/老章。


我之前用剪映做字幕,那是相当难受,先语音识别,再导出字幕文件用本地编辑器打开(剪映自带的操作太难受了),逐个修改错别字。

有了 Qwen 3.5-Omni-Plus 我感觉完全可以这样:先用它录音转录成字幕,然后把口播稿给它,修复其中所有错别字,识别错误之处,然后给出的就是完美字幕文件了。

2、超长音频转录

Qwen 3.5-Omni-Plus超过 10 小时的音频输入,这有点太诱人了,又臭又长的会议录音有救了。但是网页端处理不了,好在阿里云百炼平台提供了 API,调用方式与之前一致。

我拿最近特别火的张小珺 7 小时马拉松对话做测试


用我的 B 站音、视频下载 skills 将其下载,抽取 MP3 音频


我写了一个脚本,用 Qwen3.5-Omni-Plus 将其完整,一口气把这个将近 7 个小时的 MP3 转成文字稿


# 代码太长了,仅展示一下提示词

PROMPT = (
"请将这段音频完整逐字转录为文字稿。要求:\n"
"1. 保留所有对话内容,不要遗漏或概括\n"
"2. 标注不同说话人(如 说话人A、说话人B)\n"
"3. 保留口语化表达、语气词\n"
"4. 如果有明显的话题转换,用空行分隔"
)

结果如下,整整 14 万字,如果加上一些提示词会更好,比如人名:


3、联网搜索+工具调用+可变音色音频输出

看简介,Qwen 3.5-Omni-Plus 支持端到端语音控制,模型可以像人一样遵循指令来对声音的大小/语速/情绪等自由调节;还支持音色克隆,可以上传自己的声音,定制 AI 的专属音色。这个我很有兴趣,大家看我的视频配音,其实用的就是我的音色克隆,本地跑有点慢,不太稳定,后面决定试试 Omni-Plus。

但是,我更加感兴趣的是它的原生联网搜索支持与工具调用能力,加上输出音频的音色支持,完全可以复刻出一个大模型支持的智能音箱了(Qwen 3.5-Omni 有实时版本,也支持联网搜索),事实上,我正在做这个,把我那台要退休的 M1 Macmini 改造成支持语音唤醒的智能音响,大家静待佳音。

实际测试,它真的相当可以


大家感受一下

而且还可以切换音色

4、语义打断,视频通话

传统语音助手有个经典问题:你还没说完,它就抢话了;或者背景有点噪音,它以为你在叫它。Qwen3.5-Omni 支持语义打断,自动识别turn-talking意图,模型可以精准判断什么时候该接话,什么只是用户无意识的附和、停顿或背景声音。


也支持视频通话,我的 macmini 没有摄像头,所以没有测试


5、视频理解

整个活儿,鸡汤来了的视频,它是真实看懂了的,几个问题它都能精准找到答案


我确认了一下,看左下角时间轴,分秒不差


我还给了它我最近的一个视频让其总结


它对关键帧画面的理解很不错,而且对整理风格和内容也有总结:


6、图像理解

这个题目之前我测试过几个号称支持图像输入的旗舰大模型,都失败了。

Qwen3.5-Omni-Plus 表现的确实像真实看过的样子


意外发现,它自带 OCR 能力也相当可以,比如我常需要的 latex 公式识别


它可以自动识别,并渲染


然后它的 OCR 能力不输专业 OCR 大模型,比如我这张测试专用图片


核心内容完成 get 到了,右下角那个表格也准确识别


7、图片生成

这没什么好说的,应该是全模态大模型的基本功了,我试了一个之前 Gemini 中用过的提示词,Qwen3.5-Omni-Plus 表现也非常不错,细节很多,人物也很自然。

生图之后还支持局部修改,这种精准 PS 级别的操作,确实可以


8、文档解析

提示词:把这个 PDF 完整解析成结构清晰的 markdown 文档,翻译成中文,doublecheck 翻译质量,不要总结,不要遗漏

意外的是,它出奇的快,几乎是我按下 Enter 之后立即便开始输出了


对比了原文,质量也没问题


如何体验 Qwen3.5-Omni

官方提供两个正式渠道:

  1. 阿里云百炼 :API 调用,离线 API 和实时 API 分别适合批量处理和流式交互场景

    ● 非实时:https://help.aliyun.com/zh/model-studio/qwen-omni

    ● 实时:https://help.aliyun.com/zh/model-studio/realtime

  2. Qwen Chat :网页/App 端直接对话,上手最快 https://chat.qwen.ai/

总结

Qwen3.5-Omni 给我的整体感觉是,野心很大,完成度也不低。它真正有意思的地方,在于把文本、图像、音频、视频、实时语音回复放进了同一个统一框架里,把多模态从"能看图"推进到了"能听音频、看视频、还能直接说话",解决统一底座问题,工程上更省拼装成本。

大模型世界很缺"图像理解+音视频理解 + 语音输出"一体化底座,很多团队只能自己拼ASR、VLM、TTS、Agent;人机交互也正在从键盘窗口走向摄像头、麦克风、耳机、车机、眼镜,一个统一模型把交互层、理解层、生成层接起来,产品形态会快很多。

一旦跑顺,能做的事情太多了:私有化会议助手、本地视频问答、播客整理、素材打标、语音Agent、OCR + 多模态知识库……这类能力对播客摘要、音频检索、会议记录增强都有直接价值,很多人现在都盯着视频理解和实时助手,我反而觉得 audio caption这条线后面很可能会跑出不少特别实用的场景。

我判断,未来一两年 Omni 模型会成为很多设备助手和企业助手的默认底座,路线也很明确,后面会继续往低延迟、更轻量推进。真正爆发的场景大概率在车载、教育、客服、内容生产、个人知识管理这几类持续听、持续看、持续说的产品里。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
火箭惨败出局!乌度卡场下频频摇头 范乔丹气笑了 三分28中5铁哭

火箭惨败出局!乌度卡场下频频摇头 范乔丹气笑了 三分28中5铁哭

颜小白的篮球梦
2026-05-02 12:17:12
云台山一游客不慎将大疆运动相机掉入水中,工作人员仅用10秒打捞上岸并拒绝500元感谢费:服务不分大小

云台山一游客不慎将大疆运动相机掉入水中,工作人员仅用10秒打捞上岸并拒绝500元感谢费:服务不分大小

大象新闻
2026-05-02 11:46:04
雷迪克:无论怎么争论,詹姆斯都拥有NBA历史最伟大的职业生涯

雷迪克:无论怎么争论,詹姆斯都拥有NBA历史最伟大的职业生涯

懂球帝
2026-05-02 13:14:49
宋轶整容失败认不出!脸变宽嘴变大颧骨变高,猛一看还以为是易梦玲

宋轶整容失败认不出!脸变宽嘴变大颧骨变高,猛一看还以为是易梦玲

八卦王者
2026-05-02 10:59:45
吴宜泽艾伦打破单局时长历史纪录,老球王怒了:这是斯诺克的耻辱

吴宜泽艾伦打破单局时长历史纪录,老球王怒了:这是斯诺克的耻辱

杨华评论
2026-05-02 02:40:37
拒黑八!活塞24分逆转魔术3-3拖进抢七 坎宁安32+10创纪录

拒黑八!活塞24分逆转魔术3-3拖进抢七 坎宁安32+10创纪录

醉卧浮生
2026-05-02 09:38:56
中国或将迎来空前死亡高峰?专家拆解核心诱因!

中国或将迎来空前死亡高峰?专家拆解核心诱因!

王姐懒人家常菜
2026-05-01 15:07:06
全球卖疯的无人机,北京为何禁售?

全球卖疯的无人机,北京为何禁售?

碳基打工人
2026-05-01 02:41:19
参加“朝鲜式社会主义理论与实践高级讲习班”,能学到啥东西?

参加“朝鲜式社会主义理论与实践高级讲习班”,能学到啥东西?

深度报
2026-05-01 22:52:33
惨无人道!以军用军犬强奸巴勒斯坦囚犯,全程录像,受害者:想死

惨无人道!以军用军犬强奸巴勒斯坦囚犯,全程录像,受害者:想死

史行途
2026-05-01 12:29:39
黑八!黑八没了!末节8分!史上最荒唐季后赛

黑八!黑八没了!末节8分!史上最荒唐季后赛

篮球实战宝典
2026-05-02 10:04:33
44岁前TVB花旦失落金像奖不气馁,自爆广州祖业已被亲戚分光

44岁前TVB花旦失落金像奖不气馁,自爆广州祖业已被亲戚分光

TVB剧评社
2026-05-01 21:24:01
巴勒斯坦公布选举结果,哈马斯被排除在外,加沙18年统治正式落幕

巴勒斯坦公布选举结果,哈马斯被排除在外,加沙18年统治正式落幕

流史岁月
2026-05-01 12:00:22
日本著名马桶公司TOTO杀入芯片行业大获成功

日本著名马桶公司TOTO杀入芯片行业大获成功

爆角追踪
2026-05-01 19:37:18
上海申花遭暴击!盖伊左脚跟腱断裂,将接受手术,或长期缺席

上海申花遭暴击!盖伊左脚跟腱断裂,将接受手术,或长期缺席

奥拜尔
2026-05-02 10:36:52
五一假期第1天,社会上就出现了4个“反常现象”,风向真的变了

五一假期第1天,社会上就出现了4个“反常现象”,风向真的变了

青杉依旧啊啊
2026-05-02 02:01:50
3亿美元!央视不买世界杯的转播权,没想到球迷一边倒的支持

3亿美元!央视不买世界杯的转播权,没想到球迷一边倒的支持

魔都姐姐杂谈
2026-05-02 08:44:52
又一反华势力曝光,试图“给钱”让中国青年“躺平”

又一反华势力曝光,试图“给钱”让中国青年“躺平”

深度报
2026-05-01 22:43:31
山西猥亵当事人法官已被免职

山西猥亵当事人法官已被免职

界面新闻
2026-05-02 10:23:49
吴亦凡二审维持13年!继续在里面踩缝纫机当班长,网友神评笑死个人

吴亦凡二审维持13年!继续在里面踩缝纫机当班长,网友神评笑死个人

八卦王者
2026-05-01 14:05:38
2026-05-02 14:04:49
Ai学习的老章 incentive-icons
Ai学习的老章
Ai学习的老章
3364文章数 11144关注度
往期回顾 全部

科技要闻

AI热潮耗尽库存,Mac Mini起售调高200美元

头条要闻

男子被诊断为疑似肝癌 辗转其他医院检查均无癌症依据

头条要闻

男子被诊断为疑似肝癌 辗转其他医院检查均无癌症依据

体育要闻

休赛期总冠军,轮到休斯顿火箭

娱乐要闻

白百何罕晒大儿子 18岁元宝越来越帅

财经要闻

雷军很努力 小米还是跌破了30港元大关

汽车要闻

新纪录!零跑汽车4月交付达71387台

态度原创

教育
艺术
旅游
公开课
军事航空

教育要闻

2026高考机械电子专业前景如何?学长这样说!

艺术要闻

色块与笔触的激情之旅!

旅游要闻

“五一”美团小团游订单增27%,新疆、云南、北京居热度Top3

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:对伊战事结束 无限期延长停火

无障碍浏览 进入关怀版