网易首页 > 网易号 > 正文 申请入驻

阿里最强全模态模型登场!实测看懂50分钟《老友记》,全球评测215项SOTA

0
分享至


智东西
作者 陈骏达
编辑 李水青

智东西3月31日报道,昨天,阿里推出了最新一代全模态大模型Qwen3.5-Omni,这是一款能原生理解文本、图片、音频及音视频输入的模型,并能以文本和音频两种模态输出。

阿里上一次更新Omni系列模型还是在去年9月。昨天上线的Qwen3.5-Omni系列包含Plus、Flash、Light三种尺寸,支持256k长上下文超过10小时的音频输入,以及超过400秒的720P(1 FPS)音视频输入

千问团队在技术博客中称,在215项音频/音视频的理解、推理和交互任务上,Qwen3.5-Omni-Plus取得了SOTA成绩。这一模型的通用音频理解、推理、识别、翻译、对话超越了Gemini-3.1 Pro,音视频理解能力总体达到Gemini-3.1 Pro水平。同时,视觉和文本能力与同尺寸Qwen3.5模型持平


这些能力解锁了不少有趣的用例,比如,你可以在realtime模式下拿着手机、打开摄像头,对着草图向Qwen3.5-Omni分享你的开发思路,而它能帮你生成对应的代码,实现“用嘴编程”,快速输出原型设计。


此外,Qwen3.5-Omni可以理解39种国内方言和74种语言,并合成7种国内方言和29种语言的音频,在多语言支持上较上一代模型Qwen3-Omni有了明显扩展。


我们试着用闽南话与Qwen3.5-Omni聊了会儿天,它对闽南语的理解准确,生成的语音也较为地道,不过仍然夹杂几个普通话词汇。从发送语音到返回音频,Qwen3.5-Omni大概用了1-2秒,还调用了网络搜索提供了正确的当日天气信息。

目前,Qwen3.5-Omni系列模型可在阿里云百炼上通过API调用的方式使用,并支持offline和realtime两种调用模式。此外,用户也可在chat.qwen.ai、Hugging Face和魔搭上体验这一模型。

这一模型的API调用价格采取阶梯计费模式,在常用的输入≤128k场景下,其音频输入价格为4.96元/百万tokens,文本/图片/视频输入价格为0.8元/百万tokens。模型的输出价格为61.322元/百万tokens(文本+音频),仅输出文本时的价格为9.6元/百万tokens。


模型发布后,智东西第一时间对Qwen3.5-Omni-Plus进行了体验。这一模型在长视频理解、多模态指令遵循方面展现了不错的处理能力,同时其低延迟的实时交互与新增的语音控制功能,提升了交互体验。

Qwen3.5-Omni-Plus-Realtime:

https://help.aliyun.com/zh/model-studio/realtime

Qwen3.5-Omni-Plus:

https://bailian.console.aliyun.com/cn-beijing?tab=model#/model-market/detail/qwen3.5-omni-plus

魔搭离线Demo:

https://modelscope.cn/studios/Qwen/Qwen3.5-Omni-Offline-Demo

魔搭实时Demo:

https://modelscope.cn/studios/Qwen/Qwen3.5-Omni-Online-Demo

一、1分钟看完50分钟视频,还能实现“用嘴编程”

在技术博客中,千问团队称,Qwen3.5-Omni-Plus的一大能力是音视频描述(Caption)。结合提示词要求,Qwen3.5-Omni-Plus可以生成剧本级的细粒度描述,并进行自动切片、时间戳打标和人物与音频关系的详细介绍。

实测中,我们向Qwen3.5-Omni-Plus上传了一集50分钟左右的美剧《老友记》,并让它按照系统提示词的要求,输出画面内容的准确描述。


Qwen3.5-Omni-Plus处理这集内容大概用了1分钟,速度还是较为理想的。它的描述完整覆盖了视频时间线,无跳跃或遗漏,符合“按时间描述”的核心要求。


具体内容上,它的描述抓住了核心剧情转折点,能识别重要人物关系和情绪变化,描述不是机械罗列,而是带有轻微叙事感,效果比不少网盘中自动生成的AI视频摘要可读性强很多。


官方案例中,Qwen3.5-Omni-Plus收到了一段《舌尖上的中国》的切片,并对其进行音视频描述。可以看到,Qwen3.5-Omni-Plus能按照画面叙事和内容自动切分合适的时间节点,对内容的描述既包含了画面,也包含了配音,结构清晰、细节丰富。

结合更为复杂的提示词,Qwen3.5-Omni-Plus还可用于审核类任务,比如检测游戏直播是否包含血腥暴力、危险行为、言语与欺凌和其他不当主题。

千问团队还观察到了全模态模型涌现出可以根据音视频指令直接进行编程的能力,他们称之为“Audio-Visual Vibe Coding”。

实测中,我们上传了一段录屏,要求千问根据其中的画面和语音指令快速开发一个社交媒体的原型。拿到视频后,Qwen3.5-Omni-Plus很快就开始编程,视频内容并未带来明显可感知的延迟。


其生成的网页效果如下,基本符合小红书网页版的布局特点,各个界面的跳转逻辑正确,手动插入图片后,应该能达到80%的还原度。


官方Demo中,千问团队还展示了Qwen3.5-Omni-Plus根据草图生成网页的能力。用户只需在纸上画出简单的界面线框图,拍照上传并口述功能需求,模型便能理解设计意图,直接输出可运行的前端代码。

二、实时交互能力加强,支持随意打断、语音克隆

除了基座能力的提升,Qwen3.5-Omni系列模型的交互能力也得到加强。

Qwen3.5-Omni如今支持了语义打断,也就是说用户可以在模型“说话”的时候随意插话,补充信息,提供新指令等等。

这一交互体验基于Qwen3.5-Omni自动识别turn-talking意图能力,可避免附和和无意义背景音打断,已在API已原生支持。

在官方Demo中,可以看到Qwen3.5-Omni不会被“嗯嗯”这些附和性的内容打断,而当用户确实提出问题时,模型可以及时停止此前的回复并生成新内容。


Qwen3.5-Omni原生支持了网络搜索和复杂FunctionCall能力,模型可以自主判断是否需要使用网络搜索来回应用户的即时问题。我们在文章伊始展示的方言对话案例中,模型能搜索实时天气信息,靠的就是这一能力。

端到端的语音控制和对话能力也已经整合至Qwen3.5-Omni中。模型可以像人一样遵循指令来对声音的大小、语速、情绪进行自由控制。

Qwen3.5-Omni支持音色克隆,用户可以上传音色来定制音色。官方Demo中,Qwen3.5-Omni能克隆说话者的音色,然后将其转换为不同的语言,实现交替传译。


三、延用Thinker-Talker分工架构,采用混合注意力机制

Qwen3.5-Omni系列模型是如何实现上述能力的?

Qwen3.5-Omni延续了上一代的Thinker-Talker分工架构——Thinker负责理解,Talker负责表达。但这一次,两者都改为Hybrid-Attention MoE(混合注意力MoE),提升了模型效率和性能。


Thinker负责接收视觉和音频信号,通过TMRoPE编码位置信息,输出文本。Hybrid-Attention让它在处理10小时长音频、1小时视频时,依然能快速抓住重点。

Talker则接收Thinker的多模态输出,进行contextual语音生成。还使用RVQ编码替代繁重的DiT运算。

针对流式语音交互中由于文本与语音Token编码效率差异导致的语音不稳定性,如漏读、误读或数字发音模糊等问题,千问团队使用了ARIA(自适应速率交错对齐,Adaptive Rate Interleave Alignment)技术、动态对齐文本与语音单元,可在保证实时性的前提下,提升语音合成的自然度与鲁棒性。

Qwen3.5-Omni与Qwen3-Omni的详细对比如下:


结语:全模态能力或将解锁更多AI应用场景

模型的全模态化已经成为一大趋势。从千问的Omni系列模型再到谷歌的Gemini,未来的模型将不再仅仅是文本、图像或音频能力的简单叠加,而是具备统一的理解与生成架构,能够像人类一样自然地处理流式音视频输入。

随着长上下文处理、方言和多语言适配及低延迟响应能力的不断扩展,大模型的全模态能力有望在内容审核、智能客服、实时翻译发挥更大作用,提供更为自然的交互体验。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
老照片(3654): 90年代,年轻时的陈丽华与朋友留影时已经初显富豪之态。

老照片(3654): 90年代,年轻时的陈丽华与朋友留影时已经初显富豪之态。

可乐谈情感
2026-04-07 21:02:57
特朗普设下“最后期限”之际,美国“末日飞机”现身,可抵御核爆炸,紧急状况下充当“空中五角大楼”

特朗普设下“最后期限”之际,美国“末日飞机”现身,可抵御核爆炸,紧急状况下充当“空中五角大楼”

极目新闻
2026-04-07 16:51:27
唏嘘!23岁郑钦文今年第3次退赛 红土首秀推迟 世界排名跌第37位

唏嘘!23岁郑钦文今年第3次退赛 红土首秀推迟 世界排名跌第37位

我爱英超
2026-04-08 06:52:33
1-0击败东南亚劲旅,中国女足3连胜进亚洲杯八强,肖亚飞飙远程炮

1-0击败东南亚劲旅,中国女足3连胜进亚洲杯八强,肖亚飞飙远程炮

侧身凌空斩
2026-04-07 22:55:35
门将的GOAT!40岁传奇9神扑让皇马绝望 周薪40万镑拜仁仍求着续约

门将的GOAT!40岁传奇9神扑让皇马绝望 周薪40万镑拜仁仍求着续约

我爱英超
2026-04-08 06:31:07
安徽女童后续:父亲回应与邻居没仇,知情人曝细节,难怪被扔手机

安徽女童后续:父亲回应与邻居没仇,知情人曝细节,难怪被扔手机

阿库财经
2026-04-08 00:22:26
卡斯尔19+11+13马刺战胜76人收获60胜,文班亚马17分伤退

卡斯尔19+11+13马刺战胜76人收获60胜,文班亚马17分伤退

湖人崛起
2026-04-07 10:32:12
85岁陈丽华病逝,曾为迟重瑞买10克拉钻戒,生前留下500多亿财产

85岁陈丽华病逝,曾为迟重瑞买10克拉钻戒,生前留下500多亿财产

阿纂看事
2026-04-07 14:52:50
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
户口本或将退出历史舞台?5月10日全国通办,这些事提前了解

户口本或将退出历史舞台?5月10日全国通办,这些事提前了解

复转这些年
2026-04-06 22:44:37
伊朗最高领袖发声

伊朗最高领袖发声

第一财经资讯
2026-04-07 09:07:21
官宣!就在今天凌晨,郑钦文退赛,原因曝光,还传来了一个坏消息

官宣!就在今天凌晨,郑钦文退赛,原因曝光,还传来了一个坏消息

侃球熊弟
2026-04-08 06:59:11
NCAA决赛:密歇根灭康大时隔37年第2冠 康大7进决赛首次丢冠

NCAA决赛:密歇根灭康大时隔37年第2冠 康大7进决赛首次丢冠

醉卧浮生
2026-04-07 11:20:57
机关事业单位丧葬抚恤金:机关40个月、事业20个月,细节要看清

机关事业单位丧葬抚恤金:机关40个月、事业20个月,细节要看清

普陀动物世界
2026-04-08 03:02:21
标价近20万的红宝石戒指,上海老夫妻花了不到3万买下,却被店主尾随跟踪并告上法庭!法院判了→

标价近20万的红宝石戒指,上海老夫妻花了不到3万买下,却被店主尾随跟踪并告上法庭!法院判了→

纵相新闻
2026-04-07 08:40:07
林小异已任常州市委副书记

林小异已任常州市委副书记

上观新闻
2026-04-07 20:56:18
刚从蒙古国回来,说点不中听的:蒙古国真实面目,可能让你很意外

刚从蒙古国回来,说点不中听的:蒙古国真实面目,可能让你很意外

复转这些年
2026-04-06 22:24:11
香蕉被点名!医生提醒:高血糖患者常吃香蕉,很快或迎来这些后果

香蕉被点名!医生提醒:高血糖患者常吃香蕉,很快或迎来这些后果

白话电影院
2026-04-07 20:07:56
10年内入狱2次,爆火后“包一晚”40万,如今的她过得怎么样?

10年内入狱2次,爆火后“包一晚”40万,如今的她过得怎么样?

宝哥精彩赛事
2026-04-07 15:43:13
第98波打击!美战舰遭到袭击,美军官被一锅端,5000美军连夜撤退

第98波打击!美战舰遭到袭击,美军官被一锅端,5000美军连夜撤退

纪中百大事
2026-04-07 15:01:07
2026-04-08 07:08:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11523文章数 117024关注度
往期回顾 全部

科技要闻

满嘴谎言!OpenAI奥特曼黑料大起底

头条要闻

特朗普称美方正就伊朗战争进行“激烈谈判”

头条要闻

特朗普称美方正就伊朗战争进行“激烈谈判”

体育要闻

霸气!赵心童:斯诺克的未来定属于中国 20年后50%选手都是中国人

娱乐要闻

女首富陈丽华离世 被曝生前已分好遗产

财经要闻

10万亿财政转移支付,被谁拿走了?

汽车要闻

不止是大 极狐首款MPV问道V9静态体验

态度原创

旅游
数码
手机
艺术
家居

旅游要闻

废弃“老北京景观”能否随意搬回家

数码要闻

MacBook Neo爆火背后,苹果芯片库存要见底了?

手机要闻

荣耀WIN2系列曝光:10000mAh电池+2nm芯片,续航性能双巅峰!

艺术要闻

李苦禅这简简几笔,能让你欢快一整天

家居要闻

雅致惬意 感知生活之美

无障碍浏览 进入关怀版