网易首页 > 网易号 > 正文 申请入驻

AI 从来没有真正「听过」你说话|Qwen3.5-Omni 评测

0
分享至

阿里千问团队发布了 Qwen3.5-Omni 全模态模型。

我认为从 AI 产品设计的角度,它确实值得更高的讨论热度。

近几个月,大模型领域的注意力大多集中在 Vibe Coding 与 Agent 上。但全模态模型线也不断加速,3 月以来,小米发 MiMo-V2-Omni,美团发 LongCat-Next。

而作为国内 Omni 模型的主要开源贡献者,千问也在前两天发布了最新的 Qwen3.5-Omni。



聊全模态,先从 AI 语音通话聊起

不知道你是否还记得 ChatGPT 高级语音模式?

彼时,GPT 凭借随时可打断,真人音效的优势——挂着语音,开车聊、走路问,成了很多人日常使用 AI 的自然方式。(国内豆包也把语音通话做成了核心体验)


但体验不是一开始就如此自然。OpenAI 在发布 GPT-4o 时的原话是:


  • 在 4o 之前,语音模式需要通过「你说话 → 语音识别转成文字 → 模型理解文字并生成回复 → 文字转语音念给你听」的旧管线
  • 作为主要智能源的 AI,在旧管线中,并不能直接观察语气、说话者人数,也不能输出情感。


这也是大多数 AI 产品的语音交互的旧方案:


不难发现,管线的每一层都可能损耗信息:


  • 语音识别(ASR):语气、情绪、停顿节奏、声调变化、环境音、说话人特征全部丢失。你阴阳怪气说了一句话,转成文字后意思变得很平和,模型完全感知不到你的语气
  • 级联错误:ASR 转录错了,后面所有环节跟着错。一个识别失误逐级放大,没有纠错机会
  • 语音合成(TTS):模型只能输出文字,不能输出语气。你所听到的语调,只是 TTS 从字面推断出来的语气

一个测试,用不同的语气、节奏,说「哎,好的,没问题」,拿同系列的 Qwen3.5 的非全模态模型与 Omni-Plus 全模态模型做直观的对比:



前者无法辨别语气,后者则能捕捉到说话人的心情与含义。

非全模态方案,声音抵达模型智能前,就损失了大量信息,这就是「模型从来没有听过你说话」。

全模态加速人 AI 交互的效率

语音通话的信息损耗,只是人 AI 交互的一种问题。

现实任务中,AI 还要处理图像、视频、音频的理解 or 输出。

每次中间环节转换,不仅丢失信息,还会大大降低人机交互的效率与准确性。

(比如部分模型依赖 OCR 识别照片内容后,才能交给 AI 推理,但无法理解照片内的文字笔锋、颜色深浅)

全模态模型要做的,是让模型直接听音频、看图像、看视频,并通过端到端输出语音、图像等模态,减少中间转换的损耗。(多模态在行业语境下,更侧重多模态理解,尤其指文本、图像理解)

例如,在 Qwen3.5-Omni 中,任何用户都可以对着 Excel 数据表,口述数据分析要求:

视频演示:对着数据表口述数据分析要求

AI 自动理解整个视频内的要求,进行指标计算:


并将结果保存到了新的 Sheet 中。


模型能端到端处理的模态越完善,AI 就越理解人的需求。人与 AI 的交互方式也越接近「让真实人类做事」的方式。

Qwen3.5-Omni,你所需知道的一切

话说回来,还是先速通 Qwen3.5-Omni 的发布信息。

Qwen3.5-Omni 是千问最新一代的全模态大模型,支持以下模态的端到端处理:


  • 输入:文本、图片、音频、视频理解(视觉能力与 Qwen3.5-Plus 对齐)
  • 输出:文本、音频

在模型规格方面:


  • 三种尺寸:Plus、Flash、Light(线上暂无 light 版)
  • API 版本:分为 Offline、Realtime 两个版本。离线版支持长音视频文件处理,实时版可进行实时音视频通话
  • 架构:Thinker-Talker 架构,均采用 Hybrid-Attention MoE
  • 上下文:支持 256k 长上下文

核心能力提升明显,主打:


  • 长音视频处理:目前在线 API 支持 3 小时音频、1 小时视频处理
  • 语音输出:支持音色克隆,端到端情绪、音量、语速控制
  • 多语种:113 种语言和方言语音识别,36 种语音生成
  • 语义打断:区分「真实插话」与「附和 / 背景噪音」,不会被"嗯"一声或咳嗽误触发
  • 实时工具调用:实时通话时,支持联网搜索 + Function Call,模型自判断是否触发工具

注:语种、部分参数 Plus 与 Flash 有一定差异

官方也给出了新模型与 Gemini 3.1 Pro 等海外顶级模型在音视频、图像理解、语音生成的榜单情况,得分靠前。

详情见

全模态,为什么值得更高的讨论度?

Omni 类模型,虽然还没大规模应用于 AI 产品,但真的挺好玩的。

我找了些使用案例与你分享,在这个过程中,可以多多关注对 AI 用法、产品设计的一些启发。

音视频实时通话:AI 产品的 Vibe 交互方式

AI时代的产品现在被分为 GUI 和 LUI 的两种模式。

GUI 依赖人学会使用按钮,框选与点击。


LUI 需要人用文本,相对准确地描述需求,等待 AI 回应。


那如果让 Omni 模型全程监控人在 AI 产品内的光标活动、说话声音呢?(当然简单一点,也可以是摄像头同时对着人和电脑屏幕)

⬇️

是不是就能更进一步降低 AI 产品的使用门槛,让更多不熟悉电脑操作、未经精准训练语言表达的用户,体验到 AI 时代的 Vibe 操作便利?

比如,随便写写画画、指指点点, Qwen3.5-omni-plus 更进一步拉低 AI Coding 的难度(左边是对着线框光标指点,右边是最终 Omni 的 Coding 效果。为了测试方便,采用了录屏;实际应用可以直接结合纸笔、手指指点来录像)




甚至扩大到更广泛的非技术 APP:比如前文的 Vibe Excel 操作,如果 Excel or 系统通用 Agent 支持观察应用内活动,,自然就能更加流畅(无脑)地调用 Agent 智能。


长音频处理:LifeLog 精细化识别(情绪、场景音)

然后是个人全天录音的识别,提取声音内容、建立个人日志。

前段时间买了大疆 mic3 ,打算用来记录个人的全天录音。早前设计了两套转录分析方案:


  • 一套偏管线:Qwen3-ASR-Flash 转写 + pyannote 说话人分离 + 后置 LLM 分析
  • 一套依赖海外全模态模型:Gemini 3 Flash 直接从录音原件总结当天日志

前者优势在于能够建立当天的文字记录,但无法识别声音情绪、背景信息,只能从语义进行推理。

后者能自然区分说话人,结合人声音调、环境背景推理更多 lifelog 信息。

恰好 Qwen3.5-Omni-Plus 模型发布,支持长音频识别,可分析音频内的声音细节与效果。

我给了一段 50 分钟的音频,是前两天在 GDPS 的 OPC 论坛上的实录:


Omni 模型根据录音中的主持人串词与嘉宾的发言,在 5 秒内就流式返回了当时的分享记录 ⬇️


特别的,还成功识别了过程中的人物语速、语调特征,更大程度地保留了 lifelog 信息。(实测对比。该任务表现中 Qwen 不弱于 Gemini )

如果特化要求,细化语调情绪分析,甚至能做到「识别吐字、重音、音调走向」这种程度:


若要求 AI 进一步分析环境背景音:比如在这样 GDPS 这样的场子,就能依靠全模态模型,得到以下的结果。


PS:成功推测了出整体所处的环境空间特征。

多语种端到端语音:外语对练(多音色)

这个能力真的很好用。

Qwen3.5-Omni 既支持实时语音通话,又支持大量国外语言,还能端到端音频输出。

你可以在 Qwen Chat 的语音通话中进行体验:


这是我跟Qwen 的语音过程,测试了她在中英日德等多语种会话下的表现,语音切换自如,音色自然真实。

而且支持切换不同的音色(别的我也听不懂,但这英音是真英啊):

每种音色也支持了多国语言,为出海产品提供了更多选择。


除了以上用法,还有一些能力没有展示,比如实时通话里自动触发的联网检索、音色克隆等。

总得来说,全模态模型发展至今,也是时候进入 AI 产品设计的考量了:


  • 论设备,手机、车载、眼镜——这些设备的交互本来就不是纯文字的
  • 论用户习惯,更多人并不擅长文本准确描述,更习惯口述+简单指点


当模型能直接处理语气、画面和环境,不需要先把用户的直觉反应“有损翻译”为文本,产品设计的空间就不一样了。

有了全模态模型的加持,人与 AI 的交互方式能更接近「让真实人类做事」的形式。

而兼具了全模态与 Agent Coding 能力的 Qwen3.5-Omni 是个开始,往后能做什么,越来越取决于产品侧的想象力。


如果想上手体验?


  • 普通用户:请使用 Qwen Chat:https://chat.qwen.ai/


  • 开发者:可通过阿里百炼 API 调用

【离线】https://help.aliyun.com/zh/model-studio/qwen-omni
【实时】https://help.aliyun.com/zh/model-studio/realtime

希望本文能对你有所启发,记得关注~

也感谢你的点赞与分享:)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
NBA历史首次!41岁詹姆斯22分+19岁弗拉格26分 半场同砍20+

NBA历史首次!41岁詹姆斯22分+19岁弗拉格26分 半场同砍20+

醉卧浮生
2026-04-06 08:51:17
赵忠祥的遗孀张美珠:丈夫病逝6年, 她的晚年生活怎样?

赵忠祥的遗孀张美珠:丈夫病逝6年, 她的晚年生活怎样?

细品名人
2026-04-06 07:24:24
李谷一的“女儿”曝光,原来是我们熟悉的歌手,连续多年登上春晚

李谷一的“女儿”曝光,原来是我们熟悉的歌手,连续多年登上春晚

胡一舸南游y
2026-03-30 15:50:41
国民党内炸锅!马英九郑丽文彻底撕破脸,郑丽文或成第二个洪秀柱

国民党内炸锅!马英九郑丽文彻底撕破脸,郑丽文或成第二个洪秀柱

爱下厨的阿酾
2026-03-27 01:08:12
太过分!华人遭小孩歧视辱骂,街头被暴打,有人竟当场掏出长刀

太过分!华人遭小孩歧视辱骂,街头被暴打,有人竟当场掏出长刀

华人生活网
2026-04-06 04:32:27
中科院向全世界正式宣布:停止一切拨款,西方学界哀嚎一片

中科院向全世界正式宣布:停止一切拨款,西方学界哀嚎一片

春之寞陌
2026-04-06 07:31:27
法甲的金钱地狱:一个7.8亿的赌约,如何毁掉了整个法国足球

法甲的金钱地狱:一个7.8亿的赌约,如何毁掉了整个法国足球

老骾体育解说
2026-04-05 08:34:39
全球首家AI妓院,革了成人行业的命

全球首家AI妓院,革了成人行业的命

广告案例精选
2026-04-02 14:49:22
山东男篮找到奇兵射手!首秀5个三分击溃广东,高诗岩数据很亮眼

山东男篮找到奇兵射手!首秀5个三分击溃广东,高诗岩数据很亮眼

牛眼看球
2026-04-06 21:31:05
中甲首位下课主帅诞生!垫底队官宣主帅辞职,球队3连败且负3分

中甲首位下课主帅诞生!垫底队官宣主帅辞职,球队3连败且负3分

中超伪球迷
2026-04-06 17:47:16
打脸来得太快?唐嫣罗晋带女儿游玩被质疑摆拍秀恩爱,孙俪没说谎

打脸来得太快?唐嫣罗晋带女儿游玩被质疑摆拍秀恩爱,孙俪没说谎

白面书誏
2026-04-06 16:19:42
郑丽文人还未到,国台办先定调了:统一之后,有两件事必办成!

郑丽文人还未到,国台办先定调了:统一之后,有两件事必办成!

墨君月夜相思
2026-04-06 16:40:25
西汉姆球迷提前离场后被拒绝重新入场,只能靠直播看点球大战

西汉姆球迷提前离场后被拒绝重新入场,只能靠直播看点球大战

懂球帝
2026-04-06 21:56:20
遭遇湖人式悲剧!西部又一豪强陨落,两大核心受伤,或跌进附加赛

遭遇湖人式悲剧!西部又一豪强陨落,两大核心受伤,或跌进附加赛

你的篮球频道
2026-04-06 10:23:00
郑丽文高铁往返南京,清晨拜谒中山陵,392级台阶藏满深意

郑丽文高铁往返南京,清晨拜谒中山陵,392级台阶藏满深意

刘襈说体坛
2026-04-03 15:23:26
收手吧“资本家的丑孩子”!没颜值没演技,就别出来霍霍观众了

收手吧“资本家的丑孩子”!没颜值没演技,就别出来霍霍观众了

老沮系戏精北鼻
2026-04-06 19:05:42
毛主席给钱学森递烟,钱学森准备接,主席突然收回笑道:自力更生

毛主席给钱学森递烟,钱学森准备接,主席突然收回笑道:自力更生

史之铭
2026-04-06 17:24:42
撒贝宁一家四口旅游吃早餐被拍,娶李白的选择太明智

撒贝宁一家四口旅游吃早餐被拍,娶李白的选择太明智

仙味少女心
2026-04-05 22:04:05
车主赶紧加油!明晚油价调整 国内成品油价六连涨基本锁定

车主赶紧加油!明晚油价调整 国内成品油价六连涨基本锁定

快科技
2026-04-06 17:21:06
帕金斯炮轰湖人队医:让东契奇出战是"史上最蠢的事",应接受调查

帕金斯炮轰湖人队医:让东契奇出战是"史上最蠢的事",应接受调查

爱体育
2026-04-06 22:05:32
2026-04-06 22:51:00
一泽Eze
一泽Eze
AI 产品,提示工程师 ? 探索AI应用边界,寻找人与AI共处的答案
49文章数 3关注度
往期回顾 全部

科技要闻

折叠屏iPhone要来了,富士康已在试产!

头条要闻

安徽6岁失联女童确认遇害 嫌犯已被抓获归案

头条要闻

安徽6岁失联女童确认遇害 嫌犯已被抓获归案

体育要闻

官方:中国女足球员邵子钦加盟本菲卡

娱乐要闻

唐嫣罗晋新加坡遛娃,6岁女儿身高抢镜

财经要闻

史诗级暴跌"一周年" A股接下来如何走?

汽车要闻

阿维塔06T快上市了 旅行车还能这么玩?

态度原创

家居
数码
旅游
房产
游戏

家居要闻

温馨多元 爱的具象化

数码要闻

微星泰坦18 Ultra 2026游戏本上市,顶配售价47999元

旅游要闻

清明假期广东接待游客1985.1万人次,旅游收入超百亿

房产要闻

小阳春全面启动!现房,才是这波行情里最稳的上车票

空欢喜!艾达王配音“暗示回归”实为粉丝定制视频

无障碍浏览 进入关怀版