网易首页 > 网易号 > 正文 申请入驻

阿里开源首个全模态大模型,将给产业带来哪些机会?

0
分享至

界面新闻记者 | 肖芳
界面新闻编辑 | 文姝琪

3月27日凌晨,阿里巴巴发布并开源首个端到端全模态大模型通义千问Qwen2.5-Omni,可同时处理文本、图像、音频和视频等多种输入,并实时生成文本与自然语音合成输出。

目前,市场上的全模态大模型较为有限。在此之前,国内外主流科技公司只有OpenAI发布过全模态大模型GPT-4o。GPT-4o的参数规模为200B,而Qwen2.5-Omni仅为7B,这一尺寸对于端侧部署特别是手机本地部署十分友好。

在一系列同等规模的单模态模型权威基准测试中,Qwen2.5-Omni展现出了全球最强的全模态优异性能。其中,Hugging Face的测试显示,Qwen2.5-Omni在语音理解、图片理解、视频理解、语音生成等领域的测评分数,均领先于专门的Qwen2-Audio以及Qwen2.5-VL模型,且语音生成测评分数(4.51)达到了与人类持平的能力。

据界面新闻了解,Qwen2.5-Omni在低参数规模情况下全模态性能表现优异的主要原因是技术的创新突破。Qwen2.5-Omni采用了通义团队全新首创的Thinker-Talker双核架构、Position Embedding(位置嵌入)融合音视频技术、位置编码算法TMRoPE(Time-aligned Multimodal RoPE)。相比之下,GPT-4o的基础仍然是Transformer架构,只是针对多模态数据进行了优化。

具体来讲,Transformer架构是单一流式计算,采用自注意力机制,一次性处理整个输入序列,不区分“思考”和“表达”,所有计算都在同一层次上完成,导致大模型在推理复杂问题时计算开销较高。Thinker-Talker双核架构区分“思考”和“表达”,Thinker负责深度推理、逻辑思维和复杂认知任,Talker负责将思考结果高效转化为流畅的语言表达或其他输出。Thinker进行多步推理,而Talker只需高效生成结果,从而优化计算效率。

在全新的技术架构下,这款全模态模型的交互能力又上了一个新的台阶,不仅让阿里AI在C端(用户)的应用多了几分想象空间,也给智能终端行业带来了更多的想象空间。

以接近人类的多感官方式交互,还能感知情绪

界面新闻记者在Qwen Chat中体验到了这款模型。在对话框中,用户可选择语音或者视频通过和Qwen2.5-Omni进行交互。

记者输入语音指令,要求Qwen2.5-Omni帮忙总结一篇文章的主要内容,它能通过语音的方式进行总结,说话的声音有语调、语气的变化,整体的交互感受是像和屏幕之外的另一个人进行语音电话。当记者要求Qwen2.5-Omni唱一首歌时,它目前还无法实现,但它的回复并不生硬:“哎呀,我还不会唱歌呢。你可以使用QQ音乐,上面有很多人唱歌。”

在播放歌曲《老男孩》的一个片段时,Qwen2.5-Omni能够听出来这是一段民谣曲风的音乐,还能听出来这是C大调。同时,它还推荐了赵雷的《成都》、周杰伦的《七里香》并询问使用者是否喜欢。当记者用非常焦躁的语气和它说话时,它不仅能感知到的情绪异常,还能像朋友一样来开导称不要把烦心事放在心上。

记者和它进行视频通话时,它能通过视频画面中的窗户和窗帘判断使用者在室内,并以此为话题展开聊天。在多人的场景中,Qwen2.5-Omni还能够理解不同说话人的语音和视频的对应关系,定位到不同说话人的穿着等状态,判断意识流视频里的情绪,这是以往单一模态的模型和AI应用所不具备的能力。

体验之后,界面新闻记者整体的感觉是,Qwen2.5-Omni在多模态方面的交互能力已经非常接近人类的交互方式,说话的音色和语气、语调也更接近真人,在实时交互的过程中的延迟较小,基本感觉不到卡顿。和几年前的智能音箱相比,Qwen2.5-Omni不再只是单纯的回复用户给出的指令,还会主动询问用户问题,让聊天变成一个可持续的过程。

除了日常的对话之外,界面新闻从一位阿里云内部人士处了解到,Qwen2.5-Omni还能处理更加复杂、专业的问题。比如,在医疗领域,诊断通常需要结合影像、病历文本和患者的语言描述完成,Qwen2.5-Omni的多模态能力能够满足这些需求,相关医疗机构在使用大模型辅助诊断时,无需为不同模态任务部署独立模型,降低开发和维护成本。

C端应用呼之欲出

Qwen2.5-Omni更接近人类的交互方式,且能感知到人的情绪,这让此前被业界看好的AI陪伴应用有了规模化落地的空间。

据界面新闻了解,阿里AI to C的应用也在尝试这个方向。去年12月,阿里旗下AI应用“通义”近期正式从阿里云分拆,并入阿里智能信息事业群。调整后通义PC及App团队与智能搜索产品“夸克”平级,通义To C方向的产品经理以及相关的工程团队,他们将一并调整至阿里智能信息事业群。

界面新闻从一位阿里智能信息事业群人士处了解到,架构调整之后,夸克和通义在定位上进行了区分,夸克主要解决用户在学习工作场景中的问题,而通义主要解决用户生活中的问题以及情感陪伴需求。

Qwen2.5-Omni发布之后,底层模型能力已经能够满足用户各种复杂的需求,通义团队需要把产品打磨好来抢占先机。

除此之外,Qwen2.5-Omni的小尺寸更方便智能终端行业进行部署。在GPT-4o仍然保持闭源的情况下,Qwen2.5-Omni以宽松的Apache2.0协议开源,且阿里云百炼平台提供API服务,所有人均可下载和商用。无论是手机、智能音箱还是家电,都在寻求更好的用户交互体验,Qwen2.5-Omni的交互能力给了这些行业更多想象空间。

比如,目前老板电器等厨房电器企业正在探索通过大模型把菜谱推荐、智能烹饪、个性化交互整合到全流程服务中,打造更智能的厨房体验。全模态大模型的核心优势在于能够理解文本、语音、图像、视频、传感器数据等多种模态的数据,从而提供更加自然、精准的烹饪辅助。

Qwen2.5-Omni具备视觉、听觉、语音等多感官交互能力,在家庭机器人领域有着较为广阔的应用前景。它不仅能完成日常任务,还能更智能地理解用户需求、实时适应环境,并提供更加人性化的互动。尤其在家庭陪伴和护理等场景中,识别老人摔倒等异常情况以及识别用户低落情绪都是非常关键的底层能力。

此前,阿里巴巴联合创始人、董事局主席蔡崇信已确认苹果和阿里巴巴将合作为中国iPhone用户开发AI功能。实际上,OPPO、vivo、荣耀、传音等国内超90%的手机品牌都已接入千问。Qwen2.5-Omni的出现或许也会给这些品牌的手机带来新的用户交互体验。

阿里在AI大模型上的布局上显示出了非常大的决心。阿里巴巴集团CEO吴泳铭此前宣布,未来三年,阿里将投入超过3800亿元,用于建设云和AI硬件基础设施,总额超过过去十年总和。

AI也让资本市场重估阿里的价值。2025年以来,阿里巴巴美股股价已上涨55.96%。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
清纯得不像动作片女一号!

清纯得不像动作片女一号!

贵圈真乱
2026-03-26 11:33:33
中方奉陪到底!没等来日本道歉,高市却掀桌了,突然亮出獠牙!

中方奉陪到底!没等来日本道歉,高市却掀桌了,突然亮出獠牙!

触摸史迹
2026-04-01 19:45:32
35岁知名星二代,被曝生活拮据落魄,和父亲断来往,和母亲也决裂

35岁知名星二代,被曝生活拮据落魄,和父亲断来往,和母亲也决裂

西楼知趣杂谈
2026-04-02 07:52:04
独苗王楚钦晋级8强登热搜!央视送上祝贺 7连胜小勒王皓振臂高呼

独苗王楚钦晋级8强登热搜!央视送上祝贺 7连胜小勒王皓振臂高呼

颜小白的篮球梦
2026-04-03 20:58:22
再见!麻豆传媒突然官宣,永久关停

再见!麻豆传媒突然官宣,永久关停

我不叫阿哏
2026-04-03 15:25:28
女生主动起来有多黏人?网友:这些女的太开放了

女生主动起来有多黏人?网友:这些女的太开放了

带你感受人间冷暖
2026-01-27 00:20:06
小眼睛歌手被报复了

小眼睛歌手被报复了

毒舌扒姨太
2026-04-03 22:38:23
王楚钦为啥战胜小勒布伦?赛后王皓毫不避讳说出原因 说的非常实在

王楚钦为啥战胜小勒布伦?赛后王皓毫不避讳说出原因 说的非常实在

生活新鲜市
2026-04-04 00:37:10
11.98万元起,小鹏MONA M03上新,何小鹏:不碰10万元以内的车,有规模但价值太小了

11.98万元起,小鹏MONA M03上新,何小鹏:不碰10万元以内的车,有规模但价值太小了

时代财经
2026-04-03 20:53:36
前公牛名宿:追梦格林若到90年代,简直是为乔丹王朝量身定制的!

前公牛名宿:追梦格林若到90年代,简直是为乔丹王朝量身定制的!

仰卧撑FTUer
2026-04-03 04:58:07
属兔人注意!4月4号到6号,你会痛失一人,但要拿回这三样东西

属兔人注意!4月4号到6号,你会痛失一人,但要拿回这三样东西

白浅娱乐聊
2026-04-03 19:42:17
河南男子在县城买下127平房子,4年后回来结婚,打开房门他愣住了

河南男子在县城买下127平房子,4年后回来结婚,打开房门他愣住了

民间精选故事汇
2025-02-01 11:20:02
女孩当小姐,一晚要提供4到5次上门服务,被亲人点到不赴约

女孩当小姐,一晚要提供4到5次上门服务,被亲人点到不赴约

情感艺术家
2026-02-26 10:48:00
高盛:对冲基金疯狂逃命,以13年来最快速度抛售全球股票

高盛:对冲基金疯狂逃命,以13年来最快速度抛售全球股票

新浪财经
2026-04-03 15:10:41
Anthropic甩出92.4%这个数字

Anthropic甩出92.4%这个数字

硅屿手记
2026-04-02 09:57:43
教师大势已明朗:不出意外,2026年中国教师队伍,会迎来4大变化

教师大势已明朗:不出意外,2026年中国教师队伍,会迎来4大变化

小谈食刻美食
2026-04-02 08:46:43
他汀类药物到底该吃多久?能不能停药?告诉你实情!

他汀类药物到底该吃多久?能不能停药?告诉你实情!

华医网
2026-04-02 05:40:44
口嗨?陈光标2天了仍未送1300万豪车 张雪疑暗讽:真男人说到做到

口嗨?陈光标2天了仍未送1300万豪车 张雪疑暗讽:真男人说到做到

风过乡
2026-04-03 14:47:05
否认卢甘斯克州全部沦陷!克宫连大学生都征兵,加速出售黄金储备

否认卢甘斯克州全部沦陷!克宫连大学生都征兵,加速出售黄金储备

鹰眼Defence
2026-04-03 16:06:58
马龙真是中国好姑爷!给岳父母在北京买房!真相曝光圈粉无数

马龙真是中国好姑爷!给岳父母在北京买房!真相曝光圈粉无数

一盅情怀
2026-01-28 16:15:34
2026-04-04 04:23:00
界面新闻 incentive-icons
界面新闻
只服务于独立思考的人群
1050198文章数 1332420关注度
往期回顾 全部

科技要闻

5万辆库存车,给了特斯拉一记重拳

头条要闻

伊朗:美飞行员跳伞在伊境内落地 美方曾试图营救未果

头条要闻

伊朗:美飞行员跳伞在伊境内落地 美方曾试图营救未果

体育要闻

被NBA选中20年后,他重新回到篮球场

娱乐要闻

夏克立官宣再婚当爸?否认婚内出轨

财经要闻

专家称长期摄入“飘香剂”存在健康隐患

汽车要闻

你介意和远房亲戚长得很像吗?

态度原创

旅游
教育
手机
亲子
军事航空

旅游要闻

一秒坠入油画里!小火车、花海、露营……千亩金黄等你来打卡

教育要闻

教育部:义务教育学校严禁设立重点班、实验班、快慢班

手机要闻

OPPO Find X9 Ultra:真机偷跑!Find X9s Pro:要做小屏影像机皇

亲子要闻

5种高添加剂食品别给娃吃

军事要闻

俄国防部:一架苏-30战机在克里米亚坠毁

无障碍浏览 进入关怀版