网易首页 > 网易号 > 正文 申请入驻

除了Qwen,阿里还有什么好东西?

0
分享至

作者 | Yoky
邮箱 | yokyliu@pingwest.com

8月5日,阿里巴巴通义千问团队今天正式开源了Qwen-Image文生图模型,该模型采用20B参数的MMDiT主干、7B参数的VLM文本编码器和127M参数的VAE架构,专门针对中文复杂排版与高精度图像编辑进行优化。

新模型一出,开发者们一边惊叹“海报自由终于实现了”,一边也开始疑惑:“开源了Qwen-Image,是不是和万相系列模型功能重复了?”

实际上,在Qwen-Image的技术报告中,Qwen团队明确阐述了与Wan系列的差异定位。Qwen-Image专门针对图像中的文字渲染进行了特定优化,尤其擅长海报设计等需要精确文本表现的场景,而Wan系列则采用更全面均衡的技术路线,重点覆盖视频生成和编辑能力。

更有趣的是,这次发布让不少人意识到,除了广为人知的Qwen系列,阿里竟然还有如此庞大的模型家族。据统计,阿里迄今已开源200余款模型,覆盖文本、视觉、语音、视频、3D、代码等全模态领域,参数规模从0.5B到110B不等。

这些模型并非各自为政,而是体现了清晰的分工架构。Qwen团队作为核心力量,不仅包含语言模型的各个版本,还推出了专门的推理模型;图像和视频模型主要由Wan团队负责;而类似于OpenAI DeepResearch功能的WebSearch模型则来自AlibabaLab。

那么除了已经广受关注的Qwen系列,阿里还有哪些值得开发者关注的开源珍品?让我们来逐一盘点。

1

一、Wan万相系列

通义万相(Wan)同样是阿里通义实验室研发的视觉生成模型,专门负责视觉内容生成任务。该系列模型覆盖文生图、图生图、文生视频、图生视频、首尾帧生视频等多种生成能力,主要应用场景包括影视创作、动画设计、广告设计等领域。

2024年2月,通义万相视频生成模型正式开源,成为业界首个开源的大规模视频生成模型,这一举措直接降低了企业和开发者进入视频生成领域的门槛。开源后的表现也相当亮眼——迅速登顶Hugging Face模型热榜和模型空间榜两大榜单,成为当时全球开源社区最受欢迎的大模型。

Wan系列的开源历程可以追溯到2024年2月,当时通义万相视频生成模型正式开源,成为业界首批开源的视频生成模型之一。此后该系列保持了较快的迭代节奏,目前在HuggingFace中开源了20款模型,覆盖各个参数和类型。

所有开源版本均采用Apache 2.0协议,开发者可以在GitHub、HuggingFace和魔搭社区等平台获取完整的推理代码和模型权重。根据公开数据,截至目前Wan系列模型总下载量已超过350万次,GitHub项目获得超过13k星标。

从刚刚发布的Qwen-Image技术报告来看,阿里在AI模型布局上展现了更加清晰的分工策略。虽然同属通义大家族,但Qwen-Image与通义万相Wan系列走的是完全不同的技术路线。

Qwen-Image的核心亮点在于“复杂文本渲染”能力,特别是对中文文字的精准处理。从技术架构上看,它采用了20B参数的MMDiT主干、7B参数的VLM文本编码器和127M参数的VAE,并设计了专门的MSRoPE(多模态可扩展旋转位置编码)来处理图像和文本的联合位置信息。这种设计让模型能够在生成的图像中准确渲染多行文本、段落级语义和精细细节。

相比之下,通义万相Wan系列定位为“视频为中心”的视觉生成基座,采用时空统一的扩散Transformer框架,同时覆盖文生图、文生视频、图生视频等八类任务,产品矩阵从1.3B到27B参数规模不等。虽然Wan也具备文生图能力,但其重心明显在视频生成和编辑上。

从实际应用角度看,两个系列形成了很好的互补关系。Qwen-Image更适合需要精确文字渲染的场景,比如海报设计、文档生成、多语言内容创作等,特别是涉及中文复杂排版的专业应用。而Wan系列则更适合视频内容创作、动画制作、影视后期等需要时序一致性的场景。

值得注意的是,虽然都属于通义大家族,但Qwen-Image由通义千问团队开发,而通义万相Wan则由独立的通义万相实验室主导。该团队专注于视觉生成技术。从产品策略来看,Wan系列采用了相对激进的开源策略,不仅开源模型权重,还提供完整的推理代码,这在一定程度上降低了企业和开发者使用视频生成技术的门槛。

与阿里内部的其他模型相比,Wan系列专门负责视觉生成领域,与主要处理文本和多模态理解的Qwen系列形成了功能上的互补。

1

二、Alibaba-NLP团队的Web系列

如果说通义万相Wan系列还算是备受关注的明星模型,那么WebSailor系列简直可以称为“沧海遗珠”。

WebSailor的定位直指OpenAI的DeepResearch功能,专门解决复杂网络检索和推理任务。与传统的搜索引擎或简单问答系统不同,WebSailor面对的是那些需要跨多个网页收集线索、进行多步推理才能解答的高难度问题。

比如“找一首与南美某首都密切相关的乐曲,其歌词作者在21世纪初获颁当地荣誉称号,其旋律创作者曾就读于哥伦比亚西部的一所著名艺术学院。这首乐曲叫什么?”这类问题不仅考验AI的信息检索能力,更考验其逻辑推理和信息整合能力。

在今年4月OpenAI发布的BrowseComp评测集上,WebSailor交出了令人惊艳的成绩单。这个包含1266个高难度问题的评测集被业界公认为最具挑战性的网络智能体基准之一,而WebSailor不仅在开源模型中实现了断层领先,甚至超越了多个闭源模型,仅次于OpenAI的DeepResearch。

WebSailor的硬实力,来源于它背后的团队:Alibaba-NLP。它并不隶属于通义,研究力量主要分布在达摩院语言技术实验室和通义实验室两条线,前者专注于低资源多语言理解与生成、AliceMind系列模型等基础研究,后者则由孙常龙带领的NLP应用算法团队主导,专注于大模型应用落地,包括RAG、Agent等前沿领域。

这两大实验室在学术界同样表现不俗,近三年在ACL/EMNLP/AAAI等顶级会议累计发表论文250余篇,在ACL 2023获得杰出论文奖2次,在SemEval 22/23连续获得最佳论文奖。这种深厚的学术底蕴为WebSailor等应用型模型提供了坚实的理论基础。

目前,Alibaba-NLP已经发布了48款开源模型(比Wan还要多),包括WebWalker、WebDancer和WebSailor三个检索和推理智能体,并全部斩获SOTA成绩,形成了完整的网络智能体产品矩阵。

1

三、其他零散的模型

除了已经比较成体系的模型系列以外,还有一些单个的模型,比如来自通义Lab的ThinkSound,它并不属于Qwen系列,而是一个音频模型,它是一个“带脑子”的音频生成模型——它先像人类音效师一样“想清楚”画面里该有什么声音,再一次性合成高保真、零错位的空间音频。

ThinkSound首次把 Chain-of-Thought 引入声音生成:先用多模态大语言模型逐帧推理“画面里发生了什么、该有什么声音、音量方位如何”,再交给统一的扩散网络一次性合成 48 kHz、立体声、带空间定位的高保真波形,真正做到“看懂画面再配音”。模型支持 Any2Audio——视频、纯文本、音频片段或任意混合输入均可输出同步音轨;也支持对象级交互编辑,用户点画面里的猫或输入“让雨声大一点”即可局部重生成。

技术栈上,ThinkSound 提供 1.3 B/724 M/533 M 三个量级,全部 Apache 2.0 协议,单张 RTX 4090 就能给 720 P 视频实时配音。官方在 VGGSound、MovieGen Audio Bench 等公开基准上领先现有方案 15 % 以上,并发布了 2531.8 小时的 AudioCoT 训练集,含人工校验的“事件-声源-物理属性-时序”四元组标注,覆盖动物、机械、城市、自然等 1000 + 场景。

另外还有一些更加垂直的模型,比如AMAP-ML团队推出的地图模型。AMAP-ML 是高德地图 AI 中台面向“空间智能”打造的开源模型与工具链,2025 年 7 月在 GitHub 一次性放出 14 个仓库。核心目标是把高德 20 年积累的路网、街景、交通、POI、定位数据,蒸馏成可即插即用的空间大模型。

目前公开的三条主线:RealQA 用多模态大模型给图像质量与美感打分,FLUX-Text 支持 512×512 起的高保真场景文字编辑,海报、路牌一键改字;UniVG-R1 则是推理引导的视觉定位模型,一句话即可在复杂场景中精准框出目标。

底层还提供时空向量底座,把道路、建筑、实时车流全部向量化,封装成 RESTful API,汽车、机器人、AR 眼镜均可调用。官方已与多家车企座舱、低空飞行器完成落地,实现“AMAP-AI Inside”。整站 Apache 2.0 协议,单卡 4090 即可跑通,让任何开发者都能在自己的硬件里拥有“高德级”空间感知能力。

盘点完阿里的AI模型家族,最令人印象深刻的并非某个单一模型的性能突破,而是其坚定不移的开源策略。从Qwen系列到Wan系列,再到相对低调的WebSailor,几乎所有核心技术都选择了完全开源,不同于一些公司仅开源部分能力或附加诸多限制条件,阿里各个技术团队都在践行真正的开源准则。

这种“真开源”的战略,似乎已经贯彻到了整个阿里巴巴,在Meta逐步放弃Llama系列模型的当下,阿里成了全球范围内,最拥护开源战略的巨头公司。

点个爱心,再走 吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
19岁王钰栋再谈留洋:出国非易事 有合适机遇才去 不关注外界批评

19岁王钰栋再谈留洋:出国非易事 有合适机遇才去 不关注外界批评

我爱英超
2026-03-26 18:48:21
巴基斯坦外长说美伊正进行间接谈判

巴基斯坦外长说美伊正进行间接谈判

新华社
2026-03-26 18:55:07
联大认定“奴隶制”为最严重反人类罪:123票赞成,美国、以色列、阿根廷共3票反对

联大认定“奴隶制”为最严重反人类罪:123票赞成,美国、以色列、阿根廷共3票反对

扬子晚报
2026-03-26 07:27:54
为何越来越多有钱人,宁愿买两套房和父母住对门,也要搬离别墅?

为何越来越多有钱人,宁愿买两套房和父母住对门,也要搬离别墅?

装修秀
2026-03-26 14:05:47
戏都没演明白还当评委,自己都没拿过奖,坐在评审团位置不心虚吗

戏都没演明白还当评委,自己都没拿过奖,坐在评审团位置不心虚吗

娱乐圈笔娱君
2026-03-25 10:46:06
新版《哈利·波特》黑人斯内普教授首曝光!梳脏辫戴金戒引热议,演员本人却称被死亡威胁?

新版《哈利·波特》黑人斯内普教授首曝光!梳脏辫戴金戒引热议,演员本人却称被死亡威胁?

英国报姐
2026-03-26 21:26:58
伊朗抓捕14名叛国分子

伊朗抓捕14名叛国分子

财联社
2026-03-26 20:04:13
内部人士:NBA或将取消快船队科怀·伦纳德的“无效”合同

内部人士:NBA或将取消快船队科怀·伦纳德的“无效”合同

好火子
2026-03-25 23:51:43
越扒越猛!释永信在少林寺有多爽,你根本想不到!终于落到这下场

越扒越猛!释永信在少林寺有多爽,你根本想不到!终于落到这下场

林轻吟
2026-03-26 07:34:21
没想到,张雪峰的离开,意外让蓝盈莹采访火了,才懂她活得多清醒

没想到,张雪峰的离开,意外让蓝盈莹采访火了,才懂她活得多清醒

林轻吟
2026-03-26 07:22:50
郑裕彤家族为什么不自救?不是说香港豪门隐形资产很多么?

郑裕彤家族为什么不自救?不是说香港豪门隐形资产很多么?

担扑
2026-03-26 17:02:51
十二届上海市委第八轮巡视启动,将对21家市管单位开展常规巡视

十二届上海市委第八轮巡视启动,将对21家市管单位开展常规巡视

上观新闻
2026-03-26 19:41:07
张雪峰汤建魏华等猝死引起重视,多地卫健委推专题普及心源性疾病知识,国家卫健委官微详解:为何年轻男性发病风险高

张雪峰汤建魏华等猝死引起重视,多地卫健委推专题普及心源性疾病知识,国家卫健委官微详解:为何年轻男性发病风险高

极目新闻
2026-03-26 20:56:20
艺高人胆大!比赛剩12秒2队战平,鬼才少帅巧换一人,绝杀了对

艺高人胆大!比赛剩12秒2队战平,鬼才少帅巧换一人,绝杀了对

金山话体育
2026-03-26 22:21:04
你见过哪些闷声发大财的人?网友:干这个买三套房子,两个门面

你见过哪些闷声发大财的人?网友:干这个买三套房子,两个门面

夜深爱杂谈
2026-02-01 18:57:04
德媒:德总统批评美以违反国际法 伊朗外长点赞

德媒:德总统批评美以违反国际法 伊朗外长点赞

参考消息
2026-03-25 21:54:32
大陆发布统一后安排,蔡正元赶在坐牢前,留下5个字,措辞不寻常

大陆发布统一后安排,蔡正元赶在坐牢前,留下5个字,措辞不寻常

影孖看世界
2026-03-26 23:36:59
美团去年净亏234亿元,核心本地商业经营亏损69亿元

美团去年净亏234亿元,核心本地商业经营亏损69亿元

澎湃新闻
2026-03-26 18:28:26
皮衣+裙,高级到炸

皮衣+裙,高级到炸

Yuki女人故事
2026-03-25 21:59:58
很多人都患过“带状疱疹”,却不知它和“老年痴呆”有关!了解下

很多人都患过“带状疱疹”,却不知它和“老年痴呆”有关!了解下

岐黄传人孙大夫
2026-03-26 20:45:03
2026-03-27 00:11:00
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
2960文章数 10473关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

健康
房产
家居
本地
军事航空

转头就晕的耳石症,能开车上班吗?

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

家居要闻

傍海而居 静观蝴蝶海

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版