网易首页 > 网易号 > 正文 申请入驻

阿里Qwen3.5马年首开源!35B性能逆袭235B,给开发者送省钱绝招

0
分享至


智东西
作者 李水青
编辑 云鹏

智东西2月25日报道,今日,阿里推出马年首批新模型——Qwen3.5中型模型系列,包括推出Qwen3.5-122B-A10B、Qwen3.5-35B-A3B、Qwen3.5-27B(Dense)三款开源模型,同时Qwen3.5-Flash(Qwen3.5-35B-A3B生产版本)API已上线阿里云百炼。

Qwen3.5最新三款中型模型在指令遵循、研究生级推理、哈佛-MIT数学竞赛级数学、多语言知识、智能体工具使用等
12项能力测评中,在通用推理、数学、智能体、多模态等多个方面,整体表现可与GPT-5 mini、Claude Sonnet 4.5等国际一流模型相媲美。


▲Qwen3.5中型模型系列测评情况

模型一经发布在开发者圈引起关注。多位开发者称这些模型尺寸是本地推理的绝佳选择,赞叹其“更小模型实现更强性能”,甚至有人称Qwen3.5-35B-A3B有望将其每月花费从2000欧元(购买Gemini服务)降至50欧元,大大节省成本。

▲社交平台X上的网友评论

具体来看,其中最受关注的Qwen3.5-35B-A3B,性能已超越参数规模大数倍的Qwen3-235B-A22B-2507和Qwen3-VL-235B-A22B。正如一位海外网友所说:“架构+数据质量>原始参数。我一年来一直这么说。”


▲社交平台X上的网友评论

Qwen3.5-122B-A10B和Qwen3.5-27B进一步缩小了中型模型与前沿模型之间的差距,尤其是在复杂智能体场景中表现突出。Qwen3.5-Flash是与35B-A3B版本一致的托管生产版本,主打以较快速度提供强性能,每百万Token价格低至0.2元,默认支持1M超长上下文长度,满足长文档与复杂任务处理需求。

目前,Qwen Chat上的模型均已更新为Qwen3.5系列,最新四款中型模型也已上线。智东西第一时间对这三款开源模型进行了初步体验,发现这三款中型模型已能满足多种日常的多模态理解、知识解答、视觉编程等任务,达到匹敌Qwen3-235B-A22B-2507的效果,不过在SVG卡通场景绘制等场景仍有提升空间。


▲四款新模型已上线Qwen Chat

持续迭代的产品力有望让阿里千问占据更大市场。近期,国际市场调研机构沙利文报告显示,2025年下半年,中国企业级大模型日均调用量千问(Qwen)占比32.1%位列第一,相较上半年的17.7%几乎翻倍,相比字节豆包(21.3%)、DeepSeek(18.4%)领先优势扩大。

Hugging Face地址:
https://huggingface.co/collections/Qwen/qwen35
魔搭社区地址:
https://modelscope.cn/collections/Qwen/Qwen35
体验地址:
https://chat.qwen.ai/

一、实测多模态与知识能力出色,小体格编程,SVG生成待提升

在智东西的初步体验中,三款模型在多模态理解知识能力上都效果不错。

比如当我上传一张“公鸡根雕”的图片,三款模型都能够准确识别其为根雕艺术品,能够根据颜色和纹理准确识别材料为“崖柏”,能结合中国传统文化解读这一物件的意义,甚至能基于材质、工艺水平、尺寸大小等因素进行价格评估,评估结果基本符合这一领域的专业水平,令人很惊喜。

如下图所示,Qwen3.5-122B-A10B和Qwen3.5-35B-A3B的输出答案都基本接近事实,对“这是什么物件,用的什么原材料,有什么寓意,可能值多少钱?”四个问题进行了准确的理解作答。





▲Qwen3.5-122B-A10B生成的答案

Qwen3.5-27B的输出内容在形式上更加别出心裁,不仅对几个问题进行了准确回答,还通过图表、格式变化等方式,让内容呈现更加重点分明,并最终给出了“5000-15000元”较为直接可参考的估价,体现了其“工程实用度高”的特点。







▲Qwen3.5-27B生成的答案

而后智东西着重考察了Qwen3.5-27B(Dense)的编程能力,让其生成一个“虚拟助手个人智能体OpenQwen的官方主页”,并提出“该助手可辅助编程、办公、购物等各类事务。生成高质量图片作为网站素材,包含智能体头像及功能使用场景演示”等特征。

如下图所示,Qwen3.5-27B能够比较完整地生成这一网站的页面,逻辑上基本与提示词描述契合,展现其以较小参数规模实现了较强视觉编程能力的特征。不过相比Qwen3.5-397B-A17B的视觉编程能力,Qwen3.5-27B在视觉元素丰富程度、交互性等方面仍有一些差距。






▲Qwen3.5-27B生成的代码预览情况(部分)


▲Qwen3.5-397B-A17B生成的代码预览情况

而在SVG卡通场景绘制的场景中,智东西要求三款模型输出“阳光沙滩”的SVG卡通图,对尺寸、主题、元素、风格和细节要求具体,三款模型在复杂约束下输出的SVG基本结构清晰,但太阳、海浪、遮阳伞、椰子树等物体的贴近程度仍表现不足。


▲提示词

Qwen3.5-122B-A10B生成的SVG相对更加准确,椰子树下的阴影更符合物理规律,画面的饱和度更加高。


▲Qwen3.5-122B-A10B生成的SVG


▲Qwen3.5-35B-A3B生成的SVG


▲Qwen3.5-27B生成的SVG

二、35B模型超235B,开发者喜迎降本,催更1B小版本

2月16日,阿里正式推出原生视觉语言模型Qwen3.5,Qwen3.5系列的第一款模型Qwen3.5-397B-A17B首次以开源权重形式亮相,该模型在推理、编程、智能体能力与多模态理解等全方位基准评估中领先,引起产业关注。

仅仅一周多之后,阿里发布了Qwen3.5系列几款中型模型,进一步在海内外引起开发者的高热讨论。

其中最受关注的当属拥有350亿参数的Qwen3.5-35B-A3B。多位网友称Qwen3.5-35B-A3B击败2350亿参数的Qwen3-235B-A22B-2507是“重点”、“大新闻”。

有网友称:“更小的模型在更便宜的硬件上运行速度更快,同时还能达到甚至超越大型模型的性能——这才是AI真正的民主化。”还有网友分享:“我现在在一个项目上每月要花2000欧元购买Gemini服务,如果这是真的,那费用就降到每月50欧元了。”


▲社交平台X上的网友评论

一位开发者分享了其部署Qwen3.5-35B-A3B的情况,称模型可以跑在16GB的显存机器上,处理32k上下文时,每秒处理数能达到60-70个任务;但他也提到,模型吞token的速度惊人,一个短谜题就用了大约6k token,但最终答案是正确的。


▲社交平台X上的网友评论

Qwen3.5-27B的模型参数更小,也做到了“小规模强性能”。一位网友称:“Qwen3.5-27B型号的得分为何如此之高?GGUF版本何时发布?”另一位网友也称:“这次发布太棒了!我对27B参数模型特别感兴趣,不过以后你们能不能把GGUF模型也和主版本一起发布?这样用户就能更快地用上这个模型。”



▲社交平台X上的网友评论

也有网友开启了催更模式。有网友称:“有计划发布小型模型吗?比如1B/3B/7B?”,也有网友喊话:“我希望未来几周内也能推出2-4B参数的型号,Qwen3-4B-2507或许是迄今为止性能与体积比最高的型号,我希望你们能延续这一传统。”



▲社交平台X上的网友评论

不过也有网友表达了更高的期待:“我真搞不懂为什么这张图表(测评图表)里没有Claude Sonnet 4.6和Opus 4.5这两款在SWE认证评分中分别高达79.6分和80.6分的机型。”


▲社交平台X上的网友评论

三、基准测试:122B大而全,35B强在智能体,27B工程实用度高

看完实际体验,我们再回过头来看看具体的测评成绩。从这三款模型的定位来看:

Qwen3.5-122B-A10B是一个相对大而全的模型,综合能力最强,相对适合多模态、视频、多语言场景;

Qwen3.5-35B-A3B的优势集中在智能体深度能力,适用于智能体规划、深度推理、任务调度,空间智能能力强;

Qwen3.5-27B(Dense)主打轻量化部署,工程实用度高,交互、编程、长文本、数学拔尖。

知识维度,Qwen3.5-122B-A10B在专业领域知识与推理(MMLU-Pro)、多语言与多领域知识(MMLU-Redux)、研究生级知识与推理(SuperGPQA)三项取得最高分。在指令跟随、长上下文处理和STEM推理三大维度,Qwen3.5全系列都取得领先的成绩。

编程能力上,Qwen3.5-27B在SWE-bench Verified(真实软件工程问题解决能力)中取得最高分,Qwen3.5-122B-A10B在Terminal Bench 2(终端环境下的代码执行与调试能力)和 FullStackBench en(英文全栈开发能力)中表现最佳。

通用智能体维度,Qwen3.5系列呈“梯队式优势”,在BFCL-V4(通用智能体工具使用能力)、TAU2-Bench(智能体任务执行与适配能力)、DeepPlanning(智能体深度规划与逻辑推演能力)等多项测评中取得最佳成绩。在搜索智能体维度,Qwen3.5-122B-A10B主导英文/中文浏览检索,Qwen3.5-27B包揽复杂推理与综合搜索最高分。





多语言能力维度,Qwen3.5-122B-A10B表现尤为突出。在多模态能力维度,其在通用VQA领域也表现强势,拿下RealWorldQA(真实世界场景下的视觉问答能力)、MMStar(多模态综合理解与推理能力)等四项最高分;Qwen3.5-27B在HallusionBench(多模态幻觉抑制与事实一致性能力)、CharXiv(RQ)(学术文档的理解与检索能力)等评测中表现最佳。

空间智能方面,Qwen3.5系列实现全维度领跑。在视频理解方面,Qwen3.5-122B-A10B成为本次测评的绝对领跑者,包揽带字幕的视频多模态理解能力、视频与语言结合的跨模态理解能力等6项单项最高分。

聚焦视觉智能体与专业视觉能力,Qwen3.5系列垄断视觉智能体与医疗视觉核心能力:在8项测评中,Qwen3.5系列包揽了6项最高分,仅在桌面系统交互(OSWorld-Verified)上落后于GPT-5-mini,整体视觉智能体与医疗视觉能力领先。







四、对比Qwen3,解读Qwen3.5五大技术升级

按照千问研发团队的思路,智能进步的关键,从来不是堆参数,而是更优架构+更高质量数据+强化学习(RL)的有效协同。

相比于阿里上一代旗舰模型Qwen3,Qwen3.5具有以下增强功能:

统一视觉语言基础:在多模态标记上进行早期融合训练,实现了与Qwen3的跨代对等,并在推理、编码、Agent和视觉理解基准测试中优于Qwen3-VL模型。

高效混合架构:门控Delta网络与稀疏混合专家相结合,可实现高吞吐量推理,同时最大限度地减少延迟和成本开销。

可扩展的强化学习泛化:将强化学习扩展到百万智能体环境,并逐步增加任务分布的复杂性,以实现强大的现实世界适应性。

全球语言覆盖范围:扩展支持201种语言和方言,实现包容性的全球部署,并具备细致入微的文化和区域理解。

下一代训练基础设施:与仅文本训练相比,多模态训练效率接近100%,异步RL框架支持大规模代理支架和环境编排。

结语:企业级大模型市场头部效应初显,产品迭代速度是关键

通过此次发布Qwen3.5中型模型系列,阿里试图以“更优架构+更高质量数据+强化学习”,验证了“规模法则”之外的另一条进化路径。

三款模型的发布时间距离Qwen3.5-397B-A17B仅一周,分别切入多模态、智能体深度推理与轻量化部署三大场景,在开发者圈引发了模型成本热议,也快速补齐了其产品矩阵。

从市场格局看,Qwen系列在国内企业级市场的日均调用量份额从17.7%跃升至32.1%,进一步拉大领先优势。此次发布通过分层产品矩阵,有望进一步巩固其在企业级市场的头部地位。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
胆固醇和甘油三酯都是血脂,哪一项升高更加严重?告诉你大实话

胆固醇和甘油三酯都是血脂,哪一项升高更加严重?告诉你大实话

医学原创故事会
2026-02-25 23:10:09
山东男子将“博士毕业证”叠成“元宝”烧给去世爷爷:没能看到我完成学业,用这种方式寄托思念

山东男子将“博士毕业证”叠成“元宝”烧给去世爷爷:没能看到我完成学业,用这种方式寄托思念

大象新闻
2026-02-25 13:44:10
宇树年后首发!新款机器人来了

宇树年后首发!新款机器人来了

证券时报e公司
2026-02-24 20:34:49
小米起诉自媒体账号赔偿500万 实控人为蔚来李斌?相关人士:假的

小米起诉自媒体账号赔偿500万 实控人为蔚来李斌?相关人士:假的

财联社
2026-02-25 19:45:05
南天门计划玩真的?美媒:央视曝光10万吨空天母舰,美或紧急应对

南天门计划玩真的?美媒:央视曝光10万吨空天母舰,美或紧急应对

近史博览
2026-02-25 07:04:09
外交部:中方一贯反对没有国际法依据、未经联合国安理会授权的单边制裁

外交部:中方一贯反对没有国际法依据、未经联合国安理会授权的单边制裁

环球网资讯
2026-02-25 15:30:23
史诗级封杀!2000万网红“听风的蚕”彻底凉了

史诗级封杀!2000万网红“听风的蚕”彻底凉了

互联网品牌官
2026-02-12 01:17:23
特朗普着急访华,苦等4天,中方终于给出回应,提了一个新要求

特朗普着急访华,苦等4天,中方终于给出回应,提了一个新要求

小涛叨叨
2026-02-26 02:07:46
广东签第5外援!比萨林杰要强,CBA官宣裁2外援,山东小外援2选1

广东签第5外援!比萨林杰要强,CBA官宣裁2外援,山东小外援2选1

老吴说体育
2026-02-26 00:03:25
提醒大家:这5样东西“别放冰箱”,越放越坏!等于在“养菌”

提醒大家:这5样东西“别放冰箱”,越放越坏!等于在“养菌”

辉哥说动漫
2026-02-25 13:08:10
华南五虎全军覆没!从叱咤风云到集体沉沦,一场跨越二十年的地产大败局

华南五虎全军覆没!从叱咤风云到集体沉沦,一场跨越二十年的地产大败局

阿离家居
2026-02-24 15:32:27
中日男篮大战开赛在即,陈盈骏给中国男篮“戴高帽”!

中日男篮大战开赛在即,陈盈骏给中国男篮“戴高帽”!

阿嚼影视评论
2026-02-25 18:20:29
大年初三失联的四川26岁男子已离世,被发现地方距家并不远

大年初三失联的四川26岁男子已离世,被发现地方距家并不远

大象新闻
2026-02-25 16:21:04
老大爷沈阳舞厅内拒绝“去水吧” 被舞女暴打。2025年10月27日

老大爷沈阳舞厅内拒绝“去水吧” 被舞女暴打。2025年10月27日

成都人的故事
2026-02-25 14:26:04
爆冷!曼联夏窗首签竟是 “卖人”?27 岁大将自降薪资逃离

爆冷!曼联夏窗首签竟是 “卖人”?27 岁大将自降薪资逃离

奶盖熊本熊
2026-02-26 03:38:30
广东富二代范博乔:22岁在国外打死同胞,花2000万保释,现状如何

广东富二代范博乔:22岁在国外打死同胞,花2000万保释,现状如何

朝子亥
2026-02-23 18:35:03
央视坐实!成本2元售价19800元!不少人受骗,赶紧别用了

央视坐实!成本2元售价19800元!不少人受骗,赶紧别用了

世界圈
2026-02-12 17:06:45
毛奇、李佩霞2026年近况公布,两人服刑结局给所有人提了醒

毛奇、李佩霞2026年近况公布,两人服刑结局给所有人提了醒

娱乐督察中
2026-02-21 03:23:47
易永林教授逝世

易永林教授逝世

吉林日报
2026-02-24 20:55:05
美股三大指数高开,美光、阿斯麦、博通大涨;重要锂矿供应国停止出口,锂矿股也大涨!加密货币大幅反弹|美股开盘

美股三大指数高开,美光、阿斯麦、博通大涨;重要锂矿供应国停止出口,锂矿股也大涨!加密货币大幅反弹|美股开盘

每日经济新闻
2026-02-25 23:22:05
2026-02-26 06:39:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11255文章数 116980关注度
往期回顾 全部

科技要闻

“机器人只跳舞,没什么用”

头条要闻

女子爬山失联10天后遗体被找到 丈夫:她登顶神情恐惧

头条要闻

女子爬山失联10天后遗体被找到 丈夫:她登顶神情恐惧

体育要闻

勇士爆冷惜败鹈鹕 梅尔顿28分赛季新高

娱乐要闻

黄晓明新恋情!与小22岁美女同游新加坡

财经要闻

上海楼市放大招,地产预期别太大

汽车要闻

750km超长续航 2026款小鹏X9纯电版将于3月2日上市

态度原创

健康
手机
亲子
时尚
军事航空

转头就晕的耳石症,能开车上班吗?

手机要闻

谷歌官方“豆包手机”来了,安卓旗舰迎来AI操控功能

亲子要闻

产后性生活冷淡?找回“高潮”,是修复夫妻关系的第一步

“复古甜心”穿搭突然大火!春天穿时髦又减龄

军事要闻

俄乌冲突四周年:和平谈判希望渺茫

无障碍浏览 进入关怀版