网易首页 > 网易号 > 正文 申请入驻

阿里Qwen3深夜发布,能终结汪峰式尴尬吗

0
分享至

很多人大概不知道通义Qwen的地位。苹果公司已选定Qwen作为其在中国市场的大模型技术合作伙伴,这标志着Qwen在商业应用领域取得重要突破。

与此同时,学术界也展现出对Qwen的青睐。李飞飞团队正基于Qwen架构开发具备超低推理成本的AI模型,通用智能体平台Manus已将其作为核心决策引擎。而最被大家熟悉的DeepSeekR1,其小尺寸模型的训练也用到了Qwen。

实际上,我和身边多位朋友都有聊过,国外最受追捧的中国大模型,一个是DeepSeek,另一个就是通义Qwen了。

尽管Qwen在技术社区持续引发关注,但在国内的公众感知度常常与之不相称。开发者社群中流传着"大模型界汪峰"的戏称,意思是其技术实力常被行业热点事件暂时遮蔽,几次重大版本发布均遭遇其他科技头条的"截胡"现象。

这种技术影响力与商业声量的错位,恰恰反映出Qwen作为底层基础模型,在一个特殊时期技术内核上的坚定。

言归正传。从主流学术基准的权威数据看,这次Qwen3对DeepSeek R1实现了全方位压制,这里的"全方位"并非夸张表述,而是实打实的数学、推理与代码三大核心领域的集体突破。

尤其值得关注的是其代码生成能力,在LiveCodeBench和Codeforces双榜中不仅甩开所有竞品,甚至将当前业界最强的Gemini2.5-Pro也拉入了追赶行列。

具体来看,Qwen3在推理、指令遵循、工具调用、多语言能力等方面均大幅增强。在奥数水平的AIME25测评中,Qwen3斩获81.5分,刷新开源纪录。在考察代码能力的LiveCodeBench评测中,Qwen3突破70分大关,表现甚至超过Grok3。在评估模型人类偏好对齐的ArenaHard测评中,Qwen3以95.6分超越OpenAI-o1及DeepSeek-R1。

而且Qwen3成本很低,旗舰模型235B参数部署成本只要DeepSeek R1的三分之一。

这些硬核数据背后,是Qwen3通过动态参数激活架构(MoE)实现的质变。在2350亿总参数中精准调用220亿激活参数,既保证了算力密度,又将硬件成本压缩至行业平均水平的1/3。

如今它已不只是"全球最强开源模型"的称号持有者,更是重新定义了大模型性能评估的标准坐标系。

01

再继续说点干货,本次Qwen的发布包含MoE 和Dense 两种架构。

MoE:有30B(3B激活)和235B(22B激活)两种。Dense:包含0.6B、1.7B、4B、8B、14B 和32B 这六款。

模型的详细参数

旗舰模型是Qwen3-235B-A22B,后缀235B指的是模型大小2350亿参数,A22B指的是激活参数220亿。

如果你以为大模型的世界只有“参数越大越强”的套路,那Qwen3可能会让你重新认识什么叫“小而精”。

作为阿里巴巴通义千问系列的最新一代模型,Qwen3在性能、成本和灵活性上玩出了新花样,甚至可以用“降维打击”来形容它对前代模型的碾压,不是夸张,而是实打实的用数据说话。

先说说Qwen3为什么参数“瘦身”,反而更聪明。

Qwen3的旗舰版Qwen3-235B-A22B总参数高达2350亿,但激活参数仅需220亿。换句话说,它就像一个学霸,考试时只翻220页笔记就能完胜对手。相比之下,Qwen2.5-72B-Instruct这类前辈,可得靠“死记硬背”720亿参数才能勉强跟上节奏。

更绝的是,Qwen3的“小型号”也藏着玄机。比如Qwen3-4B这个迷你模型,居然能在代码生成、数学推理等任务中匹敌Qwen2.5-72B-Instruct的性能。

对比来看,Qwen3-4B VS Qwen2.5-72B-Instruct:参数量缩小18倍,性能不降反升。Qwen3-30B-A3B VS Qwen2.5-32B:激活参数仅为10%,但性能直接跨级超越。

这次Qwen3最被业内称道的是,引入了思考模式和非思考模式,类似人类的大脑高速切换状态。

思考模式,适合解决复杂问题,比如写论文、做数学题,模型会一步步推理,像考试时反复演算一样细致。非思考模式,用于简单任务,比如聊天、查天气,直接给出答案,省电又高效。

举个例子,如果你问Qwen3:请证明费马大定理。它会启动学霸模式,用长思维链逐步推导。但如果你问:今天北京天气如何?它会立刻切换成快问快答,省下你宝贵的等待时间。

在不同思考深度下,模型的得分情况

我们都知道,DeepSeek R1就是深度思考,关闭R1选项,它就用v3来给你回答。 但是Qwen3把这两个功能融为了一体,方便很多。

另一个亮点,是Agent能力的增强。

如今,Agent已经是大模型领域重点关注的能力之一,尤其是最近MCP模型上下文协议的引入,更是大大增强了Agent 的适用性和灵活性,拓宽了应用场景。

这次Qwen3模型的Agent和代码能力得到增强,包括加强了对MCP 的支持。我们可以看下面一个示例(提取QwenLM 库的markdown 内容,然后绘制显示项目stars 数量的条形图),展示了Qwen3 如何思考并与环境进行交互:

很多人可能更关心这个模型是怎么训出来的。

Qwen3模型训练数据体量较前代实现指数级增长,从Qwen2.5的18万亿token扩容至36万亿token,覆盖119种语言及方言体系。

数据采集采用多源融合策略:一方面通过全网爬取获取泛化文本,另一方面部

署Qwen2.5-VL视觉语言模型实现PDF文档的深度解析,同时结合Qwen2.5基础模型进行多轮数据精炼,确保信息质量。

针对数学与编程垂直领域,通义研发团队构建了专用数据生成管线。Qwen2.5-Math:生成复杂公式推导、几何证明等数学专项训练数据。Qwen2.5-Coder:产出代码注释、算法实现等编程领域合成语料。

通过这种领域自适应的数据增强策略,显著提升模型在专业场景的推理精度。

三阶段渐进式预训练

1.基础能力构建阶段
在30万亿token数据池上进行基础预训练,采用4K固定上下文窗口,重点培养模型的语言组织能力与常识推理基础。此阶段相当于构建认知底座,使模型掌握自然语言的底层表达规律。

2.专业能力深化阶段
新增5万亿token专项训练数据,聚焦STEM学科(科学/技术/工程/数学)与编程任务。通过高密度专业语料注入,实现复杂逻辑推演能力的跨越式提升,特别强化代码生成、科学计算等场景表现。

3.长程理解突破阶段
引入高质量长文本语料库,将上下文处理能力从4K扩展至32K,使模型具备处理学术长文、多轮技术对话等超长文本的能力。该阶段突破了传统模型的记忆限制,可完整理解万字量级的专业文档。

这种分层训练架构既保证了基础能力的广度,又通过专项强化实现了深度能力的突破,最终构建出兼具通用性与专业性的新一代语言大模型。

如果说Qwen2开源时还带着点“技术保留”,Qwen3则彻底放飞自我。2款MoE模型+6款Dense模型全部开源,连协议都换成Apache 2.0(商用随便薅!)。反观Llama3,至今还在“开源但不可商用”的扭捏状态。

02

斯坦福《2025人工智能指数报告》显示,通义千问有六款模型入选全球前三,技术贡献位列中国第一,全球第三,仅次于谷歌和OpenAI。

增加模型在海外的部署,也是大厂在AI方面的竞赛之一。开源模型成为技术出海的重要抓手,DeepSeek推出的MoE架构模型,通过动态路由技术将推理成本降至GPT-4的17%,吸引全球3.6万开发者参与优化。百度文心一言、阿里Qwen等模型也在GitHub开源基础版本,形成“开源获客+闭源变现”的双轨模式。

今天上午和一个做算力的资深业内人士聊,他说:“各大厂把模型做的越来越快,技术上没有本质上的变革,目的是在海外扩大自己的模型部署,不过就提升模型的能力方面,对大厂来说也是利好。”

他认为,阿里这一次发布8个模型,是因为算力在不断提升,大模型就像数学原理上的发展,数学原理发展的越好未必能直接带来效益,但能带来AI应用方面的增长,AI应用全部依赖于大模型的基础,没有大模型的发展,应用很难实现突破。

相较于Llama 4系列模型获得的社区反响,Qwen系列已凭借扎实的数据支撑确立其全球开源领域的领先地位。作为目前全球规模最大的开源模型体系,阿里通义已向公众开放200余个预训练模型,累计下载量突破3亿次(综合 Hugging Face、魔搭等社区数据)。

更值得关注的是,基于Qwen核心架构衍生的定制化模型已超过10万个,这一数字不仅超越了Llama系列,更标志着Qwen生态已成长为全球最活跃的开源模型矩阵。这种指数级增长,印证了中国开源大模型在技术创新与社区共建方面的双重突破。

自通义千问自2023年首次亮相以来,几乎以惊人的迭代速度和技术突破,从一款基础语言模型逐步成长为横跨多模态、全生态的AI平台。这一历程不仅展现了阿里巴巴在大模型领域的布局野心,也折射出国产人工智能技术在全球竞争中的崛起轨迹。

2023年4月,通义千问1.0作为阿里巴巴推出的首款超大规模语言模型,正式开启探索之路。该版本初步实现了中文、英文等多语言文本生成与对话交互能力,并通过阿里云峰会展开定向企业测试。

尽管此时其整体技术成熟度仍落后于国际头部模型(如GPT-3.5),但已在国内首批通用型大模型中占据先机,与百度文心一言、腾讯混元形成早期竞争格局。

同年10月31日发布的通义千问2.0标志着性能的飞跃。参数规模突破千亿级,复杂指令理解、文学创作与数学推理能力显著提升,并推出8大垂直领域子模型(如编程助手通义灵码、法律助手通义法睿)。

App端向个人用户开放后,其综合性能接近GPT-3.5,超越Meta Llama-2-70B,成为国内首个实现工具化链路的企业级大模型平台。

2024年4月至5月,Qwen1.5系列的开源策略进一步巩固了其行业地位。覆盖5亿至1100亿参数的全尺寸模型矩阵满足多样化部署需求,CodeQwen1.5-7B成为智能编码标杆,下载量超700万次。

2024年5月9日,通义千问2.5在多模态任务上实现质的突破。深度推理能力优化后,逻辑与数学题解答准确率大幅提升,旗舰模型Qwen-VL-Max性能超越Gemini Ultra和GPT-4V,成为多模态领域的标杆产品。同年8月30日,视觉语言模型Qwen2-VL-72B重新定义视频分析边界。

今年3月27日,Qwen2.5-Omni开创端到端全模态处理范式。文本、图像、音频、视频同步处理能力实现人机交互体验革新,实时语音合成与情绪识别功能适配智能家居、车载系统,轻量化设计支持手机端高效部署,对标OpenAI GPT-4o和Google Gemini 2.5 Pro,引领下一代交互体验。

直到这次发布Qwen3,正式成长为从初代通用模型到全球开源领袖,通义千问的演进轨迹映射出中国AI力量的成长路径。

你已经尝鲜Qwen3了吗,感觉怎么样,欢迎评论区交流。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
从武大硕士到商场导购:诬告学弟性骚扰的杨景媛,终于付出了代价

从武大硕士到商场导购:诬告学弟性骚扰的杨景媛,终于付出了代价

地理三体说
2026-04-25 22:06:06
李小冉与徐佳宁丁克真相,网友:不是选择丁克而是难以生育好吗?

李小冉与徐佳宁丁克真相,网友:不是选择丁克而是难以生育好吗?

小娱乐悠悠
2026-05-02 10:45:13
特朗普威胁:提高至25%关税!欧盟回应!比特币巨震,超8.7万人爆仓

特朗普威胁:提高至25%关税!欧盟回应!比特币巨震,超8.7万人爆仓

证券时报e公司
2026-05-02 22:35:31
21球,哲凯赖什升至阿森纳首秀赛季进球榜第八

21球,哲凯赖什升至阿森纳首秀赛季进球榜第八

懂球帝
2026-05-03 04:03:08
乌克兰通过法律程序,将“俄乌战争”,命名为“乌克兰独立战争”

乌克兰通过法律程序,将“俄乌战争”,命名为“乌克兰独立战争”

我心纵横天地间
2026-01-22 18:41:25
中国足球未来无望?孙继海:试训40人最终0人入围 可怕!太可怕了

中国足球未来无望?孙继海:试训40人最终0人入围 可怕!太可怕了

风过乡
2026-05-02 18:34:46
年度王炸,又一部影史票房冠军,诞生了!

年度王炸,又一部影史票房冠军,诞生了!

独立鱼
2026-05-02 21:20:29
李晨背刺邓超,被白鹿怒怼!

李晨背刺邓超,被白鹿怒怼!

八卦疯叔
2026-05-02 10:17:36
35岁下海经商,55岁娶孔东梅,69岁已是百亿富豪,长子成他的骄傲

35岁下海经商,55岁娶孔东梅,69岁已是百亿富豪,长子成他的骄傲

冷紫葉
2026-04-21 16:09:57
埃安新标一出,年轻人刷屏说“这logo我先囤个壁纸”

埃安新标一出,年轻人刷屏说“这logo我先囤个壁纸”

沙雕小琳琳
2026-05-01 02:13:24
1910年,孙中山原配和三个孩子合影,容貌憔悴,命运坎坷!

1910年,孙中山原配和三个孩子合影,容貌憔悴,命运坎坷!

史之铭
2026-04-19 17:44:23
劳务派遣在央国企杀疯了!

劳务派遣在央国企杀疯了!

灯锦年
2026-04-21 17:56:52
吃他汀不能碰燕麦?医生苦劝:不只是燕麦,这3物能不吃就不吃!

吃他汀不能碰燕麦?医生苦劝:不只是燕麦,这3物能不吃就不吃!

岐黄传人孙大夫
2026-05-03 09:00:07
希罗带娇妻度假,1.3亿合同要到期,场均20还是巨星,妻子是超模

希罗带娇妻度假,1.3亿合同要到期,场均20还是巨星,妻子是超模

大西体育
2026-05-02 20:10:51
21岁击败王菲的童颜巨乳富婆,巅峰期却选择主动过气

21岁击败王菲的童颜巨乳富婆,巅峰期却选择主动过气

悠悠说世界
2026-04-25 14:03:58
郑丽文曝访美行程,要争取美国“支持”?国台办:自家事自己解决

郑丽文曝访美行程,要争取美国“支持”?国台办:自家事自己解决

大光观察
2026-05-03 09:00:16
电商乱象:AB货已经猖獗到恐怖如斯!

电商乱象:AB货已经猖獗到恐怖如斯!

黯泉
2026-05-01 10:34:48
吃相越来越难看,终于引起公愤了!

吃相越来越难看,终于引起公愤了!

胖胖说他不胖
2026-04-23 09:00:33
原来他是王治郅儿子,身高超2米,在成都上大学,如今已放弃篮球

原来他是王治郅儿子,身高超2米,在成都上大学,如今已放弃篮球

阅微札记
2026-04-19 14:41:49
五一的莫氏鸡煲现场爆满:上午客人没吃完,下午客人又开始排队,还有人花80元买号

五一的莫氏鸡煲现场爆满:上午客人没吃完,下午客人又开始排队,还有人花80元买号

极目新闻
2026-05-01 18:33:42
2026-05-03 09:52:49
白鲸实验室one incentive-icons
白鲸实验室one
记录 AI改变世界的瞬间
132文章数 15关注度
往期回顾 全部

科技要闻

库克罕见"拒答"!苹果正被AI供应链卡脖子

头条要闻

父母正相互拍照6岁孩子坠崖 掉进离江面仅50公分夹缝

头条要闻

父母正相互拍照6岁孩子坠崖 掉进离江面仅50公分夹缝

体育要闻

休赛期总冠军,轮到休斯顿火箭

娱乐要闻

高圆圆赵又廷游三亚 牵手逛街好甜蜜

财经要闻

后巴菲特时代,首场股东会透露了啥

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

数码
健康
亲子
教育
时尚

数码要闻

苹果Mac mini最低配置调整为16GB+512GB,起售价上调至5999元

干细胞治烧烫伤面临这些“瓶颈”

亲子要闻

被困在阳台上的小婴儿

教育要闻

高考地理:分析黄土高原红土柱的形成过程

春天别总傻傻穿一身黑,看看这些日常穿搭,高级舒适又优雅

无障碍浏览 进入关怀版