网易首页 > 网易号 > 正文 申请入驻

AIME'25满分炸场!Qwen一波七连发,全家桶大更新

0
分享至

金磊 发自 凹非寺
量子位 | 公众号 QbitAI

它来了,它来了!

新一代旗舰模型Qwen3-Max带着满分成绩,正式地来了——

国产大模型首次在AIME25和HMMT这两个数学评测榜单拿下100分!

和前不久Qwen3-Max-Preview一致,参数量依旧是超万亿的规模。

但这次正式的发布在版本上有了一个划分:

  • 指令版(Instruct)
  • 思考版(Thinking)

而且Qwen3-Max在性能上也有了一定的提升(情商智商,双商增强)。

刚才我们提到的数学满分,正是思考版所拿下的成绩。

至于指令版,则是在SWE-Bench评测(大模型用coding解决真实世界问题)中斩获69.6分,位列全球第一梯队。

以及在Tau2 Bench测试(考察Agent工具调用能力)中,超过Claude Opus4和DeepSeek V3.1,拿下74.8分的成绩。

强,确实是有点强。

但有一说一,如果说Qwen3-Max是一把“火”,那么在刚刚的云栖大会上,通义团队还散出了很多的“星”。

视觉:Qwen3-VL重磅开源

从Qwen3-Max散出来的第一个“星”,就是视觉理解模型Qwen3-VL

其实它在今天凌晨的时候已经开源,属于“微鲜”出炉,但确实是大家比较期待的那一个。

具体而言,这次的型号叫做Qwen3-VL-235B-A22B,同样分为指令版推理版

其中,指令版本在多项主流视觉感知评测中,性能达到甚至超过Gemini 2.5 Pro;而推理版本则是在众多多模态推理的评测基准下取得了SOTA的表现。

除此之外,Qwen3-VL-235B-A22B指令版还支持在带图推理,并且在四项基准测试中的成绩均有所提升。

网友在看到成绩之后,甚至直呼:

  • Qwen3-VL真是个怪物(太强了)。

实际测试效果现在也已经放出来了。

例如把一张手绘的网页“喂”给Qwen3-VL,它就能唰唰唰地给出HTML和CSS:

再如给它下面这张图:

并让Qwen3-VL完成如下任务:

  • 找出属于以下类别的所有实例:“头部、手部、男性、女性、眼镜”。请以JSON格式报告边界框坐标。

更复杂的视频理解,Qwen3-VL也是不在话下:

更多案例可以通过下面的视频了解一下:

视频地址:https://mp.weixin.qq.com/s/nkNXwpDxxvFVleQ3yB-g5w

从技术层面来看,Qwen3-VL还是采用了原生动态分辨率设计,但在结构设计上进行了更新

一是采用MRoPE-Interleave。原始MRoPE按时间 (t)、高度 (h)、宽度 (w) 顺序划分,使时间信息集中在高频维度。Qwen3-VL改为t、h、w交错分布,实现全频覆盖,提升对长视频的理解,同时保持图像理解能力。

二是引入DeepStack,融合ViT多层特征,增强视觉细节捕捉和图文对齐。

团队将视觉tokens的单层注入扩展为LLM多层注入,并优化特征token化:对ViT不同层输出分别token化并输入模型,从而保留从低层到高层的多层次视觉信息。实验表明,该设计显著提升了多种视觉理解任务的表现。

三是将视频时序建模由T-RoPE升级为 文本时间戳对齐机制。通过“时间戳-视频帧”交错输入,实现帧级时间与视觉内容的精细对齐,并原生支持“秒数”和“HMS”两种输出。如此一来,便改进提升了模型在事件定位、动作边界检测、跨模态时间问答等复杂时序任务中的语义感知与时间精度。

全模态:Qwen3-Omni开源

Qwen3-Omni虽然是昨天凌晨已经开源,但在这次云栖大会中也是一同亮相,主打的就是一个全模态

它是首个原生端到端全模态人工智能模型,在一个模型中统一了文本、图像、音频和视频,并且在22个音视频基准测试中达到了SOTA的水平。

目前已经开源的版本包括:

  • Qwen3-Omni-30B-A3B-Instruct
  • Qwen3-Omni-30B-A3B-Thinking
  • Qwen3-Omni-30B-A3B-Captioner

不过基于Qwen3-Omni还衍生出了更多好玩且强悍的细分大模型。

例如今天发布的Qwen3-LiveTranslate就是其中一个——视、听、说全模态同传大模型!

目前,它已经实现了覆盖18种语言的离线和实时两种音视频翻译能力。

从公开测试的成绩来看,Qwen3-LiveTranslate-Flash的准确率已经超过了Gemini-2.5-Flash、GPT-4o-Audio-Preview等:

即便是在环境嘈杂的地方,Qwen3-LiveTranslate-Flash依旧是能hold得住:

至于具体效果,来感受一下具体实操的效果:

视频地址:https://mp.weixin.qq.com/s/nkNXwpDxxvFVleQ3yB-g5w

  • 英文原文:What is mask? This is mask. This is mask. This is mask. This is Musk.
  • 视觉增强前:什么是口罩?这是口罩,这是口罩,这是口罩,这是口罩。
  • 视觉增强后:什么是口罩?这是面膜,这是口罩,这是面具,这是马斯克。

网友看罢,也是有亿点点震惊在身上的:

  • 我都觉得有点恐怖了。

除了翻译之外,Qwen版Banana——Qwen3-Image-Edit的新版本,也是非常有趣的一个模型。

不仅支持多图融合,提供“人物+人物”,“人物+商品”,“人物+场景” 等多种玩法,还增强了人物、商品、文字等单图一致性。

而且它还原生支持ControlNet,可通过关键点图改变人物姿势,还可轻松实现换装需求。

编程:Qwen3-Coder升级

新升级的Qwen3-Coder-Plus玩了一套“组合拳”:Qwen Code、Claude Code系统联合训练。

如此打法之下,它的性能效果得到了显著的提升;可以看到相较于之前的版本,在各项基准测试中的分数都有所增长:

与此同时,与之相关的编程产品Qwen Code也有了升级动作,增加了对多模态模型和sub-agent的支持。

换言之,你现在用Qwen Code的时候,可以输入图像了:

然后已经有网友开始在实测了,Qwen3-Coder-Plus打造的一座3D宝塔效果是这样的:

Qwen的终点,不只是开源

最后,总结一下这次云栖大会中的亮点。

首先就是从前天至今,阿里通义千问已经陆陆续续发布、开源大大小小近十款模型,已经是让国内外业界人士对阿里云的开源速度叹为观止。

但有一说一,在听完阿里云智能集团董事长兼CEO吴泳铭的演讲之后,我们发现,通义千问要做的事情,远不止于此。

因为吴泳铭表示,实现AGI已然是确定性事件,但这还仅是起点,终极目标是发展出能自我迭代、全面超越人类的超级人工智能(ASI)。

而要实现ASI,则需要以互联网为起点,经历四个阶段:

第一阶段是智能涌现(学习人)、其次是自主行动(辅助人)、接下来是自我迭代(超越人),最后就是超级人工智能(ASI)。

除此之外,吴泳铭还非常有远见地认为:

  • 大模型将是下一代操作系统,自然语言是以后的源代码,AI Cloud是下一代计算机。
  • 未来全世界或只会有5-6个超级云计算平台。

但需要明确的一点是,AI越强,人类越强。

One More Thing

哦对了,通义千问那个新一代基础模型架构——Qwen3-Next,今天也正式发布了!

它的模型总参数量大约是80B,但实际上,仅仅在激活3B的情况下,它的性能就可以跟Qwen3-235B媲美。

计算效率,可以说是直接Pro Max了~

而且与密集模型Qwen3-32B相比,它的训练成本降低了超90%,长文本推理吞吐量提升超过10倍。

不得不说,未来大模型的训练和推理效率,要变得更加有意思了。

参考链接:
https://qwen.ai/research

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
黎真主党导弹袭击以国防部及军营

黎真主党导弹袭击以国防部及军营

北青网-北京青年报
2026-03-26 10:19:17
人民日报转发,三大巧合坐实“遗言”,猝死前说的话全应验了!

人民日报转发,三大巧合坐实“遗言”,猝死前说的话全应验了!

奇思妙想草叶君
2026-03-25 12:40:13
可能出大事了,四名军工系统院士被除名,释放的信号让人不敢细想

可能出大事了,四名军工系统院士被除名,释放的信号让人不敢细想

张嘴说财经
2026-03-25 23:07:05
4月1日医保7号令落地!1965-1985年出生的,这6件事务必抓紧办

4月1日医保7号令落地!1965-1985年出生的,这6件事务必抓紧办

混沌录
2026-03-25 15:50:11
俄罗斯警告日本!俄输油重港接连遭攻击,“现场浓烟滚滚”;俄乌战场惊现持枪机器人:身高180cm,可AI评估战场并侦察射击

俄罗斯警告日本!俄输油重港接连遭攻击,“现场浓烟滚滚”;俄乌战场惊现持枪机器人:身高180cm,可AI评估战场并侦察射击

每日经济新闻
2026-03-26 15:53:05
张少康辞去广东省人民政府副省长职务

张少康辞去广东省人民政府副省长职务

新快报新闻
2026-03-26 11:50:03
引而不发才是王道,封锁霍尔木兹海峡,伊朗打完了最后一张牌……

引而不发才是王道,封锁霍尔木兹海峡,伊朗打完了最后一张牌……

家传编辑部
2026-03-26 10:34:27
和富商离婚后,上海知名主持沦为网红,如今8岁儿子成她唯一依靠

和富商离婚后,上海知名主持沦为网红,如今8岁儿子成她唯一依靠

往史过眼云烟
2026-03-25 14:51:15
太扎心!辽宁一中年男子小便怒斥妻子举布遮挡稍高,就撒手人寰了

太扎心!辽宁一中年男子小便怒斥妻子举布遮挡稍高,就撒手人寰了

火山詩话
2026-03-26 06:16:11
伊朗或开辟新战线!伊朗外长:霍尔木兹海峡只对敌人关闭,中国、俄罗斯、巴基斯坦、伊拉克、印度、孟加拉国等国船只都安全通过了

伊朗或开辟新战线!伊朗外长:霍尔木兹海峡只对敌人关闭,中国、俄罗斯、巴基斯坦、伊拉克、印度、孟加拉国等国船只都安全通过了

每日经济新闻
2026-03-26 09:53:07
新加坡站队了?正式向世界宣布:中方若继续挑衅日本,会让他好看

新加坡站队了?正式向世界宣布:中方若继续挑衅日本,会让他好看

小影的娱乐
2026-03-26 13:45:58
哪吒汽车破产覆灭,最讽刺的不是200亿债务,而是这个名字本身

哪吒汽车破产覆灭,最讽刺的不是200亿债务,而是这个名字本身

蜉蝣说
2026-03-25 10:54:58
张雪峰被骂8年,走后全网才发现:他说的5句话是给普通人的保命符

张雪峰被骂8年,走后全网才发现:他说的5句话是给普通人的保命符

奇思妙想草叶君
2026-03-25 13:22:05
这就是徐志摩爱而不得的林徽因中年时的真实长相,大家看看吧!

这就是徐志摩爱而不得的林徽因中年时的真实长相,大家看看吧!

小椰的奶奶
2026-03-26 09:50:43
郭正亮直播突发脸歪嘴斜,连夜就医引全网担忧:别像张雪峰那样拼

郭正亮直播突发脸歪嘴斜,连夜就医引全网担忧:别像张雪峰那样拼

行者聊官
2026-03-26 11:56:25
新华社消息|伊朗官员:美以袭击已造成伊朗至少1750人死亡

新华社消息|伊朗官员:美以袭击已造成伊朗至少1750人死亡

新华社
2026-03-26 10:06:18
中国电信:全面转向token经营!

中国电信:全面转向token经营!

最通信
2026-03-25 20:45:14
特朗普,开始甩锅

特朗普,开始甩锅

中国基金报
2026-03-26 07:57:39
张雪峰助理万霞:十年相伴,生死相隔最痛的人!

张雪峰助理万霞:十年相伴,生死相隔最痛的人!

天光破云来
2026-03-26 11:55:41
冒充“中国船”闯过伊朗封锁线!日本货轮全速突围,安全抵达澳洲

冒充“中国船”闯过伊朗封锁线!日本货轮全速突围,安全抵达澳洲

澳洲红领巾
2026-03-26 12:22:58
2026-03-26 16:43:00
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

数码
艺术
旅游
教育
家居

数码要闻

1599~2499元,英特尔酷睿Ultra 200S Plus处理器发售

艺术要闻

哪一座桥不是风景?

旅游要闻

德阳绵竹:赏花、览文旅精品......沿山旅游“火”起来

教育要闻

2026湖北高职单招工作启动

家居要闻

傍海而居 静观蝴蝶海

无障碍浏览 进入关怀版