网易首页 > 网易号 > 正文 申请入驻

阿里发布最新万亿参数大模型 Qwen3-Max

0
分享至

刚刚,阿里发布最新的1万亿参数大模型Qwen3-Max ,这是基于Qwen3-235B-A22B-2507系列发布的最新版本。

与 253B 版本相比,在推理能力、指令遵循、多语言支持和长尾知识覆盖方面有重大改进:

1) 数学、编程、逻辑和科学任务中有更高准确率;

2) 更强的指令遵循能力 & 减少幻觉现象 ,并为开放式问答、写作和对话生成更高质量的回复;

3) 支持超过 100 种语言,具有更强的翻译和常识推理能力;

4)针对检索增强生成(RAG)+ 工具调用优化(无“思考”模式);

具体看测评,在这份Qwen3-Max、Qwen3235B-A22B、Kimi K2、Claude Opus 4 Nonthinking、Deepseek-V3.1参与的榜单中(图二),

通义千问Qwen3-Max-Instruct-Preview在五大基准测试,成为当前综合成绩最强的AI大模型。

测评涵盖五大核心能力维度:

SuperGPQA(科学与逻辑推理)
AIME25(高阶数学解题)
LiveCodeBench v6(编程实战能力)
Arena-Hard v2(多领域高难挑战)
LiveBench(实时综合表现)

参评模型简评:

Qwen3-Max各项都达到了SOTA

在AIME25美国数学邀请赛模拟题中获80.6分,超第二名10分以上;
Arena-Hard v2高难挑战赛中以86.1分登顶,表现出复杂问题拆解能力;
LiveBench实时综合体育以79.5分获得榜首;

Qwen3235B在实例任务中紧随其后,尤其在编程(LiveCodeBench)与综合能力(LiveBench)中表现尚可,是企业级部署之选。

️Kimi K2在LiveBench中以76.4分逼近榜首,表现出实时响应与多轮交互能力,但在数学领域仍有提升空间。(不确定是不是0905版本)

⚖️Anthropic的Claude Opus 4表现稳定,尤其在代码生成(LiveCodeBench)中位列前三,适合通用型任务场景,无明显短板。 (不怕你断供了)

⚠️Deepseek-V3.1暂居末位虽然在部分任务中表现尚可。

Qwen3-Max有没有一贯的过载现象,后续实测将给出答案。









特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
连体裙:一副移动的建筑

连体裙:一副移动的建筑

疾跑的小蜗牛
2026-01-14 21:45:17
北京渔民捞出一辆沉入湖底5年的车,里面竟然坐着一个红衣女人

北京渔民捞出一辆沉入湖底5年的车,里面竟然坐着一个红衣女人

元宝世界观
2024-01-29 21:31:22
七分刘亦菲!清新脱俗的美,宛如人间仙子

七分刘亦菲!清新脱俗的美,宛如人间仙子

素然追光
2026-01-06 01:22:32
172cm九头身女神小坂七香:出道即巅峰却想退圈?这剧情太魔幻!

172cm九头身女神小坂七香:出道即巅峰却想退圈?这剧情太魔幻!

素然追光
2026-01-01 01:30:05
叶剑英请喝酒,秘书劝王洪文不要去,王无奈道:只有他认我

叶剑英请喝酒,秘书劝王洪文不要去,王无奈道:只有他认我

寻史者也
2024-11-04 23:44:47
大量网友相信强力磁铁可让燃气表变慢,专家:窃气严重可刑事处罚

大量网友相信强力磁铁可让燃气表变慢,专家:窃气严重可刑事处罚

映射生活的身影
2025-12-20 03:39:27
朱媛媛去世不到一年,52岁辛柏青高调官宣喜讯,恶心的一幕出现

朱媛媛去世不到一年,52岁辛柏青高调官宣喜讯,恶心的一幕出现

好贤观史记
2026-01-14 18:04:08
香蕉2天不到就发黑,教你1招,半个月不变色,买再多也不怕,超实用

香蕉2天不到就发黑,教你1招,半个月不变色,买再多也不怕,超实用

美食格物
2026-01-14 07:37:11
我把新版Claude Code的上手门槛降到小学二年级,有豆包就行

我把新版Claude Code的上手门槛降到小学二年级,有豆包就行

卡尔的AI沃茨
2026-01-14 09:53:38
江西丰城杀猪饭翻车了,场面失控掀桌子,都在抢吃的,丢家乡脸

江西丰城杀猪饭翻车了,场面失控掀桌子,都在抢吃的,丢家乡脸

鋭娱之乐
2026-01-14 22:46:00
一路走好!不到72小时,3位名人去世,最大95岁,最小仅17

一路走好!不到72小时,3位名人去世,最大95岁,最小仅17

巧手晓厨娘
2026-01-14 16:01:16
德国突然宣布:向格陵兰岛派兵,特朗普吞并计划遭欧洲5国围攻

德国突然宣布:向格陵兰岛派兵,特朗普吞并计划遭欧洲5国围攻

咸鱼金脑袋
2026-01-14 23:42:52
医生研究发现:糖尿病人过了65岁,基本都有这4现状,要坦然接受

医生研究发现:糖尿病人过了65岁,基本都有这4现状,要坦然接受

九哥聊军事
2026-01-06 21:38:17
因围标串标,长春建功医院被暂停军采资格

因围标串标,长春建功医院被暂停军采资格

齐鲁壹点
2026-01-14 16:41:34
突然发现一个可怕的现实:很多家长正在指望,让一群从未离开过学校的人,教自己孩子如何生存

突然发现一个可怕的现实:很多家长正在指望,让一群从未离开过学校的人,教自己孩子如何生存

行者马生的笔记
2026-01-05 22:17:29
记者:引进本托失败后,热那亚希望能签下曼城门将奥尔特加

记者:引进本托失败后,热那亚希望能签下曼城门将奥尔特加

懂球帝
2026-01-15 00:27:09
到底什么叫洗钱?网友"完美闭环"式回答,感觉错过了一个亿

到底什么叫洗钱?网友"完美闭环"式回答,感觉错过了一个亿

另子维爱读史
2026-01-09 22:18:04
大反转!闫学晶道歉后反遭多位大V举报:学历还没查清,收入与纳税又存疑,这次恐坐牢

大反转!闫学晶道歉后反遭多位大V举报:学历还没查清,收入与纳税又存疑,这次恐坐牢

文字里拾光
2026-01-15 00:22:05
从高处跌落的硅胶脸夫人:被拘4个月瘦到80斤,头发花白眼神惊恐

从高处跌落的硅胶脸夫人:被拘4个月瘦到80斤,头发花白眼神惊恐

照见古今
2025-12-12 18:19:05
麦当劳缩水实锤?网友爆料供应商早换了,评论区一言难尽,为啥

麦当劳缩水实锤?网友爆料供应商早换了,评论区一言难尽,为啥

你食不食油饼
2026-01-11 08:41:12
2026-01-15 02:15:00
鲸选AI incentive-icons
鲸选AI
最新AI产品化与商业化案例速递
127文章数 28关注度
往期回顾 全部

科技要闻

携程因涉嫌垄断被市场监管总局调查

头条要闻

外媒揭美对伊朗动手方案:派特种部队对高层实施"斩首"

头条要闻

外媒揭美对伊朗动手方案:派特种部队对高层实施"斩首"

体育要闻

你是个好球员,我们就拿你交易吧

娱乐要闻

网红彭十六偷税被封杀 曾成功转型明星

财经要闻

携程被立案调查,最高或被罚超50亿

汽车要闻

曝Model Y或降到20万以内!

态度原创

亲子
本地
房产
艺术
公开课

亲子要闻

笑麻了!宝妈求教给娃买衣服不便宜,穿起来土里土气!评论区炸锅

本地新闻

邵阳公益诉讼检察主题曲:《守望星》

房产要闻

热销17亿后!天正·三亚湾壹号,被爆违建!

艺术要闻

与光同行的温柔诗意:沉浸于威廉·A·施耐德的人像油画世界

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版