网易首页 > 网易号 > 正文 申请入驻

通义千问Qwen3系列最新大模型发布,记者实测:数学能力更出色

0
分享至

4月29日凌晨,阿里巴巴正式发布通义千问Qwen3系列模型,这一包含2个混合专家(MoE)模型与6个稠密模型的开源大模型家族,以突破性的架构设计、36万亿 token 的训练数据规模及多模态能力,吸引了一大拨开发者的关注。记者实测发现,Qwen3不仅在数学推理、代码生成等硬核领域表现惊艳,其 “思考模式” 与 “非思考模式” 的灵活切换,更能提升复杂任务的处理效率。

据官方技术文档显示,Qwen3系列模型采用混合专家架构与统一多模态编码体系。旗舰模型Qwen3-235B-A22B具备2350亿总参数量,通过MoE动态路由机制,实际激活参数仅220亿,显存占用仅为同性能模型的三分之一。

同时,Qwen3在多模态能力上,首次实现文本、图像、音频、视频的统一处理。例如,记者测试发现,当输入一张包含数学公式的图表时,模型不仅能精准解析公式含义,还能结合上下文推导出解题步骤。这种能力在教育、科研等领域具有广阔应用前景,可辅助论文写作、实验数据分析等场景。

目前,Qwen3已在Hugging Face、ModelScope等平台上线,GitHub星标数突破18.5k。

4月29日,记者实际体验了一下Qwen3模型,整体测试效果令人满意。

首先,在逆文本生成基准测试中,记者要求模型将“YZWB is testing Qwen3-235B-A22B” 这句话逐词反转。Qwen3-235B-A22B在非思考模式下仅用0.3秒输出“B22A-B532-n3newQ gnitset si BWZY”。

其次,记者实测发现Qwen3在数学能力表现相比之前更出色了,模型现在可以同时提供多种解题思路,输出结果也比较准确,展现了其强大的推理能力。而对此前网友向AI提出的“7米长的甘蔗如何通过2米高、1米宽的门”这一经典难题,Qwen3通过三维空间建模推导出“倾斜甘蔗使其对角线长度小于门的对角线(√(2²+1²)≈2.24米)”的方案。

最后,根据最新LiveCodeBench v5评测,Qwen3-235B-A22B以70.7分超越OpenAI Grok-3,记者实测其代码生成能力同样惊人。当要求模型“用 Python 编写一个实时监控服务器日志并发送异常报警的脚本” 时,模型在思考模式下输出了包含日志解析、阈值检测、邮件报警等模块的完整代码,并自动添加了错误处理和配置文件读取功能。

尽管Qwen3在众多基准测试中表现优异,然而记者实测发现Qwen3在处理复杂推理任务及稀疏知识域时仍存在显著局限——即"幻觉生成"现象。例如,记者在测试Qwen3的中文写作能力时,虽然能直观的感到模型对于文字的处理更加细腻、流畅,但生成的文本存在严重的逻辑断层与场景跳跃失控现象,呈现出拼贴画式的叙事结构。这种现象暴露出模型在处理低频知识域或进行多阶推理时,容易将训练数据中的碎片化知识进行错误关联重组,生成看似合理却违背现实的回答,这也是众多大语言模型在认知边界突破过程中面临的共性挑战。

校对 盛媛媛

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
去医院开药,医生说“这个不报销”,你可以反问一句话!

去医院开药,医生说“这个不报销”,你可以反问一句话!

小谈食刻美食
2026-06-02 07:24:18
9年亡命作恶108起、残杀13人、施暴99人!1962-2002云贵悍匪始末

9年亡命作恶108起、残杀13人、施暴99人!1962-2002云贵悍匪始末

墨策史
2026-05-31 00:40:08
美若天仙王楚然:肤白貌美,婀娜多姿。倾国倾城,美不胜收!

美若天仙王楚然:肤白貌美,婀娜多姿。倾国倾城,美不胜收!

十为先生
2026-05-09 15:19:03
提前剧透?CBA总决赛G4还未开赛,维基百科已显示上海夺冠

提前剧透?CBA总决赛G4还未开赛,维基百科已显示上海夺冠

懂球帝
2026-06-02 12:06:24
挂断特朗普电话后,沙特王储放下狠话:我们永远不会当美国的筹码

挂断特朗普电话后,沙特王储放下狠话:我们永远不会当美国的筹码

牛锅巴小钒
2026-06-02 13:46:09
与恩师穆里尼奥重聚皇马?德布劳内吐槽孔蒂,映射阿囧足球也乏味

与恩师穆里尼奥重聚皇马?德布劳内吐槽孔蒂,映射阿囧足球也乏味

穆里尼奥主义者
2026-06-01 21:21:25
币安上线8000只美股交易 稳定币直接买零佣金

币安上线8000只美股交易 稳定币直接买零佣金

全栈遛狗员
2026-06-01 18:39:23
688079,3分钟20%涨停!

688079,3分钟20%涨停!

证券时报
2026-06-02 11:03:01
CBA第一小外援要走?广东有望抢下“得分机器”,保底能进总决赛

CBA第一小外援要走?广东有望抢下“得分机器”,保底能进总决赛

绯雨儿
2026-06-02 10:07:47
牺牲太大!神十六返回,航天员出舱后为何脸部浮肿,被抬着走?

牺牲太大!神十六返回,航天员出舱后为何脸部浮肿,被抬着走?

大运河时空
2026-04-22 08:50:03
不能二次加热的6种食物!医生提醒:吃不完或倒掉,别乱节俭

不能二次加热的6种食物!医生提醒:吃不完或倒掉,别乱节俭

冷眼看世界728
2026-05-12 20:46:26
记一次“约炮”被骗的详细经过

记一次“约炮”被骗的详细经过

云上南安
2026-04-06 17:11:46
从14万到5.5万,蒸发2500万:广州天河顶豪,戳破了豪宅的旧神话

从14万到5.5万,蒸发2500万:广州天河顶豪,戳破了豪宅的旧神话

地产一品塘
2026-06-02 08:00:16
不听大陆劝告执意访美,郑丽文人未启程,就遭美方公开敲打!

不听大陆劝告执意访美,郑丽文人未启程,就遭美方公开敲打!

坠入二次元的海洋
2026-06-01 21:27:00
为什么去过朝鲜回来就沉默的人,不是隐瞒,是真的说不出

为什么去过朝鲜回来就沉默的人,不是隐瞒,是真的说不出

老特有话说
2026-05-12 15:41:08
钱再多有什么用?杜淳老婆自曝切了一片肺,给所有人狠狠上了一课

钱再多有什么用?杜淳老婆自曝切了一片肺,给所有人狠狠上了一课

聊历史的阿稼
2026-06-02 12:17:50
禁投美股,难得全球大国中惟一正确

禁投美股,难得全球大国中惟一正确

家传编辑部
2026-05-30 12:24:47
摧毁一架特别大飞机,击俄无线电中心!俄罗斯被打得柴油产量锐减

摧毁一架特别大飞机,击俄无线电中心!俄罗斯被打得柴油产量锐减

鹰眼Defence
2026-05-31 16:53:51
总决赛情报员!索汉支招尼克斯防守前队友文班:他很容易体能透支

总决赛情报员!索汉支招尼克斯防守前队友文班:他很容易体能透支

罗说NBA
2026-06-02 07:10:43
轮到以色列被炸!内塔的最大麻烦曝光,不是伊朗不是特朗普,是谁

轮到以色列被炸!内塔的最大麻烦曝光,不是伊朗不是特朗普,是谁

离离言几许
2026-06-02 13:49:38
2026-06-02 15:11:00
扬子晚报 incentive-icons
扬子晚报
《扬子晚报》为江苏省级报刊
42579文章数 58438关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

上海女童几乎没上过学 外公找来前女婿把女儿告上法庭

头条要闻

上海女童几乎没上过学 外公找来前女婿把女儿告上法庭

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君婚礼曝光 深情热吻甜蜜

财经要闻

锂电“资源墙”高筑 全球性长期博弈开始

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

亲子
家居
房产
健康
手机

亲子要闻

网友:花开富贵,快来宝宝被做局了

家居要闻

流线型轮廓 包容多元身形

房产要闻

100亿!1371亩!海口城市更新,再爆超级项目!

干细胞临床研究向患者收费?别踩坑

手机要闻

苹果 WWDC 2026 现场将特别放映《曼达洛人和古古》

无障碍浏览 进入关怀版