网易首页 > 网易号 > 正文 申请入驻

通义千问Qwen3系列最新大模型发布,记者实测:数学能力更出色

0
分享至

4月29日凌晨,阿里巴巴正式发布通义千问Qwen3系列模型,这一包含2个混合专家(MoE)模型与6个稠密模型的开源大模型家族,以突破性的架构设计、36万亿 token 的训练数据规模及多模态能力,吸引了一大拨开发者的关注。记者实测发现,Qwen3不仅在数学推理、代码生成等硬核领域表现惊艳,其 “思考模式” 与 “非思考模式” 的灵活切换,更能提升复杂任务的处理效率。

据官方技术文档显示,Qwen3系列模型采用混合专家架构与统一多模态编码体系。旗舰模型Qwen3-235B-A22B具备2350亿总参数量,通过MoE动态路由机制,实际激活参数仅220亿,显存占用仅为同性能模型的三分之一。

同时,Qwen3在多模态能力上,首次实现文本、图像、音频、视频的统一处理。例如,记者测试发现,当输入一张包含数学公式的图表时,模型不仅能精准解析公式含义,还能结合上下文推导出解题步骤。这种能力在教育、科研等领域具有广阔应用前景,可辅助论文写作、实验数据分析等场景。

目前,Qwen3已在Hugging Face、ModelScope等平台上线,GitHub星标数突破18.5k。

4月29日,记者实际体验了一下Qwen3模型,整体测试效果令人满意。

首先,在逆文本生成基准测试中,记者要求模型将“YZWB is testing Qwen3-235B-A22B” 这句话逐词反转。Qwen3-235B-A22B在非思考模式下仅用0.3秒输出“B22A-B532-n3newQ gnitset si BWZY”。

其次,记者实测发现Qwen3在数学能力表现相比之前更出色了,模型现在可以同时提供多种解题思路,输出结果也比较准确,展现了其强大的推理能力。而对此前网友向AI提出的“7米长的甘蔗如何通过2米高、1米宽的门”这一经典难题,Qwen3通过三维空间建模推导出“倾斜甘蔗使其对角线长度小于门的对角线(√(2²+1²)≈2.24米)”的方案。

最后,根据最新LiveCodeBench v5评测,Qwen3-235B-A22B以70.7分超越OpenAI Grok-3,记者实测其代码生成能力同样惊人。当要求模型“用 Python 编写一个实时监控服务器日志并发送异常报警的脚本” 时,模型在思考模式下输出了包含日志解析、阈值检测、邮件报警等模块的完整代码,并自动添加了错误处理和配置文件读取功能。

尽管Qwen3在众多基准测试中表现优异,然而记者实测发现Qwen3在处理复杂推理任务及稀疏知识域时仍存在显著局限——即"幻觉生成"现象。例如,记者在测试Qwen3的中文写作能力时,虽然能直观的感到模型对于文字的处理更加细腻、流畅,但生成的文本存在严重的逻辑断层与场景跳跃失控现象,呈现出拼贴画式的叙事结构。这种现象暴露出模型在处理低频知识域或进行多阶推理时,容易将训练数据中的碎片化知识进行错误关联重组,生成看似合理却违背现实的回答,这也是众多大语言模型在认知边界突破过程中面临的共性挑战。

校对 盛媛媛

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
李在明一声令下,韩国划黄海禁区,不到48小时,中方回敬三句话

李在明一声令下,韩国划黄海禁区,不到48小时,中方回敬三句话

云上乌托邦
2026-06-28 23:30:37
人到中年,女人最吃的从来不是甜言蜜语,是走心的偏爱

人到中年,女人最吃的从来不是甜言蜜语,是走心的偏爱

青苹果sht
2026-05-20 05:30:11
朱可夫晚年吐露实情:德军撤出莫斯科当晚,斯大林发布了一道密令

朱可夫晚年吐露实情:德军撤出莫斯科当晚,斯大林发布了一道密令

磊子讲史
2026-05-28 19:30:16
CBA:曝山东高速重点拿下王岚嵚,三方太难,贺希宁彻底泡汤!

CBA:曝山东高速重点拿下王岚嵚,三方太难,贺希宁彻底泡汤!

体坛侃排球
2026-06-29 00:40:07
13岁西北妹巴黎时装周再狂野!唇环鼻钉全副武装,真穿孔还是假叛逆引爆争议

13岁西北妹巴黎时装周再狂野!唇环鼻钉全副武装,真穿孔还是假叛逆引爆争议

热搜摘要官
2026-06-29 00:49:45
603637,控制权拟转让!新材料巨头实控人或入主

603637,控制权拟转让!新材料巨头实控人或入主

证券时报e公司
2026-06-28 21:44:58
热点|梅西遥遥领先金靴赔率榜,法国队还是夺冠最大热门

热点|梅西遥遥领先金靴赔率榜,法国队还是夺冠最大热门

北青网-北京青年报
2026-06-28 15:28:02
3-3,奥地利绝平阿尔及利亚,双方携手晋级世界杯淘汰赛

3-3,奥地利绝平阿尔及利亚,双方携手晋级世界杯淘汰赛

侧身凌空斩
2026-06-28 12:00:22
高考公平需要延伸到志愿填报这一环

高考公平需要延伸到志愿填报这一环

南方都市报
2026-06-29 01:00:32
泽连斯基要把列宁旧址换人:立起被俄骂了300年的乌克兰名将

泽连斯基要把列宁旧址换人:立起被俄骂了300年的乌克兰名将

桂系007
2026-06-28 23:58:17
辽宁男篮动态速递!赵继伟返回沈阳备战,付豪向球队提出离队申请,张陈治锋特训结束即将归队

辽宁男篮动态速递!赵继伟返回沈阳备战,付豪向球队提出离队申请,张陈治锋特训结束即将归队

凯丰侃球
2026-06-29 00:05:16
官宣,杨瀚森打完日本后,将赴开拓者出战夏联,迎NBA新帅大考!

官宣,杨瀚森打完日本后,将赴开拓者出战夏联,迎NBA新帅大考!

体坛侃排球
2026-06-28 05:00:06
26年“下岗潮”来了?三大行业即将面临失业风险,早知道早准备

26年“下岗潮”来了?三大行业即将面临失业风险,早知道早准备

星娱叨叨社
2026-06-27 15:01:24
新婚两月遭家暴瘫痪失明,婆家转移全部财产,母亲:11年判的太轻

新婚两月遭家暴瘫痪失明,婆家转移全部财产,母亲:11年判的太轻

易玄
2026-06-26 20:12:30
乌拉圭媒体怒批主帅贝尔萨:浪费几百万美元;史上最大失败

乌拉圭媒体怒批主帅贝尔萨:浪费几百万美元;史上最大失败

林子说事
2026-06-28 09:17:07
美国打伊朗不仅没把中国拖下水,反而让中东加速倒向中国

美国打伊朗不仅没把中国拖下水,反而让中东加速倒向中国

离离言几许
2026-06-29 00:31:21
南非VS加拿大:两队实力接近,有望上演防守大战

南非VS加拿大:两队实力接近,有望上演防守大战

体育吐槽
2026-06-28 16:37:51
暗黑心理学:一个男人可以花钱去嫖一个长期卖淫的女人,却始终不肯原谅出轨悔罪回家的老婆。这是怎么回事呢?

暗黑心理学:一个男人可以花钱去嫖一个长期卖淫的女人,却始终不肯原谅出轨悔罪回家的老婆。这是怎么回事呢?

心理观察局
2026-06-17 06:38:26
他杀人奸尸切割器官,十余女性遭劫,最小者仅八岁,廿八年才落网

他杀人奸尸切割器官,十余女性遭劫,最小者仅八岁,廿八年才落网

长安一孤客
2026-06-27 23:18:28
多辆“百吨王”在京新高速强行冲卡,当地警方已在处理;大货车司机:该路段常见超载车辆,对路面破坏非常严重

多辆“百吨王”在京新高速强行冲卡,当地警方已在处理;大货车司机:该路段常见超载车辆,对路面破坏非常严重

大风新闻
2026-06-28 14:16:15
2026-06-29 01:43:00
扬子晚报 incentive-icons
扬子晚报
《扬子晚报》为江苏省级报刊
43707文章数 58832关注度
往期回顾 全部

科技要闻

DeepSeek最新论文:如何让大模型跑得更快

头条要闻

四川宜宾市高县发生5.5级地震 震中距宜宾28公里

头条要闻

四川宜宾市高县发生5.5级地震 震中距宜宾28公里

体育要闻

两周飞5万公里!因凡蒂诺遭环保人士猛批

娱乐要闻

曾沛慈拿下《乘风2026》年度总冠军

财经要闻

省钱,我只服梁文锋

汽车要闻

搭载华为乾崑六件套 东风奕派M8预售19.98万起

态度原创

家居
本地
健康
数码
公开课

家居要闻

绿意盎然 自然之境

本地新闻

世界杯球迷节:比球赛更好玩的派对

“无糖汤圆”是否隐藏着健康陷阱?

数码要闻

古尔曼:预计苹果今年发布搭载M5 Ultra芯片的Mac Studio

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版