网易首页 > 网易号 > 正文 申请入驻

通义千问Qwen3系列最新大模型发布,记者实测:数学能力更出色

0
分享至

4月29日凌晨,阿里巴巴正式发布通义千问Qwen3系列模型,这一包含2个混合专家(MoE)模型与6个稠密模型的开源大模型家族,以突破性的架构设计、36万亿 token 的训练数据规模及多模态能力,吸引了一大拨开发者的关注。记者实测发现,Qwen3不仅在数学推理、代码生成等硬核领域表现惊艳,其 “思考模式” 与 “非思考模式” 的灵活切换,更能提升复杂任务的处理效率。

据官方技术文档显示,Qwen3系列模型采用混合专家架构与统一多模态编码体系。旗舰模型Qwen3-235B-A22B具备2350亿总参数量,通过MoE动态路由机制,实际激活参数仅220亿,显存占用仅为同性能模型的三分之一。

同时,Qwen3在多模态能力上,首次实现文本、图像、音频、视频的统一处理。例如,记者测试发现,当输入一张包含数学公式的图表时,模型不仅能精准解析公式含义,还能结合上下文推导出解题步骤。这种能力在教育、科研等领域具有广阔应用前景,可辅助论文写作、实验数据分析等场景。

目前,Qwen3已在Hugging Face、ModelScope等平台上线,GitHub星标数突破18.5k。

4月29日,记者实际体验了一下Qwen3模型,整体测试效果令人满意。

首先,在逆文本生成基准测试中,记者要求模型将“YZWB is testing Qwen3-235B-A22B” 这句话逐词反转。Qwen3-235B-A22B在非思考模式下仅用0.3秒输出“B22A-B532-n3newQ gnitset si BWZY”。

其次,记者实测发现Qwen3在数学能力表现相比之前更出色了,模型现在可以同时提供多种解题思路,输出结果也比较准确,展现了其强大的推理能力。而对此前网友向AI提出的“7米长的甘蔗如何通过2米高、1米宽的门”这一经典难题,Qwen3通过三维空间建模推导出“倾斜甘蔗使其对角线长度小于门的对角线(√(2²+1²)≈2.24米)”的方案。

最后,根据最新LiveCodeBench v5评测,Qwen3-235B-A22B以70.7分超越OpenAI Grok-3,记者实测其代码生成能力同样惊人。当要求模型“用 Python 编写一个实时监控服务器日志并发送异常报警的脚本” 时,模型在思考模式下输出了包含日志解析、阈值检测、邮件报警等模块的完整代码,并自动添加了错误处理和配置文件读取功能。

尽管Qwen3在众多基准测试中表现优异,然而记者实测发现Qwen3在处理复杂推理任务及稀疏知识域时仍存在显著局限——即"幻觉生成"现象。例如,记者在测试Qwen3的中文写作能力时,虽然能直观的感到模型对于文字的处理更加细腻、流畅,但生成的文本存在严重的逻辑断层与场景跳跃失控现象,呈现出拼贴画式的叙事结构。这种现象暴露出模型在处理低频知识域或进行多阶推理时,容易将训练数据中的碎片化知识进行错误关联重组,生成看似合理却违背现实的回答,这也是众多大语言模型在认知边界突破过程中面临的共性挑战。

校对 盛媛媛

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1994年,西安空难160人惨死,警方查明后,发现其内幕令人咋舌!

1994年,西安空难160人惨死,警方查明后,发现其内幕令人咋舌!

猫眼观史
2024-10-22 15:49:38
24小时内,美军为营救飞行员,又损失4架战机

24小时内,美军为营救飞行员,又损失4架战机

兵国大事
2026-04-04 19:47:00
美军因为搜救,在伊朗境内爆发激战,成功救出飞行员

美军因为搜救,在伊朗境内爆发激战,成功救出飞行员

宁静荒野
2026-04-05 08:00:34
猪油再次被关注!医生发现:高血压患者常吃猪油,或出现几种变化

猪油再次被关注!医生发现:高血压患者常吃猪油,或出现几种变化

蜉蝣说
2026-02-23 21:23:05
美军正准备动手,又一盟友突然反水,百年旧账翻出,专机直奔中国

美军正准备动手,又一盟友突然反水,百年旧账翻出,专机直奔中国

兴史兴谈
2026-04-03 06:37:33
特朗普下令公开UFO数据,专家预测外星人将嘲笑人类

特朗普下令公开UFO数据,专家预测外星人将嘲笑人类

阿代说事
2026-04-05 10:02:45
沧州杀妻案凶手金昊被执行死刑:多张内部照曝光,第三者被扒!

沧州杀妻案凶手金昊被执行死刑:多张内部照曝光,第三者被扒!

眼光很亮
2026-04-05 09:16:48
西甲最新积分战报:皇马爆大冷,巴萨绝杀马竞,前2相差7分

西甲最新积分战报:皇马爆大冷,巴萨绝杀马竞,前2相差7分

足球狗说
2026-04-05 06:04:46
严屹宽谈张凌赫“粉底液将军”争议:演员对妆造的决策权有限,有质疑说明受到了关注,要用虚心的心态接受质疑

严屹宽谈张凌赫“粉底液将军”争议:演员对妆造的决策权有限,有质疑说明受到了关注,要用虚心的心态接受质疑

极目新闻
2026-04-02 14:29:35
连胜文公开对郑丽文“训话”:引恩师经验划红线,防即兴失言毛病

连胜文公开对郑丽文“训话”:引恩师经验划红线,防即兴失言毛病

小影的娱乐
2026-04-05 04:23:26
特斯拉国内最新 OTA 后,车机 FSD 智驾名称修改,v001 也没了!

特斯拉国内最新 OTA 后,车机 FSD 智驾名称修改,v001 也没了!

新浪财经
2026-04-02 13:52:23
炸锅!非农数据浇灭降息梦,全球金融坐等周一开盘风暴

炸锅!非农数据浇灭降息梦,全球金融坐等周一开盘风暴

魏家东
2026-04-04 14:05:33
湖人136-134告负,西部第三地位岌岌可危,三大隐患待解决

湖人136-134告负,西部第三地位岌岌可危,三大隐患待解决

吕彍极限手工
2026-04-05 10:05:18
47岁郝蕾近况曝光!曾经历两段失败婚姻,如今尽情享受单身生活

47岁郝蕾近况曝光!曾经历两段失败婚姻,如今尽情享受单身生活

代军哥哥谈娱乐
2026-04-04 10:36:23
陈光标称要送张雪1300万元劳斯莱斯,张雪想卖了捐款,二手车商公开喊话:如果真送车,我第一时间接洽收购

陈光标称要送张雪1300万元劳斯莱斯,张雪想卖了捐款,二手车商公开喊话:如果真送车,我第一时间接洽收购

极目新闻
2026-04-03 14:47:02
方媛6个月三胎女儿好漂亮,大耳朵大眼睛,厚耳垂一看就有福相

方媛6个月三胎女儿好漂亮,大耳朵大眼睛,厚耳垂一看就有福相

椰黄娱乐
2026-04-04 14:30:12
马斯克曾大胆预言:第三次世界大战,中俄伊将联手终结美西方统治

马斯克曾大胆预言:第三次世界大战,中俄伊将联手终结美西方统治

原来仙女不讲理
2026-04-02 22:15:24
【欧洲】比利时警方发布寻人启事,寻找在中国失踪的28岁比利时男子

【欧洲】比利时警方发布寻人启事,寻找在中国失踪的28岁比利时男子

一网荷兰
2026-04-05 00:25:05
如果你足够尊重孩子天性,会发现:他们怕苦怕累怕学习、又馋又懒

如果你足够尊重孩子天性,会发现:他们怕苦怕累怕学习、又馋又懒

户外阿毽
2026-04-01 11:19:28
1979年,越南老百姓发现一怪象:中国军队撤军时,专炸水泥电线杆

1979年,越南老百姓发现一怪象:中国军队撤军时,专炸水泥电线杆

百年历史老号
2026-03-29 01:40:42
2026-04-05 12:08:49
扬子晚报 incentive-icons
扬子晚报
《扬子晚报》为江苏省级报刊
39362文章数 57504关注度
往期回顾 全部

科技要闻

花200薅5千算力,Claude冷血断供“龙虾”

头条要闻

贾平凹的副教授女儿多篇论文被指大面积抄袭 细节披露

头条要闻

贾平凹的副教授女儿多篇论文被指大面积抄袭 细节披露

体育要闻

CBA最老球员,身价7500万美元

娱乐要闻

好用心!宋慧乔为好友庆生做一桌美食

财经要闻

谁造出了优思益这头“怪物”?

汽车要闻

福特智趣烈马春日礼遇 购车即送价值1.2万举升车顶

态度原创

教育
本地
时尚
手机
公开课

教育要闻

焦点访谈|春假叠加清明假期 多地出台配套举措打造更多亲子时间

本地新闻

跟着歌声游安徽,听古村回响

女人不管多大年纪衣服不要随便穿,这些穿搭可借鉴,优雅显瘦

手机要闻

新一代小米SU7完美通过三元锂高温针刺试验:55℃满电针刺 比新国标更严

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版