网易首页 > 网易号 > 正文 申请入驻

通义千问Qwen3系列最新大模型发布,记者实测:数学能力更出色

0
分享至

4月29日凌晨,阿里巴巴正式发布通义千问Qwen3系列模型,这一包含2个混合专家(MoE)模型与6个稠密模型的开源大模型家族,以突破性的架构设计、36万亿 token 的训练数据规模及多模态能力,吸引了一大拨开发者的关注。记者实测发现,Qwen3不仅在数学推理、代码生成等硬核领域表现惊艳,其 “思考模式” 与 “非思考模式” 的灵活切换,更能提升复杂任务的处理效率。

据官方技术文档显示,Qwen3系列模型采用混合专家架构与统一多模态编码体系。旗舰模型Qwen3-235B-A22B具备2350亿总参数量,通过MoE动态路由机制,实际激活参数仅220亿,显存占用仅为同性能模型的三分之一。

同时,Qwen3在多模态能力上,首次实现文本、图像、音频、视频的统一处理。例如,记者测试发现,当输入一张包含数学公式的图表时,模型不仅能精准解析公式含义,还能结合上下文推导出解题步骤。这种能力在教育、科研等领域具有广阔应用前景,可辅助论文写作、实验数据分析等场景。

目前,Qwen3已在Hugging Face、ModelScope等平台上线,GitHub星标数突破18.5k。

4月29日,记者实际体验了一下Qwen3模型,整体测试效果令人满意。

首先,在逆文本生成基准测试中,记者要求模型将“YZWB is testing Qwen3-235B-A22B” 这句话逐词反转。Qwen3-235B-A22B在非思考模式下仅用0.3秒输出“B22A-B532-n3newQ gnitset si BWZY”。

其次,记者实测发现Qwen3在数学能力表现相比之前更出色了,模型现在可以同时提供多种解题思路,输出结果也比较准确,展现了其强大的推理能力。而对此前网友向AI提出的“7米长的甘蔗如何通过2米高、1米宽的门”这一经典难题,Qwen3通过三维空间建模推导出“倾斜甘蔗使其对角线长度小于门的对角线(√(2²+1²)≈2.24米)”的方案。

最后,根据最新LiveCodeBench v5评测,Qwen3-235B-A22B以70.7分超越OpenAI Grok-3,记者实测其代码生成能力同样惊人。当要求模型“用 Python 编写一个实时监控服务器日志并发送异常报警的脚本” 时,模型在思考模式下输出了包含日志解析、阈值检测、邮件报警等模块的完整代码,并自动添加了错误处理和配置文件读取功能。

尽管Qwen3在众多基准测试中表现优异,然而记者实测发现Qwen3在处理复杂推理任务及稀疏知识域时仍存在显著局限——即"幻觉生成"现象。例如,记者在测试Qwen3的中文写作能力时,虽然能直观的感到模型对于文字的处理更加细腻、流畅,但生成的文本存在严重的逻辑断层与场景跳跃失控现象,呈现出拼贴画式的叙事结构。这种现象暴露出模型在处理低频知识域或进行多阶推理时,容易将训练数据中的碎片化知识进行错误关联重组,生成看似合理却违背现实的回答,这也是众多大语言模型在认知边界突破过程中面临的共性挑战。

校对 盛媛媛

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1989年安徽拍戏,25岁巩俐零替身出演,这片凭啥成经典

1989年安徽拍戏,25岁巩俐零替身出演,这片凭啥成经典

手工制作阿歼
2026-05-27 00:05:04
主持人李瑜——穿米白亚麻裙光脚丫太美

主持人李瑜——穿米白亚麻裙光脚丫太美

阿废冷眼观察所
2026-06-01 03:02:36
总部人去楼空,涉案金额高达数百万!又一明星项目彻底“暴雷”了

总部人去楼空,涉案金额高达数百万!又一明星项目彻底“暴雷”了

品牌观察官
2026-05-31 17:37:03
云南第一人口大县,城区人口45万!

云南第一人口大县,城区人口45万!

镇雄微生活
2026-05-31 19:03:04
知情人士:伊朗将按自身立场修订伊美协议草案

知情人士:伊朗将按自身立场修订伊美协议草案

新华社
2026-06-01 04:56:04
李雪琴母亲因非法采矿罪被判入狱,真是被原生家庭拖得满身伤痕

李雪琴母亲因非法采矿罪被判入狱,真是被原生家庭拖得满身伤痕

西楼知趣杂谈
2026-05-31 06:09:46
华为打响价格战,从4199元跌至2929元,这款高端旗舰降成中端机

华为打响价格战,从4199元跌至2929元,这款高端旗舰降成中端机

科技阿维
2026-06-01 00:13:00
5月31日晚间沪深上市公司重大事项公告最新快递

5月31日晚间沪深上市公司重大事项公告最新快递

新浪财经
2026-05-31 19:32:53
太残忍 中国老板柬埔寨遭绑架虐杀,15小时夺命煎熬,结局令人破防

太残忍 中国老板柬埔寨遭绑架虐杀,15小时夺命煎熬,结局令人破防

吃货的分享
2026-06-01 03:23:58
迷人的风景,迷人的你

迷人的风景,迷人的你

疾跑的小蜗牛
2026-05-31 21:33:10
六辆装甲车白守!无人机钻门缝炸穿指挥室,旅长当场脑浆迸裂

六辆装甲车白守!无人机钻门缝炸穿指挥室,旅长当场脑浆迸裂

深度报
2026-05-30 00:32:15
文班亚马哭了!马刺抢七淘汰雷霆!时隔12年重返总决赛

文班亚马哭了!马刺抢七淘汰雷霆!时隔12年重返总决赛

五星体育
2026-05-31 11:11:30
仅200万元!余承东官宣新尊界S800开启预售后,奇怪的现象出现了

仅200万元!余承东官宣新尊界S800开启预售后,奇怪的现象出现了

春雨说科技
2026-05-30 17:45:12
韩国人气女星官宣产女,晒宝宝脚印照报平安

韩国人气女星官宣产女,晒宝宝脚印照报平安

自愈小日子
2026-06-01 01:24:43
巴塞罗那为阿森纳目标标价2500万欧,已开启出售可能

巴塞罗那为阿森纳目标标价2500万欧,已开启出售可能

日常碎碎念啊
2026-06-01 01:54:46
张兰机场玩母子恋!新男友看起来跟汪小菲差不多大,她是真下得去手

张兰机场玩母子恋!新男友看起来跟汪小菲差不多大,她是真下得去手

八卦王者
2026-05-30 14:30:12
1499元,特斯拉为Model Y推出手动车顶遮阳帘

1499元,特斯拉为Model Y推出手动车顶遮阳帘

金融界
2026-05-31 17:00:10
德国4-0芬兰,昂达夫传射,维尔茨、穆西亚拉建功

德国4-0芬兰,昂达夫传射,维尔茨、穆西亚拉建功

懂球帝
2026-06-01 04:45:22
日媒:日本赴华旅游暴跌九成,日网友却称“我要去中国,别拦我”

日媒:日本赴华旅游暴跌九成,日网友却称“我要去中国,别拦我”

小皷拍客在北漂
2026-05-30 17:26:52
华为尊界“翻车”:找傅首尔宣传,品牌营销底线去哪了?

华为尊界“翻车”:找傅首尔宣传,品牌营销底线去哪了?

虔青
2026-05-30 19:00:09
2026-06-01 06:56:49
扬子晚报 incentive-icons
扬子晚报
《扬子晚报》为江苏省级报刊
42485文章数 58403关注度
往期回顾 全部

科技要闻

戴尔诺基亚又回来了!AI重估老牌科技公司

头条要闻

伊朗总统被指已向最高领袖提出辞职 官方回应

头条要闻

伊朗总统被指已向最高领袖提出辞职 官方回应

体育要闻

阿森纳用最悲壮的方式,成就了巴黎王朝

娱乐要闻

朱军退休,正义虽迟但到,女方受惩

财经要闻

医学首席转岗搞科技,A股科技股遭遇巨震

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

本地
时尚
健康
公开课
军事航空

本地新闻

用剪纸的方式,打开江苏扬州

梓渝:慢下来,也很好

尝试干细胞疗法如何避免踩坑?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

解放军代表质问日防卫大臣:日本何时道歉

无障碍浏览 进入关怀版