网易首页 > 网易号 > 正文 申请入驻

千问版Gemini3,来了

0
分享至


作者 | Yoky
邮箱 | yokyliu@pingwest.com

第一个国产版Gemini3,来了。

1月26日,阿里正式发布千问旗舰推理模型Qwen3-Max-Thinking。

据介绍,Qwen3-Max-Thinking总参数超万亿、预训练数据量高达36T Tokens,在科学知识(GPQA Diamond)、数学推理(IMO-AnswerBench)、代码编程(LiveCodeBench)等多项权威评测中刷新了全球纪录。它在数学推理AIME 25和HMMT 25上拿到了国内首个双满分,甚至在“人类最后的测试”HLE中得分58.3,大幅超过GPT-5.2-Thinking的45.5和Gemini 3 Pro的45.8。


更关键的是时间点。如果你最近关注AI圈,会发现各家大模型厂商都在憋大招,阿里抢在这个节骨眼上发布Qwen3-Max-Thinking,摆明了就是要抢“国产第一个Gemini 3”的名号。

榜单数据再好看,到底能不能媲美Gemini3?

试了几次Qwen生成代码,前几次任务失败率还挺高的,但只要碰到阿里擅长的场景,表现就完全不一样。比如让它做一个卖水果的电商网站,商品分类、加购物车、一起结算这些功能,基本一次就写出来了,而且逻辑很完整,体验也流畅。很明显,电商这种场景它见得太多了,淘宝天猫的数据喂得够饱,所以做起来特别顺手。

但换成其他类型的任务,成功率就不太稳定了。如果你的需求正好在它的舒适区里,那体验确实要相对好;如果偏离了,可能得多试几次调整提示词。

我还专门测试了一个更复杂的交互案例:用摄像头做体感控制的打气球游戏,这也是Gemini 3展示过的经典demo。具体需求是:用手势控制屏幕上的准星,做捏合动作(拇指和食指并拢)来射击从下往上飘的气球,还要有天空背景、云层漂移、击中特效、连击反馈这些细节。

千问的表现让我有点意外。整个游戏的框架它一次就搭出来了:天空渐变背景、气球从底部生成往上飘、大小不同速度不同、UI显示分数和连击数,这些基础逻辑都没问题。

交互效果做得挺有意思。伸出食指,屏幕上的准星就会跟着手移动,拇指和食指捏合就能开火。击中气球的瞬间,屏幕会轻微震动,气球爆开时有粒子特效散开,还有“啵”的一声音效,反馈感做得很足。连续击中会显示combo数字,这种即时反馈确实有代入感。

但实际玩起来有个明显的问题:瞄不准。手指明明对着一个气球,但准星位置总是偏的,打了好几发才能碰巧打中。这应该是手部追踪和屏幕坐标映射之间有偏差,或者校准算法不够精确。虽然Qwen做出了体感控制的完整流程:摄像头调用、手势识别、射击反馈这些环节都跑通了,但核心的“指哪打哪”这个精度没做好,导致游戏性打了折扣。

不过,千问这次最厉害的地方,不是参数有多大,而是它“想问题”的方式变了。在关键的模型推理能力提升中,千问新模型采用了一种全新的测试时扩展(Test-time Scaling)机制,推理性能提升的同时还更经济。

打个比方,以前的AI做数学题是这样的:同时写10份答案,然后投票看哪个对的人多,就选哪个。这种方法很笨,浪费算力,而且10份答案里可能犯的都是同一个错误。

Qwen3改成了人类的做法:先做一遍,做完看看哪里不对,总结一下经验,再重新做。就像你做错题本一样,第二遍肯定比第一遍做得好。结果就是,在那个需要用工具解决问题的测试里,Qwen拿了58.3分,Gemini只有45.8分,差了一大截。

在调用工具层面,千问的做法是把工具使用能力“训练进”模型里,在完成初步的工具使用微调后,通义团队对模型进一步在大量多样化任务上进行了基于规则奖励与模型奖励的联合强化学习训练,使得Qwen3-Max-Thinking拥有更智能结合工具进行思考的能力。

它用三步训练法:先教会用工具,再在各种任务里强化练习,最后形成条件反射。好处很明显:用起来又快又顺,不用每次都去读工具说明书,而且模型自己知道该在什么时候用什么工具。这就是为什么Qwen在HLE测试里比Gemini高出12分,特别是需要连续用好几个工具解决复杂问题的时候,这种“肌肉记忆”优势就体现出来了。

对比之下,Gemini走的是传统软件工程的路子:模型只负责理解你要干什么,具体调工具靠外部API框架。这样做最大的好处是灵活:Google想接入沃尔玛的购物功能,不用重新训练模型,插个API就行。但代价是每次用工具都要走“理解意图—翻译成API调用—执行—解析结果”这一整套流程,慢而且容易出错。

千问的代码生成能力,已超越单纯的“语法翻译器”,更像一位理解你意图的技术伙伴。它不仅能将需求转化为可运行的代码,更具备工程直觉:知道何时优化性能、何时简化实现、何时添加容错机制。

这种“度”的把握,恰恰是AI从“工具”走向“协作者”的关键跃迁。


点个爱心,再走 吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女子领了结婚证全程没笑意,捧着红本满眼痛苦,评论区却夸真实

女子领了结婚证全程没笑意,捧着红本满眼痛苦,评论区却夸真实

捣蛋窝
2026-06-28 05:03:42
世界杯头号伪强队诞生?爆冷不胜鱼腩,淘汰赛连踢葡萄牙+西班牙

世界杯头号伪强队诞生?爆冷不胜鱼腩,淘汰赛连踢葡萄牙+西班牙

越岭寻踪
2026-06-28 06:21:09
研究发现:中年人减肚子,最有效的方法不是卷腹、跑步,而是...

研究发现:中年人减肚子,最有效的方法不是卷腹、跑步,而是...

增肌减脂
2026-06-20 14:55:15
还有机会!一场2-1,让韩国保住第8,K组焦点对决或将再次续命

还有机会!一场2-1,让韩国保住第8,K组焦点对决或将再次续命

萌兰聊个球
2026-06-28 07:18:38
越南电车亏损39亿美元:宁要越南烂车,不要中国电车,美国图啥

越南电车亏损39亿美元:宁要越南烂车,不要中国电车,美国图啥

王新喜
2026-06-27 06:48:38
NBC:艾顿预计将执行其26-27赛季球员选项留队

NBC:艾顿预计将执行其26-27赛季球员选项留队

北青网-北京青年报
2026-06-28 07:56:19
莱利换字母哥后,给维金斯3年6000万,维金斯看都没看直接拒了

莱利换字母哥后,给维金斯3年6000万,维金斯看都没看直接拒了

海阔山遥YAO
2026-06-27 15:47:06
正常男人吃一颗伟哥是什么体验?网友们的分享让人脸红心跳加快!

正常男人吃一颗伟哥是什么体验?网友们的分享让人脸红心跳加快!

黯泉
2026-06-25 12:10:30
就吃了2次,脾胃立马舒服多了,健脾养胃,清理淤堵,温和养胃!

就吃了2次,脾胃立马舒服多了,健脾养胃,清理淤堵,温和养胃!

白宸侃片
2026-06-27 18:33:45
布洛芬立大功!研究发现:老人吃布洛芬,或能缓解4种症状

布洛芬立大功!研究发现:老人吃布洛芬,或能缓解4种症状

医学科普汇
2026-06-26 21:00:04
实锤了?杨鸣透露教练圈潜规则,许利民或是被两人联手做掉

实锤了?杨鸣透露教练圈潜规则,许利民或是被两人联手做掉

弄月公子
2026-06-27 20:45:06
留守湖人!曝艾顿计划执行810万球员选项 紫金军补强内线或受阻

留守湖人!曝艾顿计划执行810万球员选项 紫金军补强内线或受阻

罗说NBA
2026-06-28 07:39:05
比独行侠送出东契奇更离谱,球迷:见过蠢的,没见过如此蠢的!

比独行侠送出东契奇更离谱,球迷:见过蠢的,没见过如此蠢的!

奇迹行者在刷野
2026-06-27 10:49:24
原来他就是迟蓬的丈夫,是我们熟悉的资深大导演,公公是电影明星

原来他就是迟蓬的丈夫,是我们熟悉的资深大导演,公公是电影明星

生命之泉的奥秘
2026-06-28 00:17:44
悬崖绝境!排名跌至第8命悬一线,韩国出线命运再交亚洲兄弟裁决

悬崖绝境!排名跌至第8命悬一线,韩国出线命运再交亚洲兄弟裁决

狮王乱弹
2026-06-27 17:53:26
还有戏吗?韩国已跌至第8,亚洲兄弟补时绝杀被吹,净胜球占上风

还有戏吗?韩国已跌至第8,亚洲兄弟补时绝杀被吹,净胜球占上风

萌兰聊个球
2026-06-27 13:25:48
韩国在实时算分!韩媒:洪明甫真是走了狗屎运!谢谢救世主西班牙

韩国在实时算分!韩媒:洪明甫真是走了狗屎运!谢谢救世主西班牙

舟望停云
2026-06-27 13:36:19
韩红「走个热面」,《抓特务》更冷:那个装腔作势的「京圈」,终于没人拜了……

韩红「走个热面」,《抓特务》更冷:那个装腔作势的「京圈」,终于没人拜了……

家传编辑部
2026-06-25 10:00:51
闲着没事,你抓什么特务,吃饱了撑的!

闲着没事,你抓什么特务,吃饱了撑的!

雨秋闲话
2026-06-26 11:28:46
世界杯韩国出线出局五五开,命运彻底交给剩余三场小组赛

世界杯韩国出线出局五五开,命运彻底交给剩余三场小组赛

大汉体育解说
2026-06-27 14:10:28
2026-06-28 08:32:49
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
3193文章数 10508关注度
往期回顾 全部

科技要闻

GPT-5.6发布,你暂时用不了!Mythos也放行

头条要闻

美以黎框架协议被指"签了个寂寞" 以高官:重大错误

头条要闻

美以黎框架协议被指"签了个寂寞" 以高官:重大错误

体育要闻

世界杯最火门将,站到了阿根廷和梅西面前

娱乐要闻

四提白玉兰终封后,杨紫:仍觉不真实

财经要闻

OpenAI推迟IPO重创软银!

汽车要闻

搭载华为乾崑ADS 5 全新猛士M817上市售29.99万起

态度原创

亲子
教育
时尚
房产
本地

亲子要闻

媳妇怀二胎体重超标,四维彩超做了2小时,医生说还贫血

教育要闻

假如给你一个亿默写D开头单词

伊姐周六热推:电视剧《昨夜将至》;电影《蝴蝶楼·惊魂》......

房产要闻

全国高考大放水,300分就能上本科!论上岸率,海南没输过!

本地新闻

世界杯球迷节:比球赛更好玩的派对

无障碍浏览 进入关怀版