大家好,我是熬夜追新模型的袋鼠帝。
昨天晚上,我正准备关电脑睡觉,阿里突然甩出了一个重磅炸弹:Qwen3-Max-Thinking 正式发布。
我看完,反手就点赞+在看
![]()
不过,说什么数字游民,自由职业,其实我的作息完全掌握 AI 手里。
AI一进化,我就得起来干活。。。
吐槽归吐槽,身体还是很诚实的。
毕竟作为国产模型之光,千问每一次更新都挺让人期待的。
于是我立马不困了,爬起来连夜实测,看看这次能想会干,比强更强到底怎么样。
Max都是旗舰级的闭源模型,所以性能会更强劲
这次Qwen3-Max-Thinking号称性能媲美 GPT-5.2 和 Gemini 3 Pro,特别是在数学、代码和长逻辑推理上有了质的飞跃。
最关键的是,它的 Agent 能力大幅增强,能像真人一样边用工具边思考,而且幻觉更少。
那岂不是非常适合接入最近爆火的个人AI助手clawdbot中使用?
介绍clawdbot,以及如何安装使用 袋鼠帝,公众号:袋鼠帝AI客栈
再给大家聊聊这次更新的核心技术亮点(我觉得非常实用),非常重要:
能看到阿里这次在 Reasoning(推理)路线上走出了一条非常独特的路径。
1. 测试时扩展(Test-Time Scaling):从"人海战术"转向深度反思
传统的推理增强往往采用并行采样(Parallel Sampling)策略,即 Best-of-N,通过生成多条推理路径再进行投票或打分。
这种方式虽然有效,但计算冗余极高,边际效应递减明显。
Qwen3-Max-Thinking 采用了一种“经验累积式迭代”策略。
它利用“经验提取(Experience Extraction)”机制,将上一轮推理中的关键洞见(Insight)提炼出来,注入到下一轮的 Context 中。这使得模型能够在不增加 Token 消耗量级的情况下,通过自我反思修正错误,收敛至更优解。
就好比一些模型解难题,就像是让 100 个普通学生同时做同一道题,然后看谁的答案对(人海战术,浪费资源且容易大家都做错)。
Qwen3-Max-Thinking像是一个资深学霸,做题时会先打草稿,发现第一步思路不对,立刻总结教训,换个思路继续推导,直到解出答案。
不是一直试错,是在迭代。
2. 自适应工具调用:原生Agent的肌肉记忆
大多数模型的工具调用依赖于 Prompt Engineering(提示词工程),即告诉模型你有xxx工具,能干什么,请使用它。
Qwen3-Max-Thinking这次通过大规模的RL(强化学习)后训练,将工具调用内化为模型的原生能力。
它不再需要显式的Trigger,而是基于对任务复杂度的感知,自主决策何时挂起推理、调用 Search 获取实时信息、或调用 Python 解释器进行精确计算等。
这种边想边做的能力,大幅降低了幻觉(Hallucination),也进一步提升了解决真实世界复杂任务的能力。
3. 极致的生态兼容:可丝滑接入Claude Code
这一点对于开发者至关重要:Qwen3-Max-Thinking 不仅兼容 OpenAI 协议,更原生兼容了 Anthropic API 协议。
这意味着它可以丝滑接入 Claude Code。只需修改 API地址 和 API Key。
![]()
现在Qwen3-Max-Thinking可以在网页使用
https://chat.qwen.ai/
![]()
也可以通过API使用
接下来,老规矩,咱们直接上实测。
PS:Qwen3-Max-Thinking名字有点长,下文就用Qwen或者Qwen3代替了~
1.网文圈《校花的贴身高手》
由于联网搜索已经自动整合进深度思考(由Agent自行判断是否需要联网),所以只需要打开深度思考即可(看见有读者在别的公众号评论区提问,为什么没有联网搜索了)
这是一部连载了十多年的网络小说,无数人从初中到大学毕业,从乔布斯Iphone时代到LLM时代,还在看这本小说,然而此书作者依然还在日更。
书中剧情有一个关键节点,就是登上天阶岛,来问问Qwen是否能正确找到。
prompt:在网络小说,校花的贴身高手中,主角是在哪一章登上天阶岛的?
![]()
有意思的是,查看思维链,可以看见,Qwen3-Max-Thinking会有意识地交叉对比不同的结果,防止被干扰,并且思考后给出章节不同的原因和结论,让人感觉非常可靠。
我去QQ阅读APP核实了一下,是正确的
![]()
接下来我又尝试让Qwen3-Max-Thinking用代码给我画个图,看看能不能在超过2000万字的小说中找到主角实力晋升的曲线。
![]()
Qwen3在思维链中意识到,两千万字还是太多了,这个任务无法完成,但是基于我的意图,还是找到了具有代表性的章节和晋升节点,给我画了出来,完成任务
![]()
2.(斩杀线热梗)逻辑陷阱
斩杀线最近非常火,我给Qwen3造了一个逻辑陷阱,还和豆包进行对比,看看Qwen会不会陷进去
prompt:牢a是大a股买进去之后在坐牢吗
![]()
Qwen3 完全正确,一下子就意识到这是一个人的网名,然后还告诉我这是常见的误解。仔细看思维链,能发现Qwen居然搜索了x和facebook,但是豆包似乎都没触发网络搜索。这下Qwen 3的Agent能力又赢了。
![]()
3.和Gemini 3 pro比较电影测评
考验在海量信息中网络搜索真相,这点完胜Gemini 3 pro
前两天“重返寂静岭”上映,第一时间就去看了,没想到是烂片,
只能说被吓得莫名其妙,剧情很莫名其妙,看不懂,前面两个女生抱在一起,一个被吓得在刷小红书,一个被吓得在玩微信小游戏,我买的还是最中间的座位,不舍得走,但又一直被吓,主要是剧情莫名其妙。
马上试试AI搜索到的结果,是不是能符合我的真实体验。
先试了Gemini 3:根本没提到最新上映的重返寂静岭。。
而且搜索结果里似乎自相矛盾了,阿凡达同时出现在“值得一看“和“建议避雷”里,让人有点困惑。
![]()
又试了这回的Qwen 3,因为交给Agnet自动判断是否需要网络查询了,所以我们只要打开深度思考就好了。
Qwen3—Max甚合我意!简直和我内心的意见一模一样(每一场我都在电影院看过了,AI和我的意见居然一样)
这些影评都是非常真实的。
![]()
我又点开思维链,仔细看看Qwen3具体是如何做到这一点的。
可以看见,Qwen 3在内置Agent的调度下,一边搜索、整理、又搜索,又整理,进行了几轮的整理,才有了最后的准确答案
并且在思维链中可以逐一看见被Qwen3搜索过的每一个影评网站,可以点击进去浏览,能把海量信息汇总并且找到正确的信息,确实不错。
![]()
4.记忆(功能上新,类似ChatGPT和Gemini)
这次千问也终于有了记忆:
![]()
点击头像,就能在设置里面打开或者关闭记忆。
![]()
下面做了一个场景预设测试,假如我是一个高考生,平时就爱和AI介绍自己喜欢的事情。
![]()
那么假如已经到了高考报志愿的时候,Qwen就可以根据我以往所有的聊天偏好,对我进行分析,找到最适合我的专业。(以下新开了一个聊天窗口进行测试),
可以看见,不给任何上下文信息,直接向Qwen 3 提问我适合什么专业。
Qwen 3 的回答是正确的。因为这就是我本人的真实经历,非常认同AI的判断。
![]()
5.视频总结(支持上传十分钟以内的视频)
大概十秒钟,总结很顺利,比以前快多了,查看思维链,可以看见一步步梳理脉络
![]()
6.预测26年春晚,具身智能机器人表演到什么程度
时光匆匆又一年,年味渐浓
2026年春晚,宇树科技将第三次登上春晚的舞台。
去年具身智能机器人表演的是《秧BOT》,今年又会进展如何呢?
让Qwen3预测一下今年的具身智能机器人,在春晚的舞台上会有什么样的表演。
![]()
到时候看Qwen3预测得准不准,春晚就揭晓!
7.公务员真题图形推理题
Qwen思路和答案都完胜,gemini 3 pro居然做错了
纯图形题目对于只有文字输入的大模型来说是无解的
但是这次Qwen 3 max是可以上传视频的,来看看Qwen 3 实力如何。
下面是一道,公务员考试真题:
![]()
如何判断这是一道好的公务员题目,就在于每个人去看了答案,都会觉得很简单,但是让你自己在考场做,就是做不出来。
这样的题目考验的正是公务员在为人民服务的过程中办理实事、处置突变事项、临场判断的综合素质,而不是悠哉坐在办公室里的马后炮和键盘侠。
正强如Gemini 3 pro也做不出来,我一点不意外。
但是让我很意外的是,Qwen 3 max居然做出来了
以下是Qwen 3 max的解题
![]()
让我们点开思维链,看看Qwen 3 max是如何思考的:
可以看见Qwen 3 的结构化思考,完全就是一位真实的公务员考生:
先是分析图形变化规律、然后再尝试推导逻辑关系,然后发现了找不到这个规律,于是又返回上一层重新思考图形规律,最后找到正确思路。
![]()
其实最后这一句(注:)实为画龙点睛之笔,让我啧啧称奇。
一年几百万公务员考生不断刷题、报班、看课,就是为了找到题型规律,让自己的脑子在考场上能适应“试题模式”,从而拿高分。
然而,Qwen 3 轻飘飘说出这一句,于无声处听惊雷,意味着已经完全把公务员考试的出题逻辑尽在掌握。
![]()
以下是Gemini 3 pro思考了接近4分钟后,不仅被这道题目逼出了母语英文,
还给出了错误答案。
![]()
特地翻译出来,看看gemini 3到底怎么错的。
![]()
其实Gemini 3 pro一度接近正确思路,但是不知为何突然开始混乱了,
也许是因为还没有Qwen 3 pro一样,能懂得公务员考试的出题套路。
代码类:会喷火的旋转六边形小球
似乎代码能力并没有那么好,试了一下GLM4.7能顺利跑出来的case,Qwen 3还是有瑕疵。
prompt:用 HTML、CSS 和 JavaScript 实现这样一个效果:一个小球被困在一个旋转的六边形内部。小球受到地球重力的作用,并与六边形内壁产生摩擦。小球的弹跳需要看起来逼真自然。
![]()
优点是,Qwen 3 自动帮我考虑到了可调节参数,能让我调节旋转速度、重置位置、暂停旋转等,下面还有参数显示。
缺点是,这个明显还有缺陷,小球会喷火。。
虽然 Qwen3-Max-Thinking 在代码场景下还有瑕疵,但整体表现还是非常不错的。
特别是在逻辑推理、信息检索和中文语境的理解上,它给人的感觉非常扎实。
不知道Qwen在春节还有没有什么压箱底的大招,再放出来,我们可以一起期待一下。毕竟阿里的技术还是非常强劲的~
我是袋鼠帝,一个在这个AI时代,持续分享AI实践干货,陪你一起进化的数字游民。
点击关注下方账号,你将感受到一个朋克的灵魂。
能看到这里的都是凤毛麟角的存在!
如果觉得不错,随手点个赞、在看、转发三连吧~
如果想第一时间收到推送,也可以给我个星标⭐
谢谢你耐心看完我的文章~
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.