中国的马年春节,正在成为个人智能体大规模落地的首个标志性场景。
春节是中国科技巨头改写用户习惯的关键时间窗口,也是大模型厂商布局新一年竞争的前哨战。今年尤其如此,因为智能体正变得更轻快、更聪明、也更可用。
除夕夜,阿里巴巴开源全新一代大模型千问Qwen3.5-Plus,性能媲美Gemini 3 pro,登顶全球最强开源模型。阿里千问App这个国民级消费AI应用,已经第一时间接入这个原生多模态智能体底座。在全面开启AI购物功能后,千问App月活用户已经超过1亿,一周内完成1.2亿笔订单,差不多平均10个中国人尝试了1次。
得益于它在底层模型架构的全面革新,为Qwen3.5家族打头阵的Qwen3.5-Plus(Qwen3.5-397B-A17B的API版本),总参数3970亿,激活参数170亿,但性能超过万亿参数的Qwen3-Max模型,堪比Gemini 3 pro。它的“部署成本”比前者降低了60%,API调用价格仅为后者的1/18。在32K/256K上下文长度下,它的最大解码吞吐量分别是Qwen3-Max的8.6倍和19.0倍,是Qwen3-235B-A22B的3.5倍和7.2倍。
全新的Qwen3.5-Plus,是一个原生多模态模型。千问家族从Qwen2.5到Qwen3,预训练数据从18T tokens扩展到36T tokens,是纯文本数量的扩展;这次迈向Qwen3.5时代,预训练数据进一步扩展,而且这次还是视觉和文本的混合数据。它支持长达2小时(1M token上下文)的视频直接输入,在多模态推理(MathVison)、通用视觉问答VQA(RealWorldQA)、文本识别和文件理解(CC_OCR)、空间智能(RefCOCO-avg)、视频理解(MLVU)等基准测试中,斩获最佳性能。
它因此化身为智能体模型,尤其是在搜索Agent(Browsecomp)表现上遥遥领先。作为一个视觉智能体,Qwen3.5-Plus可以自主操作手机与电脑完成日常任务,能处理跨应用的数据整理、多步骤流程自动化等复杂任务。这为千问App巩固自己国民级超级AI应用的地位奠定了基础。
![]()
进入Agentic时代
从简单问答,到单次执行,再到多步骤智能体执行,行业正在进入一个新的演进周期。它面临的不再只是回答问题的准确率,而是推理深度、跨模态整合、编码与工具调用能力、长期记忆与成本效率的综合考验。
几乎全世界最重要的大模型公司,都选择集中在最近几十天里发布重量级的新模型。在美国,Anthropic的Claude Opus 4.6与OpenAI的GPT-5.3-Codex相继上线;在国内,月之暗面的Kimi-K2.5、智谱的GLM-5、稀宇科技的MiniMax-M2.5,以及字节跳动的Doubao-Seed-2.0,都在宣传自己的智能体能力。去年至今,阿里巴巴千问模型迭代至今天压轴的Qwen3.5,也正是这一变化的缩影。
推理能力的进化,已经在你追我赶中,快速演进了一年多。从 o1 到 DeepSeek-R1,再到 QwQ-32B,强化学习被重新确立为扩展能力的主线之一,证明了在后训练阶段,规模扩展仍然有效。而在 Qwen3.5 中,强化学习的重要性被再次强调。但这一次,重点变成了“环境扩展(environment scaling)”,即模型所处的可操作任务世界的数量与多样性,正在成为新的扩展方向。
![]()
编码能力在这一年完成了沉淀。对于智能体而言,代码不仅是解决未见问题的工具,更是一种让模型得以修改环境、重构流程,甚至实现智能体持续学习与自我迭代的“元能力”。去年7月,Qwen3-Coder-480B-A35B-Instruct开源,性能对标Claude 4 Sonnet。它最大的创新在于具备智能体功能,一条命令接管整个代码仓库,实现“在世界中自主编程”。发布半个月内,它迅速蚕食多模型API聚合平台OpenRouter上的编程市场份额,Anthropic占比从47%回落至30%。Perplexity首席执行官Aravind Srinivas直呼“开源正在取胜”。
过去一年,原生多模态已从前沿模型的能力选项,演变为主流模型的基础结构。去年3月,GPT-4o拥有了图像生成能力,OpenAI相信原生统一的多模态大模型,才能更完整地映射现实世界。同年11月,Gemini 3亦以原生多模态为核心设计。越来越多GUI智能体开始在手机与电脑端运行,视觉能力成为模型连接现实世界的关键接口。而从Qwen家族的视觉语言模型VL,到图片生成Image,再到原生全模态大模型Omni,阿里坚持全模态扩展与开源。因此,这次Qwen3.5构建覆盖视觉能力的原生多模态底座,也就顺理成章。
过去一年的多条技术路线,并非并行存在,而是被持续整合进旗舰模型之中,逐步强化了智能体调用工具的能力。去年4月,阿里Qwen-3正式发布,对智能体开发友好,原生支持 MCP 协议,提升了代码能力,工具调用顺手。今年1月,Qwen3-Max-Thinking发布,大幅增强了自主调用工具的原生Agent能力,模型可像专业人士一样边用工具边思考,幻觉也大为降低,为解决真实复杂任务打下基础。
在多步骤、多智能体协作的环境中,速度成为决定token价值的隐藏变量。字节跳动发布 Seed-1.8 时披露,一个跨平台搜索比价任务需要执行122个连续步骤。也许要实现真正的“直接下单”,一个AI购物智能体在后台完成的步骤只会更多。
这需要一次面向规模效率的底层架构重构。去年9月,阿里巴巴发布Qwen3-Next,总参数规模800亿,预训练15T tokens,为此做了一次“中试”。千问大模型负责人林俊旸自称为“大胆”。它尝试用极致稀疏MoE,低成本扩展模型的智能涌现的上限;迈出了高度复杂的混合注意力(Hybrid Attention)的一大步,既高效又精准地扩展上下文长度。
![]()
从Qwen3-Next到真正“量产”的Qwen3.5,团队沿着这一路线继续优化,采用了更高稀疏度的MoE、Gated DeltaNet与Gated Attention结合的混合注意力、稳定性优化与多token预测。这让Qwen3.5-Plus仅需不到5%的算力,即可调动全部知识储备;解码吞吐量随之大幅提升,在高频场景中呈现出接近“秒回”的响应体验。
性能更强的旗舰模型Qwen3.5-Max,也将在不久后发布。
国民级信任,国民级验证
在阿里千问的官方博客上,Qwen3.5被视为为通用智能体奠定了坚实基础。但通用智能体并不是一个更大的问答模型,而是一个“知行合一”的系统。它不仅理解世界,还能在世界中行动;不仅生成答案,还要承担后果。
正如微软CEO纳德拉(Satya Nadella)所言,传统的业务逻辑层正在被“agent tier(智能体层)”取代,这意味着决策权从人类工程师,开始逐步转移给模型。OpenClaw的爆火让人看到,在获得系统级权限后,通用智能体的边界,不在认知边界,而在责任边界。
对于阿里千问App这个国民级AI应用而言,每一次自动下单、每一次跨应用操作,也都是一次决策权与责任的转移。不承担责任的智能体,只是更高级的副手(copilot)。过去一年,全球科技公司都在尝试把智能体推向交易场景。但是它们普遍面临的挑战在于,身份验证是否可靠、支付与交付是否顺畅、上下文是否可追溯,无法在同一系统内完成责任的确认与修正。这是通用智能体落地最脆弱的断点。
阿里的优势,正建立在这种责任闭环之上。阿里拥有支付、商业与高频本地服务等完整基础设施。阿里还和支付宝打造了Alipay Toolkit,相当于谷歌的AP2智能体支付协议。千问C端事业群总裁吴嘉将其概括为“最强模型”与“最丰富生态”的结合。模型提供认知能力,生态提供执行环境,而两者的结合,决定了责任是否能够落地。
因此,随着Qwen3.5-Plus迭代模型能力,千问团队下一阶段的重心,将转向系统整合。用阿里千问团队的话来说,就是“构建具备跨会话持久记忆的智能体、面向真实世界交互的具身接口、自我改进机制,目标是能够长期自主运行、逻辑一致的系统,将当前以任务为边界的助手,升级为可持续、可信任的伙伴。”
通用智能体会首先在可验证领域落地。编码与数理证明已经提供了范例。而在消费场景中,真实交易结果比“答案是否正确”更具约束力。这种现实反馈,构成了后训练“环境扩展”的基础。未来Qwen在这里学习的,不只是语言模式,而是责任结构。
对于token经济而言,真正稀缺的不是算力,而是行动许可。如果Qwen能够在这种责任体系中建立信任,阿里赢得的将不仅是流量与用户活跃度,而是在AI时代重建商业的信任基础设施。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.