阿里Qwen3.5上桌，闭环国民级智能体|调用|模态|编程|大模型|知名企业|阿里qwen|阿里巴巴集团

阿里Qwen3.5上桌，闭环国民级智能体

2026-02-16 22:59:17　来源: 未尽研究

上海举报

分享至

中国的马年春节，正在成为个人智能体大规模落地的首个标志性场景。

春节是中国科技巨头改写用户习惯的关键时间窗口，也是大模型厂商布局新一年竞争的前哨战。今年尤其如此，因为智能体正变得更轻快、更聪明、也更可用。

除夕夜，阿里巴巴开源全新一代大模型千问Qwen3.5-Plus，性能媲美Gemini 3 pro，登顶全球最强开源模型。阿里千问App这个国民级消费AI应用，已经第一时间接入这个原生多模态智能体底座。在全面开启AI购物功能后，千问App月活用户已经超过1亿，一周内完成1.2亿笔订单，差不多平均10个中国人尝试了1次。

得益于它在底层模型架构的全面革新，为Qwen3.5家族打头阵的Qwen3.5-Plus（Qwen3.5-397B-A17B的API版本），总参数3970亿，激活参数170亿，但性能超过万亿参数的Qwen3-Max模型，堪比Gemini 3 pro。它的“部署成本”比前者降低了60%，API调用价格仅为后者的1/18。在32K/256K上下文长度下，它的最大解码吞吐量分别是Qwen3-Max的8.6倍和19.0倍，是Qwen3-235B-A22B的3.5倍和7.2倍。

全新的Qwen3.5-Plus，是一个原生多模态模型。千问家族从Qwen2.5到Qwen3，预训练数据从18T tokens扩展到36T tokens，是纯文本数量的扩展；这次迈向Qwen3.5时代，预训练数据进一步扩展，而且这次还是视觉和文本的混合数据。它支持长达2小时（1M token上下文）的视频直接输入，在多模态推理（MathVison）、通用视觉问答VQA（RealWorldQA）、文本识别和文件理解（CC_OCR）、空间智能（RefCOCO-avg）、视频理解（MLVU）等基准测试中，斩获最佳性能。

它因此化身为智能体模型，尤其是在搜索Agent（Browsecomp）表现上遥遥领先。作为一个视觉智能体，Qwen3.5-Plus可以自主操作手机与电脑完成日常任务，能处理跨应用的数据整理、多步骤流程自动化等复杂任务。这为千问App巩固自己国民级超级AI应用的地位奠定了基础。

进入Agentic时代

从简单问答，到单次执行，再到多步骤智能体执行，行业正在进入一个新的演进周期。它面临的不再只是回答问题的准确率，而是推理深度、跨模态整合、编码与工具调用能力、长期记忆与成本效率的综合考验。

几乎全世界最重要的大模型公司，都选择集中在最近几十天里发布重量级的新模型。在美国，Anthropic的Claude Opus 4.6与OpenAI的GPT-5.3-Codex相继上线；在国内，月之暗面的Kimi-K2.5、智谱的GLM-5、稀宇科技的MiniMax-M2.5，以及字节跳动的Doubao-Seed-2.0，都在宣传自己的智能体能力。去年至今，阿里巴巴千问模型迭代至今天压轴的Qwen3.5，也正是这一变化的缩影。

推理能力的进化，已经在你追我赶中，快速演进了一年多。从 o1 到 DeepSeek-R1，再到 QwQ-32B，强化学习被重新确立为扩展能力的主线之一，证明了在后训练阶段，规模扩展仍然有效。而在 Qwen3.5 中，强化学习的重要性被再次强调。但这一次，重点变成了“环境扩展（environment scaling）”，即模型所处的可操作任务世界的数量与多样性，正在成为新的扩展方向。

编码能力在这一年完成了沉淀。对于智能体而言，代码不仅是解决未见问题的工具，更是一种让模型得以修改环境、重构流程，甚至实现智能体持续学习与自我迭代的“元能力”。去年7月，Qwen3-Coder-480B-A35B-Instruct开源，性能对标Claude 4 Sonnet。它最大的创新在于具备智能体功能，一条命令接管整个代码仓库，实现“在世界中自主编程”。发布半个月内，它迅速蚕食多模型API聚合平台OpenRouter上的编程市场份额，Anthropic占比从47%回落至30%。Perplexity首席执行官Aravind Srinivas直呼“开源正在取胜”。

过去一年，原生多模态已从前沿模型的能力选项，演变为主流模型的基础结构。去年3月，GPT-4o拥有了图像生成能力，OpenAI相信原生统一的多模态大模型，才能更完整地映射现实世界。同年11月，Gemini 3亦以原生多模态为核心设计。越来越多GUI智能体开始在手机与电脑端运行，视觉能力成为模型连接现实世界的关键接口。而从Qwen家族的视觉语言模型VL，到图片生成Image，再到原生全模态大模型Omni，阿里坚持全模态扩展与开源。因此，这次Qwen3.5构建覆盖视觉能力的原生多模态底座，也就顺理成章。

过去一年的多条技术路线，并非并行存在，而是被持续整合进旗舰模型之中，逐步强化了智能体调用工具的能力。去年4月，阿里Qwen-3正式发布，对智能体开发友好，原生支持 MCP 协议，提升了代码能力，工具调用顺手。今年1月，Qwen3-Max-Thinking发布，大幅增强了自主调用工具的原生Agent能力，模型可像专业人士一样边用工具边思考，幻觉也大为降低，为解决真实复杂任务打下基础。

在多步骤、多智能体协作的环境中，速度成为决定token价值的隐藏变量。字节跳动发布 Seed-1.8 时披露，一个跨平台搜索比价任务需要执行122个连续步骤。也许要实现真正的“直接下单”，一个AI购物智能体在后台完成的步骤只会更多。

这需要一次面向规模效率的底层架构重构。去年9月，阿里巴巴发布Qwen3-Next，总参数规模800亿，预训练15T tokens，为此做了一次“中试”。千问大模型负责人林俊旸自称为“大胆”。它尝试用极致稀疏MoE，低成本扩展模型的智能涌现的上限；迈出了高度复杂的混合注意力（Hybrid Attention）的一大步，既高效又精准地扩展上下文长度。

从Qwen3-Next到真正“量产”的Qwen3.5，团队沿着这一路线继续优化，采用了更高稀疏度的MoE、Gated DeltaNet与Gated Attention结合的混合注意力、稳定性优化与多token预测。这让Qwen3.5-Plus仅需不到5%的算力，即可调动全部知识储备；解码吞吐量随之大幅提升，在高频场景中呈现出接近“秒回”的响应体验。

性能更强的旗舰模型Qwen3.5-Max，也将在不久后发布。

国民级信任，国民级验证

在阿里千问的官方博客上，Qwen3.5被视为为通用智能体奠定了坚实基础。但通用智能体并不是一个更大的问答模型，而是一个“知行合一”的系统。它不仅理解世界，还能在世界中行动；不仅生成答案，还要承担后果。

正如微软CEO纳德拉（Satya Nadella）所言，传统的业务逻辑层正在被“agent tier（智能体层）”取代，这意味着决策权从人类工程师，开始逐步转移给模型。OpenClaw的爆火让人看到，在获得系统级权限后，通用智能体的边界，不在认知边界，而在责任边界。

对于阿里千问App这个国民级AI应用而言，每一次自动下单、每一次跨应用操作，也都是一次决策权与责任的转移。不承担责任的智能体，只是更高级的副手（copilot）。过去一年，全球科技公司都在尝试把智能体推向交易场景。但是它们普遍面临的挑战在于，身份验证是否可靠、支付与交付是否顺畅、上下文是否可追溯，无法在同一系统内完成责任的确认与修正。这是通用智能体落地最脆弱的断点。

阿里的优势，正建立在这种责任闭环之上。阿里拥有支付、商业与高频本地服务等完整基础设施。阿里还和支付宝打造了Alipay Toolkit，相当于谷歌的AP2智能体支付协议。千问C端事业群总裁吴嘉将其概括为“最强模型”与“最丰富生态”的结合。模型提供认知能力，生态提供执行环境，而两者的结合，决定了责任是否能够落地。

因此，随着Qwen3.5-Plus迭代模型能力，千问团队下一阶段的重心，将转向系统整合。用阿里千问团队的话来说，就是“构建具备跨会话持久记忆的智能体、面向真实世界交互的具身接口、自我改进机制，目标是能够长期自主运行、逻辑一致的系统，将当前以任务为边界的助手，升级为可持续、可信任的伙伴。”

通用智能体会首先在可验证领域落地。编码与数理证明已经提供了范例。而在消费场景中，真实交易结果比“答案是否正确”更具约束力。这种现实反馈，构成了后训练“环境扩展”的基础。未来Qwen在这里学习的，不只是语言模式，而是责任结构。

对于token经济而言，真正稀缺的不是算力，而是行动许可。如果Qwen能够在这种责任体系中建立信任，阿里赢得的将不仅是流量与用户活跃度，而是在AI时代重建商业的信任基础设施。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.