千问、灵光、夸克，阿里AI疯狂“补课”|推理|kimi|阿里ai|知名企业|阿里巴巴集团

分享至

定焦One（dingjiaoone）原创

作者 | 王璐

编辑 | 魏佳

阿里在C端AI产品上的密集布局，正引发行业新一轮关注。短短半个月里，阿里系连续推出两款重磅产品——阿里集团战略级应用千问APP与蚂蚁集团的全模态通用AI助手灵光APP，阵仗之大，颇为少见。

放眼全球AI To C赛道，市场竞争早已进入白热化：海外市场，ChatGPT牢牢占据用户心智；国内赛场则是硝烟弥漫，豆包已超越DeepSeek跻身月活TOP1，腾讯元宝、Kimi等无论是大厂出品还是创业公司的先发产品，都已积累了一批较为稳定的用户群。阿里此时入局，难免显得姗姗来迟。

但它并非毫无底气，一方面源于技术沉淀，千问并非从零打造，而是由此前的通义APP与夸克AI对话助手升级而来，核心依托阿里通义实验室最强的Qwen3-Max模型；另一方面则来自阿里系生态优势，用户可在千问中直接调用淘宝、闲鱼等多款应用的相关功能。

从目前的反馈来看，用户喜忧参半：支持者称赞千问在推理、编程等复杂场景下的表现亮眼，且生态联动的设想具备独特吸引力；质疑者则认为，千问的综合实力与同类AI助手相比并无突出优势，所谓的“生态联动”仍停留在基础层面，大多需要跳转链接才能完成操作。

而在阿里系内部，“夸克+千问+灵光”的多产品并行，更让从业者抛出了三个核心疑问：千问的真实实力在行业中究竟处于何种水平？在ChatGPT、豆包等玩家早已站稳脚跟的当下，阿里此时入场是否为时已晚？多个C端产品并行的布局策略，是否会导致研发、流量、营销等资源分散，反而难以形成合力？

全能的千问，离ChatGPT还有差距

作为全面对标ChatGPT的产品，千问APP的产品形态和市面上大部分AI助手区别不大，采用对话式交互、布局简洁的设计逻辑，用户点进去能清晰看出各功能分区。

比如用户可在页面顶部切换模型（Qwen3-千问和Qwen3-Max双模型），前者负责回答有关生活中的常见问题，后者主攻推理、代码生成等更为复杂的任务；中部是对话结果展示区，显示聊天回复和生成内容；底部则为功能导航栏和问题输入区，包含、文字、语音、拍照和多功能入口。

AI应用的核心竞争力来源于底层大模型能力，千问APP依托的是Qwen系列模型，并接入了通义实验室最强大的Qwen3-Max，虽然这一模型尚未开源，但综合官方公布的各项测试结果和从业者的使用体验，大家也能对千问的实力作出基本判断。

一位大模型从业者表示，大模型实力可从语言理解与生成准确性、数学与复杂推理、编程与代码生成、多模态、生态整合五个维度进行评判，我们也围绕上述几大方面对千问进行分析。

语言理解与生成准确性是大模型的基本功，考验其对多语言、方言及歧义句的理解能力，以及按需生成总结、文案、翻译等内容的水平。

相较于ChatGPT，千问的核心优势在于本土训练数据积淀，Qwen3-Max基于36T（tokens）语料训练，覆盖119种语言，在中文语境表现上更胜一筹，能灵活运用成语、方言及网络新梗。

比如面对“这家店的火锅好吃绝绝子，栓Q！”这一流行语，千问和ChatGPT均能解读出“火锅非常好吃，感谢”的核心含义，但千问还能捕捉“栓Q”背后“无语却仍想感谢”的微妙社交潜台词。

不过多位从业者表示，当前各大模型在表层标准任务的语言能力上差距不大，真正的区分更多体现在含推理的复杂场景中，集中在数学与复杂推理和编程与代码生成两方面能力上。

其中，数学与复杂推理能力可以简单理解为，大模型能否解决多步骤数学和复杂推理题。一位从业者表示，千问系列模型已达到开源第一梯队水平，特别是在数学竞赛、金融分析等特定场景中保持领先。

数据显示，Qwen3-max-thinking处在半成品（早期预览版）阶段时，便在AIME 2025和HMMT（哈佛-MIT数学锦标赛）的推理测试中拿到100%准确率的优秀成绩。

而编程与代码生成是目前大模型技术落地最为成熟的领域之一，千问的技术表现符合行业预期。其优势集中在中文编程适配与特定评测指标上，能生成可执行代码、调试错误、优化逻辑，适配不同编程语言和场景。

最后是多模态与生态整合能力，代表着大模型是否可以从“能用”发展到“好用”，也是当前行业竞争的核心战场。其中多模态相当于大模型的“感官”，集中体现在文字、图片、音视频等输入输出形式上，生态整合代表大模型“手脚”，影响的是Agent能力。

千问整合了文档处理、代码开发、文生图、图生视频等多元功能，形成了较为完整的应用生态闭环，满足用户多样化需求，但多位从业者指出，它在Agent能力上还有明显短板。

比如，让千问“规划一次完整出差”时，其无法像ChatGPT那样高效地整合多工具、多步骤信息，生成全面且可执行的规划方案，更多时候需要用户额外提供细节或进行多轮交互来逐步完善计划。

资深从业者赵江杰对「定焦One」表示，这本质是技术架构选择的差异，千问采用的是基于场景适配的专有Agent方案，仅在部分特定场景中专门构建了能完成对应任务的Agent，比如提供DeepResearch和PPT制作服务的Agent；而在没有配备专有Agent的场景下，会直接调用大模型，无法像专有Agent那样通过多步骤规划-执行迭代实现对应的效果。

ChatGPT Agent则不同，它采用的是端到端模型训练的通用Agent技术方案。在Agent模式下，无论输入何种需求，都会统一通过这个通用Agent来处理。不过需要说明的是，ChatGPT Agent在不少任务的执行效果上，比不上专有Agent。

打个比方，千问的专有Agent就像医院里的专科医生，针对特定病症（场景）能给出精准高效的治疗方案；而ChatGPT的通用Agent则像全科医生，能应对各类常见需求，但遇到需要深耕的“专科问题”时，专业性就不如专科医生了。

总体来看，千问的整体表现居开源大模型的顶尖行列，正持续追赶第一梯队顶级闭源模型的能力，但现阶段与ChatGPT相比，仍存在一定差距。

阿里现在做C端入口，不算迟

除了技术实力，阿里在C端赛道的入局时机也是外界关注的焦点。在豆包、DeepSeek、腾讯元宝、Kimi、文小言等竞品早已抢先落地的背景下，千问显得晚来一步。

千问于11月才推出，暂无最新数据，我们可以从更早的公开数据观察其前身的用户基础。QuestMobile数据显示，豆包和DeepSeek的9月月活（MAU）过亿，反观通义（现千问）仅有306万左右。

起跑线存在差距，但不代表着千问完全没有反超的机会，核心机遇来自两方面。

一方面，目前AI应用的用户忠诚度不高。

最明显的案例是Kimi，它去年靠投流获取了大量用户，但在今年被DeepSeek反超，证明AI产品依然可以凭借技术实力赢得用户。AI产品榜最新的10月榜单也显示，ChatGPT、豆包、夸克等头部AI助手的月活均增长缓慢，DeepSeek甚至还出现了倒退。更有专家公开表示，许多AI应用的首月用户流失率高达80%甚至90%。

这意味着，AI赛道尚未形成固化的用户格局，只要产品足够智能、好用，就有望快速吸引用户迁移。

另一方面，阿里的资金、生态和开源优势，是千问的后盾。

千问依托阿里云，能获得充足的底层算力支持；阿里系内部的淘宝、支付宝、高德等丰富垂类场景，为其带来了独特的数据优势；同时阿里在AI领域的持续人才投入，也让千问的技术研发有了可靠保障。

算力、数据、人才三者的结合，为千问大模型提供了技术基础。而开源策略进一步加速了千问的模型迭代与生态建设。

阿里对Qwen系列采用“核心旗舰模型闭源+轻量版本开源”的组合策略，相比纯闭源模式，这种方式既能让千问团队认知自身模型的优劣，还能吸引全球开发者参与共建生态，帮助千问实现更广泛的场景覆盖。英伟达的CEO黄仁勋在2025GTC大会上就曾提到，Qwen已占据全球开源模型的主要市场份额，且仍在持续扩大。

值得注意的是，阿里系的生态优势目前尚未完全发挥。

理论上，千问可与淘宝、支付宝等实现账号无缝登录与数据打通，借助高德、飞猪、饿了么等内部系统的标准化接口，降低工具调用的协调成本，最终实现从“对话咨询”到“完成支付”的端到端服务闭环。

但目前无论是ChatGPT，还是豆包、元宝、Kimi等国内竞品，都还停留在“导购+跳链”的初级阶段，尚未打通完整的Agent服务链路。赵江杰表示，千问当前也难以实现这一目标。

问题在于行业共性的技术瓶颈，“大模型还不能充分理解复杂场景需求，多App协同的逻辑设计仍不完善，Agent技术的实际落地还处于早期阶段，即便未来技术达到相应水平，淘宝、支付宝、高德等APP的API接口并非为Agent量身打造，也会制约生态联动的效率，”他补充，目前千问的生态联动仅体现在部分基础功能上，比如用户上传一双入门级羽毛球鞋的图片，千问会跳转至淘宝、闲鱼、1688等平台的搜索链接，更深层次的协同尚未实现。

总之，当前AI赛道的用户忠诚度尚未固化，千问依托阿里云Infra（算力）、阿里生态数字资源（数据）及阿里AI研究投入（算法），此刻入局还不算太迟。但若想真正发挥自身独有的生态优势，实现对竞品的反超，关键在于能否突破大模型的核心技术瓶颈，让产品能力再上一个台阶。

迈向超级入口，还有内外挑战

千问的最终目标是成为一个“超级入口”，不管是生活、工作还是学习场景，用户想获取信息、解决问题、完成任务，都能在这里搞定。但这条路并不好走，千问要面对的内外部问题有很多。

首先是内部的“同门竞争”。目前阿里系在C端已经推出了三款AI相关应用：千问、夸克和灵光，它们的功能撞车严重。

这三款里，夸克不是“天生带AI”的产品，它前身是2016年UC浏览器团队推出的夸克浏览器，2023年才升级成“一体化AI助手”，核心用的是阿里自研的千问大模型，到了2025年3月，又升级成“AI超级框”，主打在浏览器里就能做对话问答、总结信息、写内容、拍照搜题。

千问和灵光是基于AI技术打造的“原生应用”，两者的区别在于，千问是阿里直接开发，靠的是Qwen系列大模型，灵光由蚂蚁集团推出，背后是自研的百灵大模型。

阿里也给三者定下了不同方向：千问是“通用智能助手”，夸克聚焦“AI搜索+浏览器”，灵光则是“全模态的生产力工具”。以出游场景为例，可以简单理解为，千问能帮你策划完整出游，包含具体的预算和每天的行程；夸克主要帮你列当地特色景点；灵光会直接生成一个有文字有图片甚至可以互动的旅游小程序。

但实际体验下来，三者的功能重合度远超预期。「定焦One」让它们分别规划“下周末三天两晚的两人亲子三亚游”，要求包含预算、行程、景点和美食，结果三者给出的内容类似，主要区别在于：

千问给出了最详细的行程，以小时为单位。但弄错了时间，把下周六（11月29日）写成了11月30日；

夸克按照上午、下午进行规划，略显粗糙；

灵光在文字规划外还配了大量图片，形式更为丰富。

从左到右依次为：千问、夸克、灵光

三者给出的预算也接近，千问给出了（2大1小）的总预算为4800-6200元；夸克按单人算，分了经济型、舒适型、品质型三档，最便宜的经济型1500-2000元/人，和千问的总预算折算后差不多；灵光给出的人均预算也在1500-2500元，并在此基础上做了预算对比柱状图。

灵光的预算柱状图

整体来看，尽管定位各异，但在具体任务上三者的方案高度趋同，差别更多体现在呈现方式。

赵江杰分析，之所以内容重合度较高，特别是夸克和千问的回复，核心原因有两点；一是网上关于三亚旅游的公开资料信息源相对固定，而大模型本质上是对现有信息进行组合加工，因此其处理的上下文也比较类似；二是千问和夸克背后均采用Qwen系列大模型，面对这类特定问题时，二者的思考逻辑相近，输出结果自然也就趋于一致。

不止一位从业者觉得，现在夸克和千问的功能重叠严重，甚至千问已经涵盖了夸克的核心功能。赵江杰也认为，如果夸克不突出自己的浏览器属性，很容易让用户产生用夸克还是千问的认知混淆。

此举也会导致阿里集团的资源（比如流量、研发投入、营销费用）分散投放。而且夸克还在给千问导流，搜索框里专门加了千问按钮，用户只需点击或者滑动，便能直接进入千问界面。

从夸克首页可进入千问

除了内部竞争，千问还面临一个关键问题：阿里内部各业务线愿意给它开放多少核心数据，直接决定了千问的聪明程度。

比如淘宝是否可以把实时价格波动、真实的用户评论等内部数据开放给千问，如果只给一些浅层的商品信息，千问就无法根据用户的历史消费偏好做精准推荐，自然也就难和其他竞品形成差异化。

但开放核心数据又会带来隐私安全挑战和用户信任度的问题，比如让它推荐一款手机，用户可能会觉得“这是在为淘宝带货”，所以有从业者认为，千问后续可能还需要接入京东、美团这些非阿里系的服务，才能显得更中立可信。

此外，千问面临的外部压力也不小，其他大厂也具备做“AI超级入口”的潜力，比如技术领先的ChatGPT拥有全球范围的知识库，国内的字节豆包、腾讯元宝用户基数较大，模型迭代速度也很快。

可以说，千问是阿里押上自身最强技术、最全生态，在AI的C端战场上最关键的一次出手。但它离真正的“超级入口”，还有很长的路要走，这也是阿里必须补上的关键一课。

*题图来源于pexels。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.