每个大模型，都要找到自己的非对称优势|飞轮|上下文

分享至

来源：市场资讯

（来源：钛媒体APP）

“四月是最残忍的季节”，艾略特《荒原》开篇这句诗，在4月的AI行业，有了新注脚。

这是大模型史上最拥挤的一个月，全球前沿模型与重大版本发布了超过15款，尤其是4月16日到24日，9天内就有9款大模型扎堆发布：Claude Opus 4.7、Qwen3.6-Max、Kimi K2.6、GPT-Image 2、蚂蚁Ling-2.6-flash、小米MiMo-V2.5-Pro、腾讯Hy3 Preview、ChatGPT-5.5、DeepSeek V4。

发布密度与竞争烈度，达到空前地步。

五一假期后，全球最大的模型分发市场OpenRouter，公布了最新的开发者市场份额，以token消耗量计，9款新发布大模型里，有4款冲进前五：腾讯14.7%排第一，Anthropic 13.6%第三，DeepSeek 10.3%第四，OpenAI 10.0%第五。

腾讯登顶有限免的因素，但近期持续保持在榜单前列，说明重建后的混元还是立住了，不然哪怕免费也没人愿意用。相比之下，升级了代码能力的ChatGPT5.5排第五，倒是有点让人意外。

不过比排名更重要的，是背后反映的趋势：模型的参数和跑分，已经不是评判大模型的统一标准了。虽然今年大家都在讲代码能力，但公认代码更强的Anthropic和OpenAI，排名还不如最近拉响红色警报、在紧急提升代码能力的谷歌。

这说明什么？对大模型而言，能力之外的“资本”并不等于零，而且还越来越重要了。

可以说，大模型重点提升的能力，越来越同质化；但每一家押注的发展方向，却越来越分化了。

1、训练什么，共识已成

打开4月发布这些大模型的技术博客，你可能会反复看到这几个能力和相关的测评：推理、代码、Agent、长上下文。

这几个能力并不孤立，也不是并列关系，而是组成了一条能力链，让大模型从一个会聊天的机器，变成一个能独立完成复杂任务的助手。

推理能力，关系到这个助手的脑子好不好使。简单的事谁都能做，但如果一件事有五个步骤、中间还有几个坑，他能不能想清楚再动手，这就要看推理能力。

长上下文，决定助手的记性好不好。你把一份200页的合同扔过去，他能不能从头看到尾、前后对照着分析，还是看了后面忘了前面？记性不好的助手，就只能处理简单的小任务，做不了复杂工作。

代码能力，意味着这助手具备了实操的硬技能。脑子好、记性好，但什么工具都不会用，那就是只能动嘴不能动手，会写代码意味着他能直接操作电脑、处理数据、调用各种系统，把想法变成真实的输出。

Agent能力，则是决定这助手能不能独立干活。前三个能力再强，如果没有这个能力，意味着你得一步一步地指挥他，有了Agent能力，你只需要说"帮我把这件事搞定"，他自己会拆解任务、制定步骤、遇到问题自己调整，真正实现自动化操作。

今年的行业共识是，AI从Chatbot的聊天工具转向agent的办事助理，如今大模型重点提升的这些做事相关能力，正是agent时代到来的直观证明。

但问题是，具备做事能力只是agent时代的基本要求，训练出来的能力要用来做什么，才是如今每一个大模型的必答题。

OpenRouter榜单前几名模型——Anthropic与谷歌，Deepseek与腾讯，中美各两家，新兴大模型公司与传统互联网公司各两家——的选择就是典型案例，说明大模型的发展走入了一个小径分岔的花园，每个大模型都要开始押注不同的路径，要找到、放大自己的非对称优势。

2、大路朝天，各走各边

作为现在势头最猛的大模型公司，Anthropic押注的路径很清晰：做强大且可靠的生产力工具，撬动高质量客户。

中国人都熟悉的一句话，“科学技术是第一生产力”，正在被Anthropic严格践行，刚发布的Claude Opus 4.7，主打的“代码能力”和“可靠性”，都以生产力第一为导向。

虽然很多人吐槽Claude价格贵，但如今主流的AI编程工具，Cursor、Windsurf、Replit……默认调用的模型还是Claude。Opus 4.7发布后，Cursor的CEO Michael Truell也提到：“在CursorBench上，Opus 4.7从58%跃升到70%，这个跃升意义重大。”

这次Opus 4.7还做了一个很特别的选择：主动降低模型的进攻性网络安全能力。明明可以更强，为什么要自我设限？因为要照顾核心客户的需求。

金融机构、医疗系统、法律事务所，这些客户不仅要求模型干活能力强，还要安全可靠。为此，Anthropic甚至雪藏了自己最强的Mythos模型，因为模型能力"过于危险"，会打破网络攻防原有的平衡，所以不向普通公众发布。

不做平台，不抢入口，只做最强且可靠的生产力模型，卖给最看重质量的那批客户。可以说，Claude用实力证明贵是你的缺点，不是它的缺点。

Deepseek押注的路径也很清晰：用极致性价比，构建开源生态。

与Opus 4.7前后脚发布的Deepseek V4堪称“价格屠夫”，在标准定价下，DeepSeek V4-Pro的成本只有Opus 4.7的1/6，一旦输入命中缓存，这个比例会进一步变成了1/8。如果叠加新版发布后的限时优惠，输入缓存命中的价格相当于原价的1/40。

要知道，在综合能力上，Deepseek V4是跟两个月前发布的Opus 4.6、ChatGPT-5.4旗鼓相当的，这种高性能+低价带来的，是令人震撼的极致性价比，也难怪V4发布后，港股两大AI明星公司智谱和MiniMax都躺着中枪，股价都是单日大跌9%。

更关键的还有两件事：V4采用MIT协议全量开源，权重完全开放，任何公司都可以下载、修改、商用；V4完全在华为昇腾上完成训练，不依赖英伟达芯片。

这传递的信号很清晰了，DeepSeek要做的是开源世界的基础设施，让全球开发者都在DeepSeek的模型上构建应用，让前沿能力的价格门槛被打到地板上，让影响力以另一种方式蔓延出去。

放弃直接的商业回报，能换来两个非对称优势：一是开发者心智，谁先把价格打下来，谁就先建立起生态依赖；二是地缘安全垫，不依赖英伟达芯片就能做前沿模型，在美国芯片出口管制日趋收紧的背景下，这是国家级的战略价值。

同为大模型公司，Anthropic赌的是少数高价值客户的钱包，DeepSeek赌的是多数开发者的心智，但都要靠模型去建立独特的护城河，因为它们没有原生场景，缺少成熟生态。

3、全栈闭环、场景渗透

相比之下，谷歌和腾讯原有的业务成熟、场景丰富、生态繁荣，大模型扮演的角色跟模型公司有些不同，更多是成为放大自身业务优势的能力底座。

谷歌押注的是“全栈闭环”，因为它是少有的、在AI产业每一层都有布局的公司，芯片有TPU，模型有Gemini，云有GCP，应用有搜索、YouTube、Workspace、Android，谷歌现在做的，是把自研芯片、大模型、云平台和消费产品，串联成一个相互强化的闭环：

自己造的芯片训练出更强的AI，更强的AI让搜索、YouTube这些产品更好用，几十亿人每天用这些产品产生的数据，反过来让AI变得更聪明。与此同时，那些想用AI的企业花钱租谷歌云服务，这笔收入又降低了芯片成本，让整个循环转得更快。

这是大模型公司无法复制的优势。竞争对手可以买芯片，可以训练模型，但买不来几十亿每天离不开的用户，也没有那个把所有环节串在一起、让每一步都给下一步输血的系统。

这也给了Gemini更从容的底气。前两年Gemini一直被诟病跑分追不上GPT，体验比不上Claude，去年年底短暂的王者归来登顶SOTA，最近因为代码能力的落后，又拉响红色警报，正在全力补课。但有系统兜底，对谷歌来说，Gemini非常重要，但不是唯一重要，一时间的落后是能被容忍的，因为很少有大模型像它一样，有明确的应用场景、数据飞轮，也有明确的回报路径。

从这点看，腾讯混元的处境跟Gemini颇有相似之处，都是有明确应用场景、数据飞轮和回报路径的大模型。腾讯押注的"场景共生"，也是让大模型成为腾讯产品和业务升级的新引擎，进一步发挥自身的产品、场景和生态优势。

最近HY3 preview发布时，用了“重建”这个词，并强调“真实场景可用性”——要知道，之前的混元看重榜单，甚至用监督微调去打榜，测试分数好看，但在真实场景基本用不了，腾讯很多需要AI能力的产品，都得去找其他解决方案。

现在为了适配场景，HY3 preview甚至自创了评估模型上下文学习能力的CL-bench，用来检验大模型在复杂上下文中的学习和指令遵循能力，显而易见，AI要在腾讯的社交场景里干活，这是必不可少的能力。

这种场景适配的路线，更直观体现在混元的Co-design机制上。过去大模型研发，一般是先闭门训练模型，训完交给产品团队去接入。现在混元研发用的Co-design机制，则是从设计阶段就让产品需求进入模型训练目标，把真实用户的行为和反馈，带进了模型的评测体系里，并让模型对齐业务中prompt的真实分布。

这套机制带来一个正向循环：产品团队共建评测集，模型据此迭代，改善后的模型回到产品接受真实用户检验，新反馈再进入下一轮，数据飞轮就这样转起来，模型能力和产品体验同步提升。

从这角度看，腾讯拥有的丰富产品和业务场景，就是混元的独特资产，越多产品接入和反馈，混元能跑得越快、做得更好。如今无论是成为OpenRouter的榜一大哥，还是腾讯内部越来越多产品接入，也说明混元的路径初步获得认可。

虽然腾讯和谷歌，一个赌的是基础设施级的复利，一个赌的是场景级的复利，但模型的角色是类似的：让模型的价值不靠“模型本身”，而靠“模型嵌进独有生态后的化学反应”。

产生化学反应需要时间，这也是二者的节奏相对慢一些的原因。腾讯股价最近跌跌不休，但只要路走对了，并能持续加速，这种独特优势迟早都能让AI投入兑现为业务收入。

谷歌最新一季度的财报已经做了一次示范：云业务营收同比增长63%，运营利润率33%，订单积压规模近乎翻倍达到462亿美元。化学反应的到来，让谷歌CEO劈材哥在财报会上说话很有底气：“我们在AI的投资与全栈布局，正在推动全业务线的业绩增长。”

4、主动取舍，打磨锯齿

无论国内和国外，如今的大模型，在激烈的竞争中，都在主动做出取舍。

OpenAI砍掉sora、押注统一的agent平台，要做个人AGI入口；豆包垂直打通模型与产品，押注与业务场景最适配的多模态能力；Kimi放弃曾经的长文档和写作优势，押注多智能体协同能力……

4月，斯坦福大学发布的《2026年人工智能指数报告》提到一个概念，今天的AI能力是“锯齿状前沿”，参差不齐、凹凸不一，在某些任务上已经远远超过人类，在另一些任务上连小学生都不如。

能拿下国际奥数金牌的顶级模型，读一个模拟时钟的准确率只有50%；能在代码工程基准接近满分的模型，在多步骤规划上依然一塌糊涂。

用这个概念来理解大模型竞争，再贴切不过：大模型不再追求全面领先，而是在主动选择自己的锯齿形状——在哪些场景磨得足够锋利，在哪些场景接受平庸。

在整个AI行业面临算力资源紧张，资本投入巨大，商业前景不明，回报预期抬高的当下，这是必然要做出的选择。

大模型从业者喜欢说bet（下注），如今无论是硅谷御三家，还是BAT的字节阿里腾讯，再到Deepseek、Kimi、智谱，确实都到了要下注的时候了——大模型能力是杠杆，你最终要撬动的东西到底是什么，你的非对称优势是什么，才是未来的决定性因素。

好戏还在后头。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.