2026，是个“AI多模态大年”！普通人如何看懂十万亿美金的变局？|谷歌|智能体|工作流|新论文|知名企业|agent|ai多模态|openai

分享至

当大模型的“暴力美学”逐渐步入深水区，全球 AI 产业的叙事逻辑正在发生深刻演变。OpenAI、Google、Anthropic 三强割据，谁能率先推开 AGI 的大门？下一代技术范式 continual learning（持续学习）将如何颠覆现有格局？

2026年1月10日的课程中，我们特别邀请到了拾象科技创始人兼 CEO 李广密老师讲授《2026AGI洞察与投资趋势》。作为深度穿梭于硅谷与中国的一线投资人，他将带我们跳出繁杂的现象，从宏观视角复盘 AI 军备竞赛，预判 2026 年的AI创业胜负手。

李广密老师立足于全球视野，深度复盘了过去三年 AI 浪潮的演进路径，前瞻性地提出了 2026 年 AGI 发展的核心判断。李广密老师将结合其在硅谷的一手调研经验，深入剖析顶级模型公司（OpenAI、Google、Anthropic）的战略分化，探讨算力基建（GPU与TPU）的阵营对抗，并揭示在“技术溢出”红利下，创业者如何捕捉下一个千亿美金级别的“新物种”。

课程不仅涵盖了宏观的投资策略，更通过 Cursor、ElevenLabs、Open Evidence 等前沿案例，具象化地展示了 AI 落地知识工作者、医疗、法律等垂直领域的商业潜能。

以下是课程部分精华内容，完整版内容在混沌APP。

友情提示：本文仅作为研究思考分享，不构成任何投资建议。

作者 |Guangmi，Penny，Cage，Haina，Feihong，Siqi，Nathan

转载自 |海外独角兽

Where are we now ？

判断1：AI Labs竞争常态：“交替领先”+“分化”

全球AI模型的头部格局已基本确定：OpenAI、Anthropic（Claude）和Google（Gemini）构成第一梯队。

模型能力上个位数百分点的领先，在商业回报上往往会被放大为数倍差距，技术领先与品牌效应叠加所形成的高溢价让这三个AI labs不仅吸纳了大量了头部人才，也分走了今天LLM领域中绝大部分价值。这一现象类似职业体育：梅西、C罗等顶尖球星可能能力上并没有比其他优秀球员强几十倍，但他们的商业价值和收入却高出几十倍。

在整个Tier 1阵营里，AI labs之间呈现出“交替领先”和“分化”的状态。

趋势1：技术路线分化

在通用能力彼此胶着的背景下，不同AI labs都做出了明确的战略选择，在模型能力的具体优化重心上也出现了分化：

•OpenAI坚定bet to C：ChatGPT在To C依然保持着断档式的领先优势，目前DAU接近4.8-5亿，大约是Gemini（约9000万DAU）的 5.6 倍（备注：数据截止至2025年12月）。尽管Google的Gemini在生态上更具优势，但ChatGPT一直在围绕 to C场景做专门优化，体验依然更胜一筹，从团队做广告、电商的投入来看，ChatGPT是在朝着“下一个 Google”发展。

•Anthropic毫无疑问专注于To B、Coding/Agent等专业领域，放弃了通用的To C市场。Claude Opus4.5在软件开发和Agent领域依然是SOTA，在处理长任务时更可靠、效果更好且更节省Token。我们认为Opus 4.5可能是一个被低估的模型。如果没有这种专注Coding的战略Bet（押注），Anthropic很难在巨头的激烈竞争中生存下来。

•Google在战略优先级上把多模态放在首位，Gemini 3的多模态理解能力也处于断档式领先地位，但在Text和Coding（包括Agent）能力上，目前更多是追平OpenAI和Anthropic之前的水平；

是否理解模型特性及其未来半年的演进方向，直接决定了接下来对Agent公司的投资逻辑：是选择“聚美优品”还是“拼多多”：

•“聚美优品”：即vertical agents（垂直智能体），这些产品往往把某个场景服务得很好，也因此能快速实现盈利能力，但面临的风险也很现实，“通用平台，即AI labs会不会做”？

•“拼多多”：能够在通用平台之上构建出了独特价值层，具备更强的长期战略价值。

趋势2：两大算力阵营

因为Google的快速追赶，算力角度看，行业也正在形成两大对垒阵营：GPU vs TPU。这两大阵营也会是是未来贯穿一二级科技投资的主线。

Google凭借“模型+TPU+云+产品”构建了端到端、自成一体的生态，类似LLM时代的Apple，而NVIDIA更像是LLM时代的Android，支撑起了一个庞大的生态联盟。在NVIDIA生态下，OpenAI和Anthropic依然是“优等生”，在人才密度上略优于Google。

从当前阶段看，GPU在综合性能上仍优于TPU，但GPU受制于台积电产能，且成本昂贵；而Google通过TPU展现出更强的成本控制潜力。与此同时，“NVIDIA + OpenAI”这条主线在短期内可能被市场低估，尤其是在OpenAI新模型持续发布的背景下。

判断2：Google+OpenAI=$10T

因为OpenAI bet to C的策略使得它和Google更像是“头对头”竞争，也因此，过去一个季度，Google Gemini 3效果超预期之后，市场对OpenAI的态度立即很bearish（悲观），但今天的AI并不是“零和博弈”，Google的崛起并不意味着NVIDIA和OpenAI的衰落：Google与OpenAI的关系，更像是短视频时代的抖音兴起时，给长视频时代的优酷所带来的整体增量，两者是共同把盘子做大。

长期来看，Google和OpenAI将是一个比较好的组合，在C端市场可能会形成平分天下的局面，Google短期内因PE扩张显得估值偏高，而OpenAI则处于被低估的状态。

但长期来看Google与NVIDIA是最快接近10万亿美元市值的公司，Google市值从当下增长至10万亿的难度，或许小于过去从百亿到千亿、千亿到万亿的跨越。而OpenAI的最新估值已经接近万亿美金水平。

判断3：2026年会看到下一个范式信号

Continual Learning（持续学习）作为下一个极其重要的技术范式，这个方式在过去半年中在OpenAI、SSI、Thinking Machines Lab等头部AI labs 、AI researchers 中逐渐扩散，并最终形成共识，对Continual Learning的探索也才刚刚开始。

我们有一个比较激进的判断：从范式级别，今天大家热议的机器人、世界模型、多模态，很多可能是“假问题”，而Continual Learning才是“真问题”。

从范式角度，Pre-training面临的边际效应递减、投入巨大以及数据枯竭等严峻挑战已经是不争事实，例如Gemini 3使用的50T数据量已接近极限，模型的激活参数并没有无限变大，反而变小了。

其次，今天的LLM本质上是“冻结的智能”，它们在推理时表现出色，但无法从每天的交互中实时吸取教训。未来的模型应该从“静态”转向“鲜活”，在推理和交互的同时进行学习，只需更少的数据就能学得更快，实现真正的数据飞轮。这就是Continual Learning要做的事情，之所以说它是范式级的探索，也是因为一旦模型具备这样的能力，智能进阶的速率又会到达一个全新的量级。

如果Continual Learning这个问题不解决，做机器人就会像上一代做NLP或自动驾驶一样，需要一点点去采集数据，要走10年的弯路。

Continual Learning是让AI具备“超级学习力”

这一新范式的目标是从“存储知识”转向“样本效率”（Sample Efficiency）。Ilya曾提出“超级实习生”的概念，认为真正的超级智能应像高智商实习生一样，具备极强的学习能力，看几个案例或写几行代码就能迅速掌握业务，而非仅仅依赖百科全书式的知识存储。

但这一新范式的成熟还需要基础设施的支持如更长的Context、LoRA以及推理时的多模型并行采样等，以及Continual Learning是长上下文、模型遗忘机制及数据分布漂移等5-10个学术难题的集合，因此难以在短期内迅速突破，但学界和业界普遍乐观预计在2026年能看到明确信号，并希望能在未来1-3年内逐步解决这些子问题。

目前，早期信号已现端倪：

•Google Research发布的Nested Learning通过引入动态记忆机制，展示了初步的In-weights Learning能力。

•Cursor是目前Online RL的典型雏形，它虽然距离真正的Continual Learning尚远，但通过捕捉用户对代码的接受或拒绝行为，能够在极短周期（如小时级）内更新模型。这代表了一种趋势：模型和产品的学习曲线将变得越来越平滑，从“静态冻结”转向“越用越聪明”，用户的每一次交互不仅是使用，更是对模型的训练。

在这一领域，OpenAI依然遥遥领先且投入最大，其次是SSI 和 Thinking Machines Lab。从团队渊源来看，Anthropic是OpenAI最早的 Scaling team，Ilya的SSI代表了Pre-training team，而Thinking Machines Lab则是原班ChatGPT和Post-training team，这些顶尖团队都在布局下一盘大棋。

判断4：AGI竞赛是“马拉松+自动驾驶”，是持久战和现金流之战

今天的模型本质上仍是巨大的压缩器，缺失数据类型的任务无法完成，因此需要大量冷启动数据。尽管模型的知识储备远超大多数人类，但Agent尚未接触真实工作场景。为了实现强化学习的泛化，需要收集顶尖专家在实际环境中的操作数据，例如打印店操作、SaaS使用流程、银行系统交互或皮肤科诊疗记录等。

这种情况很像自动驾驶：Agent需要处理大量长尾数据，这中间要经过很长的时间。不过，虽然全面达到L4级别困难，但在知识工作者的垂直领域，局部L3/L4已实现可观效率提升，带来百亿美元ARR级别的价值。

所以如果回到资本和现金流的竞争：

•Google、字节这样的优势就相当明显，是强共识性的 AI winner：既拥有现金流机器，人才和技术积累密度也足够高；

•Meta虽然也有自己的资本优势，且投入巨大，但考虑到团队变动以及历史的积累，结果充满不确定性；

•OpenAI和Anthropic这样的头部labs在资本充裕的一级市场环境中，也可以凭借强大的融资能力实现持续的资金净流入。

判断5：AI必须回答商业模式和效率质疑

整个市场对于AI Bubble（泡沫）的担忧都来自于Sam Altman提出了1.4万亿美元的Financial Obligation，客观来说，我们可以从算力投入角度合理化这笔巨资，但从商业模式视角下很难去理解清要如何收回成本更加重要。

深入分析OpenAI的合约条款会发现，

这1.4万亿中有很大一部分（特别是2028年以后的部分）包含了创新性的“有条件解锁”条款。

这意味着它不同于传统软件行业的RPO（剩余履约义务），这部分承诺相对更容易撤销或展期。据估算，容易撤销或展期的部分可能占到1.4万亿美元的2/3。

在目前OpenAI清晰可见的商业模式下，即使将预期拉满，未来的收入规模也仅在2000-3000亿美元之间，这仅仅能勉强抵消巨额的资本开支折旧，远远没法覆盖投入的资金成本。

•ToC市场：在订阅制上，假设拥有40亿周活用户且订阅率达到10%，年收入约为800亿美元。这要求付费用户规模达到4亿，相当于Office Commercial的体量，甚至远超Sam Altman预测的2030年2.2亿付费用户数。而在电商与广告领域，AI将陷入存量博弈，如果达到Amazon或TikTok的变现水平，收入约400亿美元；如果达到Google或Meta的水平，则可达1000亿美元。

•ToB市场：即便假设5000亿美元的SaaS应用市场全部被AI重构，且OpenAI能从中收取20%的“过路费”，其收入上限也仅为1000亿美元。

而且，如果AI仅仅是创造了另一个争夺存量广告和电商生意的互联网平台，则今天所有全球资源集中涌入这个领域的意义会非常有限。

OpenAI真正的想象力收入在于那些目前尚“看不清”的Net New TAM（新增净量），今天我们能看到相对有确定性的是AI作为新劳动力的价值释放，甚至创造增量GDP：

•如果Agent能创造20%程序员的价值，对应的是3000亿美元的IT服务市场增量；

•如果能创造20%白领的价值，这一数字将提高到3.5万亿美元。

但要做到这一点仍需要解决模型可靠性和端到端能力，依赖Continual Learning的本质突破，这也是long-horizon agents（长时程智能体）成为一个重要命题的原因。

而更远期的还包括AI时代的消费电子新设备、以AI为中心的云架构以及Sora带来的新娱乐形式等等，概括来说，Sam Altman此时的巨额投入，实际上是在为Something never seen提前下注。

目前我们更倾向于将AI投资视为一种“国防”开支，即巨头们为了避免被颠覆，即便超越商业回报考量也会投光最后一分钱。NVIDIA、微软和 AWS 会继续支持OpenAI 和Anthropic，以维持制衡，避免Google或OpenAI一家独大。

判断6：AGI投资：只bet技术成长最陡峭的地方

AGI投资的核心策略是，只Bet技术成长最陡峭的地方。具体拆解下来有三条主线：

1.投资全球最领先的模型公司：只有参与最大的综合平台投了，才能吃到最大的beta，长期的复利才是最大的。

2.投资最领先模型所需要的算力和硅基Infra；

3.投资最领先模型技术溢出的红利；

考虑到技术变化极快且各家交替领先，很难准确预判某一家是最终的Winner，因此最好的策略是构建一个AGIIndex，一个理想的AGI Basket配置是：OpenAI、ByteDance、Google、Anthropic、Nvidia，以及TSMC。

扫描海报二维码学习好课：《2026AGI洞察与投资趋势》

重要趋势

趋势1：模型即产品，数据及模型

模型即产品

“模型即产品”的逻辑在于，尽管Context Engineering（上下文工程）和Fine-tuning（微调）非常重要，但阶跃式的产品体验提升往往还是来自于底层的模型换代。过去三个月的产品发布再次证明了这一点：

•Sora和Veo生成结果的人物动作的一致性以及音画同步生成的能力，本质上都源于模型的进步，Veo内部甚至已经跑通了视频训练的RL Pipeline；

•Nano Banana Pro生成“图文解读”类内容的结果很惊艳，背后也是多模态与LLM 融合后带来的智能升级；

•Coding领域，Gemini 3 的前端生成效果优于Claude Code，但在后端逻辑上不如Claude Code和Codex，这种产品体验的差异化说明了模型训练本身的差异化才是关键。

我们在前面的重要判断部分提到，目前目前模型的分化非常明显，而这种分化其实也完全取决于公司的战略选择。头部Labs在技术上并没有代际差异，模型擅长什么方向，完全取决于公司决定服务谁，以及在哪个方向投入研究资源和数据。

数据即模型

“数据即模型”的底层逻辑是：今天的模型进步非常依赖于对人类“未留痕数据”的线性蒸馏。Pre-training（预训练）已经用完了网络、教科书、代码库等人类留痕数据，post training（后训练）也用了大量人类偏好数据，现在的RL开始蒸馏那些过去不存在、现在需要规模化收集的新型数据。不同的数据类型可以用不同的能源来做一个形象的比喻：

•Pre-training数据就像石油，量大但主要油田已经快被抽干了；

•RL专家数据就像新能源，有用但产量有限、成本高且速度慢；

•Continual Learning就像核聚变，目前还没真正突破，但一旦突破就是无敌的，模型将能在环境中自己标注数据、实现自我提升。

目前，湾区涌现了二三十家创业公司帮助模型公司搭建RL环境，或通过录屏记录专家操作复杂软件的Trajectory。Mercor、Surge AI 和 Handshake等数据平台收入增长都非常惊人。

趋势2：2026年是多模态大年，机器人是多模态和World Model（世界模型）最重要的Interface（交互通道）

多模态技术路径正在加速向“Omni-in，Omni-out”（指模型能同时处理和生成多种类型的数据输入与输出）收敛，无论Google还是OpenAI，技术路径已逐渐一致：Auto-regressive与Diffusion Transformer正逐渐融合，视觉、音频和文本被统一Token化并纳入同一个自回归序列建模。这意味着模型开始具备了跨模态的“通感”能力。

例如，Gemini 3和Nano Banana Pro已展示了极强的从“文字+图片”输入到“文字+图片”输出的能力，能将破碎的收据照片拼合完整并直接输出表格。

这一趋势最直接的受益者是Robot Learning和多模态Agent：机器人可利用合成数据训练解决现实数据不足的问题；Agent则能通过Computer Use操作屏幕，接管人类在虚拟世界的工作流。

世界模型

世界模型是对时间和空间具有深度理解的模型，它不只是生成视频，更能根据当前状态和动作，模拟并预测未来的世界演化。目前领域里分为两大技术流派：

•“实时交互派（Real-time Interactive）”：关注低延迟与可玩性，目标是取代Unity、Unreal引擎，从传统的“3D渲染”转向“神经推理”；

•“物理仿真派（Physics & Spatial）”：更关注物理准确性与3D一致性，即使牺牲画质，也必须严格符合重力、碰撞等物理规律。它们的目标不是生成给人看的内容，而是成为AI（特别是机器人和自动驾驶Agent）的“训练场”，解决Sim-to-Real的问题。

Robotics（机器人）

我们对机器人发展的判断是：整个领域“GPT时刻”可能还有3-5年的距离。与LLM“先统一再分化”的路径不同，机器人领域“Day1就是分化”的。

因为机器人缺乏统一的Pre-training基础（如LLM的网络文本），也没有统一的硬件标准，加上多模态底层的进步和人才涌入，使得每个团队都能有自己的 Bet。目前机器人正处于第一个“百花齐放”的阶段，未来一两年部分技术路线可能会收敛，但在场景和方向上依然会保持分化。

但在2025年Q4，湾区的AI Robotics公司迎来了一个集中爆发式的发布期。其中Google DeepMind和被称为“DeepMind四小龙”的Physical Intelligence、Generalist、Dyna、Sunday尤为引人注目。这些公司的创始团队大多与Google DeepMind一脉相承，因此在研究理念上有不少相似之处：

•都不走Simulation（仿真）路线，而是强调真实世界数据；

•都没有一开始就做Humanoid，而是着重解决上半身、双臂和灵巧手的Manipulation（精细操作）；

•更偏重于AI Learning，致力于打造一个相对泛化的机器人大脑。

通过RL和真实数据，这些公司发布了能长时间执行精细任务的模型，如叠衣服、冲咖啡、拉拉链、收拾碗筷等，并开始展现出一定的泛化性，甚至在Google Robotics的研究中出现了跨硬件迁移的迹象。

从这些公司发布的模型中可以得出的核心Takeaway是：数据仍然是最重要的Bet，各家公司拿出了截然不同的Data Recipe（指收集和处理数据的具体方法论）。

•Generalist：利用改造后的Umi设备收集了27万小时真实机器人交互数据，并声称发现了Scaling Law。

•Sunday：创新性地采用了“手套+众包”的模式，完全不依赖遥操作，而是通过向美国家庭分发专利设计的手套，收集人类的动作数据再通过算法转化为机器人数据，目前已收集了1000万条数据；

•Physical Intelligence：Pi建立了一套在不同Airbnb真实房屋环境中持续收集数据的Pipeline，并且包含人工纠偏的数据。

而且，值得一提的是，RL在机器人领域的作用比在LLM中更为显著。Pi发布的RECAP策略就是一个典型案例，它特别强调RL能让机器人在叠衣服、冲咖啡等Long-horizon任务中表现得非常Robust（鲁棒性）。通过Value Function和Credit Assignment，机器人像下围棋一样，能知道每一步操作是有助于成功还是导致失败，从而同时从成功和失败的轨迹中学习。这大幅提高了RL数据的利用效率，使得机器人能够实现连续 10 小时稳定执行任务。

机器人商业化落地的重要性在日益凸显。受限于湾区极高的人力成本，Dyna已开始积极探索B2B场景，为商家提供叠衣服、叠餐巾等具体服务，其核心策略在于扎实做好Post-training，以显著提高落地的稳定性。

与此同时，硬件的重要性正被重新评估，甚至有研究员认为硬件可能占据了成功要素的60-70%。

趋势3：Proactive Agent（新一代主动服务型AI智能体）是模型公司主赛场

目前的模型进步主要体现在“横向”蒸馏人类知识，通过Post-training和 RL 拓展领域知识；而“纵向”的突破则是向Proactive Agent 进化，从被动等待用户 Prompt的Chatbot，转向能主动提供服务的Agent。这种形态要求模型具备三大核心能力：

•意图识别：Agent 必须精准判断在什么情况下需要 Take Action；

•Always-on：它需要始终在线，深入用户的Context，获取Slack、邮箱、日历文档等更多入口权限；

•长期记忆：Agent不能做完本周的任务下周就忘了，它必须记住用户的长期目标和偏好，在合适的时间主动行动。

为什么Proactive Agent如此重要？

•它与下一个技术范式Continual Learning紧密相连，模型要想做到主动，必须具备在交互中实时学习的能力，判断什么对用户是重要的。

•它能构建更高维度的护城河。目前的Chatbot竞争更多是比拼规模效应和品牌，用户迁移成本极低，但Proactive Agent能在用户环境中学习，实现真正的个性化，先发优势将非常明显。

其实OpenAI的Mark Chen对未来 ChatGPT的构想也是Proactive Agent：现在的模型每次提问都要从头推理，不会变聪明；而未来的Agent记忆将大幅升级，能从对话中学到关于用户的“深层结构”，理解你真正关心的问题。当你下次提问时，它已经在后台帮你反思、联想并预备好了答案，这种体验可能还需要新的硬件和交互方式来承载。

除了有OpenAI 通过 Pulse做类似尝试，Thinking Machine Labs的技术博客也发布了许多关于Continual Learning的进展，特别是强调利用LoRA技术来实现个性化。如果能通过LoRA把用户的Memory高效存储起来，这将是一种实现个性化 Proactive Agent的可行技术路径。

趋势4：Neo AI Labs 会成为OpenAI的挑战者吗？

尽管头部模型公司的梯队格局已定，但在湾区，由OpenAI和DeepMind Mafia驱动的Neo AI Labs正在涌现。这些新实验室的机会点在于探索巨头尚未覆盖的领域，或是押注全新的技术路线与开源生态。在这一波浪潮中，涌现了如图所示的几家极具代表性的公司：

趋势5：Voice Agent（语音智能体）成为新一代OS的入口

过去12个月，Voice Agent经历了飞速发展，从技术验证跨越到了运营规模化部署的阶段。2025年底很可能是整个Voice Agent市场的结构性拐点。

Model 层最显著的变化是行业正在从传统的“STT（语音转文字）→LLM→TTS（文字转语音）”三段式架构，转向Real-time Speech-to-Speech（STS）的端到端解决方案。

这种新架构的最大价值在于大幅减少了反应时间，情绪表达更像人类，打断对话也更加自然。虽然目前企业因可控性和定制化问题接受度还较低，但预计明年会有明显的Adopt。此外，延迟优化如今只是入场券，企业真正愿意买单的是全局稳定性。例如，尽管Cartesia在延迟上做到了极致，但ElevenLabs在企业环境中的表现更稳定，因此更受企业青睐。

我们的一手调研显示，今天TTS模型架构差异已微乎其微，真正的壁垒在于底层数据的质量与处理能力，例如医疗场景从一开始就要求100%的术语发音准确率。11Labs早期建立的数据规模与质量优势，已构建起其他初创公司难以企及的护城河。

此外，11Labs已超越单一模态，凭借强大的品牌吸附力（如成为Netflix 等首选）、与GCP的深度绑定以及团队极强的执行力，具备了类似操作系统层级的防御性。

在这个逻辑下，我们Voice Agents类公司更偏Vertical逻辑，即“垂直领域优于水平通用平台”的判断，纯通用语音平台不可避免会陷入激烈的价格战，真正可持续的护城河，来自于对行业数据闭环与核心工作流的掌控。无论是物流调度、诊所前台，还是保险核保，最终的赢家都必须能够深度嵌入业务系统（如TMS/EHR/CRM）。当行业数据与工作流权限形成绑定，其黏性足以有效对冲模型层持续商品化所带来的竞争压力。

在infra层，Voice Agent Infra的本质不再是卖通话分钟数，而是将整条电话线托管成一套 Voice OS。Infra层的核心价值在于抽象层（如语音路由、打断策略、Failover等），让企业像接电话公司一样直接接入Voice Agent，而无需自己拼凑底层模型。

在这个领域，Retell和 Vapi是目前使用最多的Startup。其中，Vapi搭建更快、场景更多；而由华人工程师团队创立的Retell则以Engineering Work扎实著称，更稳、延迟更低，ARR已接近$40M。此外，还有OpenAI使用的LiveKit这类开源框架，以及Cresta采用的Pipecat，它们提供了更高的可定制性。

趋势6：LLM推理价格快速通缩

此外，目前LLM的推理价格正在经历快速通缩，如果用MMLU作为一个统一的质量指标来衡量，推理价格的下降速度达到了每年10倍。自GPT-3发布以来，短短三年内，同等能力的模型推理成本已经下降了约1000倍。

这种通缩在高端能力上表现得更为激进，对于达到 GPT-4 水平或解决 PhD 级别科学问题（GPQA）的高难度能力，成本下降的速度在最近一年甚至是在加快的，降幅达到了约 40 倍/年。

然而，许多开发者和创业者的实际体感却是“并不便宜”，原因在于 Agent 和多模态的应用让请求本身的复杂度发生了质变：现在的交互不再是简单的“一问一答”，而是演变成了一个包含多轮思考（Reasoning /Thinking 模式）、多次工具调用以及中间状态总结的复杂Workflow。这意味着，原本只需要 1 次 API 调用就能完成的任务，现在可能需要内部进行5-10次的链式调用。

用户输入的内容量也在显著变长，文件、多模态信息和长上下文被大量引入。最终的结果是，虽然单Token的价格便宜了10倍，但单次请求所消耗的Token用量可能同步增长了10倍。这种用量的激增在很大程度上抵消了单价下降带来的红利，导致从应用端的总成本来看，并没有感受到明显的下降。

趋势7：ChatGPT vs Gemini

Gemini 3 的发布改变了模型竞争格局，导致ChatGPT首次因模型竞争而出现流量和用户下跌。但与此同时，从绝对量上看，Gemini 3 对Gemini App和 Web的提升效果其实不如Nano banana明显。

Gemini 3的主要进步集中在前端开发等生产力端的专业需求上。而在生活助手方面，尤其是移动端处理生活化问题时，ChatGPT受到的冲击较小。从用户粘性来看，ChatGPT在使用量和留存等方面表现出更高的粘性，这正是两者之间分化最大的差异所在。

•流量争夺：Gemini在“量”上逼近，ChatGPT在“质”上断层

随着Nano Banana 和 Gemini 3的推出，Gemini的 MAU增长迅速，已达到ChatGPT 的 20%-25%（8 月仅为10%）。然而，在用户粘性指标上，两者仍有显著差距：Gemini 的 DAU/MAU 比例仅为约10%，而ChatGPT这一数字高达约25%。这意味着虽然 Gemini 的月活用户涨得很快，但大部分用户的使用频率远低于ChatGPT，ChatGPT单用户月均会话数约为9.6次，是 Gemini的3-4倍。

•地域差异：ChatGPT守住高价值地区，Gemini农村包围城市

ChatGPT在美国、英国、德国等高付费能力的发达市场占据绝对统治地位，商业化根基非常稳固，即使在Gemini 发布后，ChatGPT 在这些地区的免费榜上依然领先。而 Gemini 则采取了“农村包围城市”的策略，依托 Android 生态的强力引流，在印度、巴西、印尼、越南等新兴市场渗透率极高，MAU 已达到 ChatGPT 的 1/3 以上。

•用户行为：ChatGPT 确立“Personal Assistant（个人助理）”心智

ChatGPT非生产力类Query（询问）比例明显上升，且工作日与周末的活跃度差距在收窄，说明用户在周末也会频繁使用它，更像是一个随身携带的生活助手。特别是在移动端，ChatGPT的活跃度远超 Gemini，而移动端正是个人助理场景的主战场。相比之下，Gemini更多被用户视为生产力工具，用于Coding、Deep Research等专业需求。

•入口之争：Search vs Chatbot 15%

从Web流量视角来看，AI Chatbot已经成为一个值得单独看待的“信息检索入口”，而不再是边缘流量。Google Search与ChatGPT的流量比例已从95:5（去年初）演变为85:15（去年10月）。这表明ChatGPT正在分流传统搜索的流量，开启了一种全新的信息检索产品形态。从月活跃用户的使用频次来看，ChatGPT已经超过了Threads、Reddit和X，正朝着TikTok的使用深度迈进。

扫描海报二维码学习好课：《2026AGI洞察与投资趋势》

二级视角下的AI Beta Play

从 ChatGPT 发布以来，二级投资的Key Thesis都是AI Beta（赚“行业红利”的钱），相信在未来相当长的时间框架内，AI Beta都会是科技创新的主旋律。

过去一个多季度，“AI Bubble”和“AI War”这两个与 AI Beta直接相关的叙事相继出现，我们认为：

•AI Bubble发出了合理的警讯，但并未改变AI Beta的Momentum（势头）本身。

•市场已经转向了AI War，这个叙事本身即是对AI Bubble 的否定。正是因为看到了堪比大航海时代的发展机遇，才会出现百舸争流、奋勇争先的局面。我们对AI War的核心判断是：市场将出现两个势均力敌的阵营，并大概率交替领先。

在AI Beta Basket的分配中，两个阵营都应占有一席之地，但策略上可向暂时落后的一方稍作倾斜，针对短期叙事进行逆向投资。

Thesis1：AI Bubble？No, AI War !

OpenAI 1.4 万亿引发的 AI Bubble 恐慌我们就不再赘述，总的来说，我们认为 AI Bubble 提出了好问题，但并不改变当前的 AI Beta：

•当前的“泡沫”本质上是OpenAI Commitment的泡沫。这种承诺在未来两年内没有明显的违约风险，主要的挑战集中在三年后的展期问题上，而在估值层面，二级市场并未出现明显的泡沫，因为市场并未基于三年后的高预期进行激进定价。

•AI仍在持续催生新物种，比如多模态推理、Proactive Agent 等，AI的新玩法也在不断涌现，这标志着AI Beta 的浪潮仍在继续。

因此，我们既要坚守AI Beta，又要对新物种保持极高的敏感度。如果有新物种涌现，我们将看到更大的Alpha机会（赚“新物种”的钱）；反之，如果迟迟没有新物种诞生，AI Beta确实有可能接近阶段性高点。

硬件层

在硬件层面的对决中，GPU与TPU两大阵营势均力敌，交替领先。

但只要市场需求远大于供给，AI Beta就是主要矛盾，Alpha是次要矛盾，因此无论是Google供应链还是NVIDIA供应链，都具备极佳的投资价值。在 AI Beta Basket的分配中，两个阵营都应该持有，但可以向暂时落后的一方稍作倾斜。

•从产品Roadmap（路线图）来看，NVIDIA是行业内最努力推动摩尔定律的公司

下一代 Rubin 芯片设计极其激进，功耗设计从1800W拉高到2300W，HBM带宽从13TB/s提升到20TB/s，如果这一目标实现，Rubin将能甩开TPUv8一个身位，但激进设计的代价是容错空间变小，TPU vs GPU的竞争也开始进入“比拼谁犯错少”的阶段。

•从商业模式视角看，NVIDIA的优势更为清晰

虽然Gemini 3是TPU最好的广告，但这把双刃剑也暴露了Google 与客户（如训练模型的云客户）的竞争关系。相比之下，NVIDIA 是更纯粹的军火商，拥有更多客户且口袋更深。在Mega7 中，Amazon、Microsoft等大概率不会使用 TPU，而会坚定站在GPU阵营。

智能应用层

在智能应用层的竞争中，OpenAI 之前走的弯路只是暂时的。

过去两年OpenAI重视Reasoning，忽略了Pre-training，但过去六个月 OpenAI 已经把资源重新集中到了Pre-training上，即使是大概率还没用上新 Pre-training的GPT-5.2，在榜单上也已经把 Gemini 3刷了下去。

更重要的是，OpenAI在Agent（尤其是 Proactive Agent）上的布局更充分，OpenAI的团队是由一群“由牛人组成的草台班子”，没有大企业病和组织限制，更能从第一性原理出发孵化新物种。

Anti-Google（反谷歌）同盟

如果Gemini的领先优势扩大，将推动NVIDIA和 OpenAI形成更紧密的盟友关系，AI War的软硬两个层面会合二为一，使得局势更加势均力敌。

在现金流之战中，NVIDIA拿走了产业链里大部分现金流，是 OpenAI 现金流紧张的源头，如今NVIDIA应该成为OpenAI最重要的Funding Source（资金来源）。NVIDIA投资OpenAI，本质上是用未来会折旧贬值的商品（GPU），去换取未来有巨大上限的资产（OpenAI 股权），这在投资逻辑上是非常合理的。

Thesis2：新物种萌芽：Agent Potential Picks（智能体潜在的方向）

Proactive Agent目前仍处于早期萌芽阶段，初步判断 2026 年可能非常接近真正落地的时刻。在这一主题下，下列公司可能是potential winner（可能的胜者），有机会享受到趋势红利。但需要明确的是，从当前的市场情绪来看，AI play更多集中在硬件板块，AI软件叙事从25年下半年一直走弱，在板块叙事偏弱的背景下，受益公司可能不一定会被有效price-in。

•应用新分发形态：Intuit

OpenAI APP SDK 的出现代表着 ChatGPT 已经成为了一个 Super App。它可以在与用户对话的过程中分发流量，由 AI 推荐并直接将 UI 推送到用户面前，无需用户手动打开应用程序。这种分发能力的摩擦力甚至比微信小程序更低。在这个领域，上市公司中的 Intuit（INTU）是 First Mover（先行者）。Intuit 已经给了 OpenAI 1 亿美元，用于购买模型用量以及在 ChatGPT 内的展示位。OpenAI 有极强的动力将 Intuit 打造成一个标杆客户，只要能证明 Intuit 花这 1 亿美金带来了大于成本的新增收入或流量价值，就能吸引更多公司效仿。

•Agentic Commerce：Shopify

Shopping Agent的苗头在黑五和圣诞季已经开始显现。Shopify的优势在于它是一个极其重要的电商后台Infra，并且与OpenAI 和 Google两边都有合作。无论最终 Shopping Agent的形态收敛在何处，或者哪家模型胜出，作为“卖水人”的 Shopify 都有受益的机会。

•企业定制化：Snowflake & MongoDB

目前企业在 AI 使用上面临“Build vs Buy”的经典问题，过去两年主要以 Buy 为主（如购买 Copilot、Agentforce），Build 仍停留在小规模实验阶段。Data Infra公司真正受益的逻辑，需要等到企业开始有信心大规模自己 Build 新的 Agent，目前这仍处于早期观察阶段。

•新码农：JFrog

在Coding Agent领域，JFrog（FROG）是一个值得关注的标的。JFrog 存储的是写完代码编译后的二进制构建（Artifacts），这是一个集中管理系统，且商业模式是按量计价的。如果Coding Agent导致代码产生的应用数量爆发，JFrog 将直接受益。但仍需持谨慎态度，因为目前Coding Agent更多是减少了码农招聘需求，尚未看到应用程序的大爆发。

•新客服：Twilio

Twilio（TWLO）提供全渠道通信 API，是按量计价的 Communication Infra，如果 Voice Agent 使用量爆发，Twilio 将从中获益。

扫描海报二维码学习好课：《2026AGI洞察与投资趋势》

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.