![]()
文:董指导
很多产业的加速,不是从技术发明那一刻开始,而是从路线收敛后才启动的。
就像智能手机的加速,是在产业认知收敛到“大屏触控+应用生态”之后。开发者知道该为什么平台写应用,芯片厂商知道该为移动计算优化,用户也终于明白,手机不再只是通讯工具,而是随身的计算平台。各类资源集中方向,移动浪潮扑面而来。
AI如今也走到了类似时刻。尽管底层技术仍在分叉、演进,但应用共识正在收敛:AI 不能只会回答,还要能执行;不能只做内容生成器,还要进入流程、调用工具、完成任务。
刚刚结束的Google I/O开发者大会上,谷歌宣布全面转向AI智能体驱动时代,并发布了个人智能体助手、智能体开发平台等;
5月中旬的百度Create大会,不仅发布了多款智能体,也发布了智能体时代的衡量指标DAA(日活跃智能体数);
DeepSeek也在陆续发布了智能体相关的岗位招聘。
每一次技术方向收敛,也都会带来基础设施重构。
智能手机收敛到触屏应用生态后,移动芯片、操作系统、应用商店和移动网络被重构;电动车收敛到纯电智能平台后,电池、电驱、域控和充电网络成为新基础设施。
当AI应用范式向智能体收敛后,云,作为基础设施也必须重构。因为智能体有新的负载管理、环境需求、成本管控等等。于是,业内也在探索新全栈AI云。
理解这个变化,对于理解AI、智能体,都非常关键。
01 从聊天到做事,新的负载要求
一次对话问答很简单,但智能体更像一个项目经理。
比如,销售智能体要处理客户线索,除了读取资料、历史记录,还要查看库存和价格政策,生成跟进话术,创建工单,提醒销售,甚至把结果写回系统;
调度智能体要给工厂排产,需要读取订单、库存、设备状态、工艺约束、交付时间、物流计划,还要在产能、成本、交期之间做权衡,最后输出方案,提交审批。
这就是一条任务链,包括目标理解、任务拆解、数据检索、工具调用、多轮推理、状态保持、异常处理、结果校验等。也由此,带来了新的云工作负载。
它有状态,不是每次都从零开始,要记住任务进度、历史偏好、上下文、长期记忆等;
也是长链路的,可能会持续几小时、甚至跨天执行的复杂的任务;
有工具、跨系统,必须连接浏览器、Office、数据库、邮件、CRM、ERP、OA、工单系统等等;
既具有自主性,自己判断下一步;但又有权限边界,不能想看什么就看什么,想改什么就改什么;
还要可审计,因为一旦智能体进入企业系统,每一次查询、每一次调用、每一次修改,都可能影响真实业务,也必须可解释、可回滚。
为了让智能体更丝滑进入生产环境,也需要基础设施具备Harness “驾驭工程”,为智能体搭建脚手架。
对比而言,过去的云,承载的是应用;大模型时代,AI云承载的是模型;而智能体时代,AI云要承载的是任务链。
这就是改变。
Google Cloud在报告《State of infrastructure in the agentic AI era》中也认为,随着智能体工作负载从试点转向生产,83%的组织需要升级基础设施来支持生产级自主系统。
另外,智能体时代,Token(词元)的性质,也和对话消耗不同。不再是计费单位,更像生产资料。
这时的关键,是基础设施要让Token更智能。AI云,除了提供Token,更要能够管理、组织Token,让每一个token尽量转化成有效动作,而不是变成无意义的重复推理。就像百度智能云沈抖在Create大会上所说,AI云的下半场,不是比谁消耗了更多tokens,而是比谁能用好每一个token。
简言之,智能体,不是一个应用功能,而是一类基础设施问题。
02 普及之路上的降本核心
随着路径收敛,技术要走进大众生活,还有另一个重要要素:成本够低。
就像汽车,早期只是富人的玩具。流水线模式、T型车,大幅降低了单车成本,随后才有了汽车时代的诞生;光伏,也是度电成本足够下降后,才真正开启了绿电时代;
云计算,也并不是因为服务器上云这个概念才赢得客户,而是通过资源池化、弹性调度和按需付费等方式,令单位算力成本大幅下降,才成为了基础设施。
AI也逃不过这个规律。模型能力当然重要、智能体也有价值,但真正的普及,还是需要成本足够低。
降本之路,有几个挑战:
首先要降低推理成本,一个重要方式是做好上下文管理。
智能体要处理的上下文长度,是Chatbot的1000倍,还会随任务轮次增加而不断增加,一个任务动辄烧百万tokens。
合理的做法是,该检索的检索,该压缩的压缩,该缓存的缓存,该沉淀为长期记忆的沉淀为长期记忆。智能体需要的不是“读完所有资料”,而是在正确时间拿到正确上下文。
比如,百度智能云就用Agent-First的理念重构产品,尽可能减少token的重复计算,推理速度比市场水平快了25%。也通过显存、内存到SSD的分层池化,把KV Cache命中率做到90%。
针对长链路推理,也可以通过PD分离、缓存调度等方式,实现异构调度提升推理性能。
谷歌I/O大会上,也专门强调了降低成本的重要性。一种做法是继续提升大模型能力,大会上还提到如果头部企业将80%的Token负载迁移至3.5 Flash,一年可节省10亿美金。
其次,集群调度管理,也是成本管理的核心。这一点经常被低估,但它会成为智能体时代AI云的核心能力。
训练的算力需求相对集中,推理的算力需求更加分散、差异化;而智能体的算力需求就更复杂了。它是长链路任务,涉及CPU、GPU、内存、SSD、网络、工具、数据库等等之间来回切换。如果调度不好,算力就会极大浪费。
最后是数据中心的效能管理。
现在动辄是吉瓦级AIDC,规模扩大的同时,架构也在变化。传统数据中心的架构,以供配电为核心。今天的AIDC,核心是网络。要确保计算与网络距离最短,最大限度提升计算效率来降本。同时,制冷系统、电力资源规划等工程能力,也越来越重要。
这些挑战,都说明一个变化:云厂商之间,过去比谁有更多GPU,后来比谁的推理价格更低。接下来,真正重要的可能是:
谁能帮助客户用更少token、更少算力、更少能耗,完成更多业务闭环。
03 为什么必须有“新全栈”?
全栈,这个词已经是耳熟能详了。但如果要应对智能体时代,可能还不够。
因为智能体时代,成本、上下文、工具连接、模型调度、安全治理、任务评估,彼此拧在一起,这便给传统“模块化AI云”带来烦恼:
如果只提供算力,企业还要自己找模型、搭RAG、接工具、管运维等等。最后看似每个模块都买到了,真正跑起来却到处漏风;
如果只提供模型API,模型能回答问题,但不等于智能体能进入企业系统干活;
如果只提供智能体开发平台,底层推理成本和集群效率又很难控制。智能体演示时很顺,规模一上来,就问题繁多。
可以说,智能体不是“一个模型加几个插件”,而是一条生产线,任何一环割裂,都会影响最后的任务完成率。因此,不仅需要全栈,更需要“新全栈”。
在国内,百度作为为数不多的“芯、云、模、体”全栈AI公司,在国内最早喊出“全栈AI”理念。在前不久的Create2026大会上,又进化为了“新全栈”AI云。
新的核心,就是面向大规模智能体应用。他们提出两条主线:
一条是每瓦性能更强、性价比更高的 AI Infra;另一条是单位token智能水平更好的Agent Infra。
前者的亮点包括多个基于自研昆仑芯P800的万卡集群,使得集群有效训练率达到97%,并对主流国产模型适配,通过优化,令推理效率提升50%;通过网络架构迭代,端到端时延优化了50%等。
后者的亮点则包括将MaaS模型服务升级为“Token Factory词元工厂”,推理速度比市场水平快25%;优化驾驭工程,令一整条执行链路稳定工作,比如办公场景的工具调用成功率达到95%。
最终,模型、Harness、Skills和反馈数据形成飞轮,让企业把每一个Token更高效地转化为生产力。
这些变化也体现在了业绩上。前几天百度公布Q1财报,AI业务收入136亿元,同比增长49%,而且首次超过一般性业务收入的一半。这其中,AI云业务收入88亿元,同比增长79%。GPU云收入更是同比增长184%。
在海外,谷歌虽然没有喊出“新全栈”的口号,但在I/O大会上,也展现面向智能体重塑的全栈整合,从而消除智能体“生产线”上的所有摩擦力。
在最底层,自研TPU不断迭代,训练、推理各有一款专门的芯片,性能越来越强;模型层,Gemini 3 Flash版本,面向长程智能体任务,兼顾性能与速度;平台层,也升级了Antigravity这个agent-first开发平台,用于编排和构建智能体;
应用层,最新的Gemini Spark是很有代表性的产品,定义是7X24小时运行的个人AI智能体。可以在后台工作、可以扩展到第三方工具,而且可以运行在谷歌云上,而不只是在本地窗口。除此之外,搜索、工作台等等产品线,也都有智能体的更新。
谷歌生态内每月处理的Token量高达3.2亿亿次,没错,单位里两个亿。拥有这么高吞吐量、还可以稳定运行、获得用户口碑、而且商业可行,就是谷歌全栈优势的最佳证明。
无论逻辑推演、实际应用效果,还是财务数据,都说明,智能体浪潮下,新全栈,不是厂商展示肌肉,而是产业基础设施的必然形态。也会成为云厂商的分水岭。
04 结尾
加拿大哲学家麦克卢汉,有一句常被引用的话:我们塑造工具,此后工具塑造我们。
汽车最初只是更快的马车替代品,但它最终塑造了城市道路、郊区生活、物流体系和现代制造业;互联网最初只是信息传输网络,但最终塑造了商业、媒体、社交和全球协作方式;智能手机最初只是把电脑装进口袋,但它最终塑造了移动支付、即时通讯、短视频、外卖、本地生活,以及几乎所有消费互联网的入口。
真正重要的技术,从来不只是提高效率。更会改变人们组织工作、分配资源、连接彼此的方式。
AI也如此。大模型塑造了人与机器的交互方式;而智能体,将成为新的任务执行单元,深入我们的社会,改变我们的生产关系。
趋势必然来临,而新全栈AI云,则是随之迭代的基础设施,托住需求、加速重塑。
-----------全文完。
理工/金融 复合背景
畅销书《英伟达之道》译者
百亿私募/头部自媒体 双重经历
看清科技、商业本质,讲出精彩故事
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.