网易首页 > 网易号 > 正文 申请入驻

「第二次 Token 大战」或再打响,「新全栈」或许才是内卷的「解药」

0
分享至



从「人无我有」,到一站式的端到端生态进化。

作者丨董子博

编辑丨林觉民

自从 “龙虾”冲进 AI 赛道,云厂商们的天就彻底变了。

新的 Agent 范式,诚然让 AI 的能力变得更能落地,但也让 Tokens 的消耗成数倍,甚至十倍地上升。有人在一夜之间,就在 OpenClaw 上烧掉了几千美金——而这样的故事,甚至并不是孤例。

云厂商们,都想抓住这个机会,找到新的增长机会。于是,各家公司都推出了自己的龙虾 Agent,配上自己的 Coding Plan,各家 Token 价格虽然有所上涨,但大多仍在“赔本赚吆喝”,一场新的巨变似乎山雨欲来。

而在今年的 Create 2026 百度 AI 开发者大会,百度创始人李彦宏提出了一个新概念:DAA(日活跃智能体),他认为,未来衡量一个平台和生态的繁荣,更应该看的是DAA这个指标,关注有多少Agent在给人类干活,并交付结果。

这代表了百度的对智能体时代的判断,与之相对应,百度智能云也给出了具体答案,他们发布了一揽子升级并发布“新全栈 AI 云”:要用一套更高效、更高质量的全栈架构,不仅为 Token 降价,更要让每一个 Token 的能力被发挥到最大,让客户不仅用得更省,更要让他们用得更好。


对于云厂商们来说,全栈并不是新概念——芯、云、模、体,四样缺一不可,厂商们更多关注的是“人无我有”,通过提供独特的能力,来让客户买单。

到了今天,当客户们对于云的需求,变成了更高活跃、更高价值、更具规模化的智能体应用,AI 云也必须变化,让自己成为一套能够让更多智能体同时运行、同时进化,并且足够安全可控的基础设施。

今天的 Tokens 价格战,正慢慢地向 AI “价值战”转型——百度的“新全栈”,会是今天云内卷的“解药”吗?

01

新全栈 AI Infra,用异构算力改变世界

Tokens 用量激增,首当其冲的,必然是 AI Infra。

对于 AI Infra 来说,硬件是其中最基础的考量——多年来,英伟达的芯片捉襟见肘,各家云厂商也在外部寻求自研芯片厂商的合作,百度也和昆仑芯实现了强强联手,在诸多现有框架下,针对具体场景完成包含算子在内的优化适配。

百度通过昆仑芯与模型相连,目前昆仑芯P800已完成规模化验证,2025年至今已交付多个万卡集群。此外在昆仑芯全国产集群上,已成功完成对文心5.1重要版本的训练,整个集群的有效训练率达到 97%,万卡规模集群线性扩展度超过 85%,已经可以满足前沿大模型大规模训练对计算精度、算子稳定性、框架适配和长周期运行的要求。

今天,百度智能云还实现了超大集群的吉瓦级 AIDC,让客户能用上更高效率算力的同时,还能自由适配风冷或液冷,更灵活自由地部署算力,把建设费用、电力等等成本,通通省下来。


今天,作为金融界以科技创新见长的标杆,招商银行已经上线了超过 800 个 AI 应用,在风控、营销、研发、办公等等核心场景发光发热——而其中超过 50% 的 AI 应用,都跑在昆仑芯 P800 上。国产算力之光能够大展身手,也离不开百度智能云的支持,从算力适配、模型迁移、应用落地等全流程提供协助。

让好芯片获得更好的支持,网络优化也相当重要。

在 Scale-out(横向扩展)的方面,百度智能云通过多平面的技术,突破了过往的三层网络,实现了更大规模的全二层网络,让网络的负载能够被更好地均衡、传输效率也能得以提升。百度新的二层网络架构里,当一个链路偶发故障时,其他链路也能够更快承担负载,实现容错。

Scale-up(纵向扩展)上,这次 Create 大会上,百度也发布了以昆仑芯为核心的天池256卡超节点,将 256 个昆仑 Scale-up 的点装进一个超节点机柜里,通过大规模分布式推理来大幅优化性能。

把好算力送上“高速车道”的同时,在百万上下文已经成为了标配的今天,存储问题也不容小视。面对存储要求越来越高的情况,这次 Create 大会,百度推出了一个全新的 KV Cache 存储系统,通过将显存、内存、SID 分层,来扩展更大的记忆空间。

每一年,百度的 Create 开发者大会,百舸 AI 计算平台的更新都是万众瞩目的对象。每年,百度都会对百舸平台做一次大型的迭代,而今年推出的,正是百舸的 6.0 版本。

百舸 6.0,要把算力平台升级为“算力工厂”,不仅在 Agentic 和 Physical 两个层面都做了调优和升级,更能通过最新发布的百舸 AI Stack,将整个百舸 6.0 的技术让用户完成私有化部署。让用户无论在公有云还是在私有云,都能安全放心,且多快好省地把 AI 最新的能力落到业务场景中。

作为今天的算力需求“大户”,具身智能厂商们更信任百度——百度智能云是具身领域最大的 AI 云供应商,市场份额占 35%,超过了第二、三名之和。百度百舸为具身客户提供的,不只是基础的算力支持,更有全链路、全模态的模型开发工具链,有着十年经验积累的数据服务,以及包含语音交互、安全等一系列全栈 AI 能力。


同时,百度智能云还开源了一个名叫 Loongforge 的全模态训练框架,让英伟达的 GPU 和昆仑芯通过同一套训练框架运行,并且相对过去的典型多模态训练,完成了 45% 的提速。

依托百度的全栈 AI Infra,具身智能公司们在典型 VLA 训练上的加速,超过了 70%,而世界模型的推理时延则有近 50% 的降低。原本要跑几周的训练,今天在百度云上,几天就够了。

算力价格降了下来,训练和推理的能力反而上去了——能实现这样的效果,是百度在全栈同时发力,用一个个单点的技术创新“堆”出来的。

AI Infra 全栈革新的价值,就在这里。

02

Agent Infra 的革命,从远离价格战开始

自从大模型进入人们的视野,AI Agent 已经经历了不知道第几个“元年”。当 OpenClaw 今年突然爆火,人们又把 2026 也称为“Agent 元年”。

于是,为 Agent 提供更好用的基础设施,也就成了云厂商们必须完成的一个大任务。

Agent 在今天的发展,已经演化出了不少特点。

首先,用户与 Agent 的协作,已经不同于过去和 ChatBot 的对话——用户提出一个日常工作中的生产型需求,Agent 完成的不是一轮简单的对话,而是一个完整的、包含许多步骤的任务。用人话来说:过去是用户说一句,AI回一句;今天是用户说了一句话,AI Agent 可能在后台已经忙疯了。这不仅对 Agent 基座提出了更高的能力要求,也是今天 Tokens 消耗倍增的核心原因之一。

其次,Token 成本大幅增加,客户当然想要降本增效,但在省钱之外,不同的客户使用 Agent 的需求不仅千人千面,而且十分细节。以客服场景为例,白天客户更活跃时,Agent 要侧重响应速度,以保证用户体验;而夜间客户更少,Agent 就必须侧重批量处理,来处理白天没空处理的邮件和工单。这也考验着整个基座的动态推理自适应能力。

除此之外,Agent 基座还必须考虑到那些老生常谈的问题,诸如协同、安全、实施迭代和升级等等。

对于客户来说,今天在市面上,AI 云的供应商并不少——供过于求,用户当然是“既要又要还要”,希望厂商们可以提供没有死角的全栈能力,任何一处短板,都有可能造成客户的流失。

为了让 Agent 在 Infra 能更流畅、高效地运行,百度设计了一套三层的架构。

最底层,是时下正火的 Agent Harness百度智能云将其称为驾驭工程”,来负责上下文、记忆、工具和技能调用、编排协调、追踪评估等等基础工作。在不少业界人士看来,今天的 Agent 就是 Harness 架构加模型,也足见 Harness 之于 Agent 的重要性。


这一层,百度自研了一套 Agent Harness 架构——DuMate Harness,并在智能体评测基准 PinchBench 和 Deepsearch 两个榜单上登顶,让任务时长更短,Token 消耗更少,在执行效果上达到业内第一梯队。并且在安全可信的角度,Dumate Harness 也在信通院首批认证中达到了最高评级,保证让客户用得放心。

在这个更好用的脚手架上,百度还给客户准备了更好用的“工具”——也就是百度系的特色 Skills,从搜索、文库、AI Coding 等不一而足。同时,百度智能云还在开源的 Skills 当中,优中选优,精选了 3000 个技能供用户挑选。

其中,在 DuMate Harness 上,Office 办公软件和浏览器的 Skills 也被集成了进来,在 AI 的脚手架上,企业办公也能获得更强大的跨生态任务执行能力。

有了脚手架,在第二层,Agent 还需要更好的模型服务来驱动,而即使模型达到了 10 分,如果 Infra 在工程优化等方面做得不好,Agent 或许连 6 分的实力都发挥不出来。

为了让 Agent 能够最大限度地解放出模型的能力,并且还能把成本降下来,推理引擎也在持续优化、模型路由等领域的探索由来已久。今天,Agent 会随着上下文的扩张和对话轮数的增加,在重复的计算中浪费不少 Tokens,而实际上只有少部分 Tokens 才需要新增计算。于是,通过上下文和 Cache 管理,以及全局的推理资源调度,在千帆上运行的智能体能在长链路任务中,有效减少重复计算,提升复杂任务下的 Token 效率——调用 SOTA 模型,百度智能云的速度比行业平均水平可以高出 25%。

而在弹性扩缩容方面,百度千帆还在投机解码框架里集成了多 Token 预测(MTP)的模型策略,让投机解码的效率完成了上升,而 OTPS (每秒输出 Token 数)的吞吐拉高了 2-3 倍,模型验证通过的命中率也超过了 80%。

“当然,不同的厂家也都有各自的法宝,我们认为千帆的这个(投机解码框架+MTP 策略)应该在整个行业里面也能排进第一梯队。”在交流中,百度智能云AI与大模型平台总经理忻舟如是说道。

模型服务之上,第三层,是 Infra 的基础服务,从安全沙箱、可观测、Agent 身份管理和安全等等功能,虽然看上去琐碎,但实际都是客户在实际使用中绕不开的 Agent 能力。

今年,千帆针对 Agent 做了不少安全相关的工作。OpenClaw 最主要的安全问题,就是 Agent 身份和权限管理混乱,时常存在误删内容的情况——千帆则专门强化了会话隔离、数据隔离、防误删等功能,面向实际问题,保障用户的数据和权限安全。

国家电网是百度智能云的老客户,今年在千帆 ModelBuilder 和文心大模型 4.5 的双剑合璧之下,国网打造了“光明电力大模型”,来分析诊断电网负载,智能调度配网,完成多模态的智能巡检等等工作;而在智能硬件厂商中,百度已经有了超过 1000 家客户,在细分赛道中排名云厂商第一,还通过 Agent Infra 的 Harness 和搜索等一系列能力,帮助荣耀打造了个人助手 YOYO,在五一期间的旅游场景中大放异彩,生成攻略、推荐美食样样精通,把 AI 智能体做进了用户每日的手机使用习惯当中。


有了强大的 Infra 支持,好用的第一方产品,是百度智能云新全栈的最后一块拼图。

去年在百度世界大会上亮相的“百度一见”视觉智能体,今天已经进入了“世界超市”义乌,成为了不少企业的专属“AI 厂长”,帮助客户保证生产的安全和质量,管理人员。

而今年 Create 大会新登场的“数字伙计”——Hogee,也来到了义乌,成为了不少厂家的智能营销帮手,通过“龙虾”的能力来完成智能导购、私域运营、销售数据复盘、订单全流程管理等工作。作为专家级数字员工,还能“一键上岗”,让不少商家更早地享受到了 AI 时代的技术红利。

03

结语

在中国,百度是相当早喊出“全栈”口号的 AI 云厂商,也是几年里提及“全栈”次数最多的 AI 云厂商之一。

为什么百度如此钟情于“全栈”的布局,在今天又提出了“新全栈”的概念呢?

在开头提到,过去的“全栈”,强调的是“人无我有”,是迎合客户的需求,通过提供更多能力和服务,来凸显自己的价值。

而今天百度的“新全栈”,却不再甘于只谈技术,更重要的是建造一个“生态系统”——用户可以留在百度云的生态中,更高效地使用算力、更便捷地微调模型、更简单地开发 Agent,最后可以更好地帮助自己完成生产的降本和增效。

面对绝大多数使用中出现的需求,都能在百度的全栈能力中找到解决方案,客户自然会心甘情愿留在百度智能云的生态里。

“新全栈”的设计,本质上跳出了今天“龙虾”Token 价格战的窠臼,让客户与智能云的生态共进退、共成长,最终成为百度云的伙伴,而不是单纯的“顾客”或“买家”。

不盲目追求 KPI,百度同样关注业务收入的健康度。忻舟对雷峰网分享,在过去,百度其实拒掉了不少“低质调用”的商单,在他们看来,不少工作使用大模型,实际是“杀鸡牛刀”,用户对模型要求本就不高,只会追逐低价,贸然加入反而伤害自己。

而到了今天,业界对 AI 能力的了解越来越多,更高质量的调用也随之涌现——用户开始更愿意为 AI 付钱,甚至愿意为了更好的能力签更大的合同,甚至付溢价。

不偏科的全栈能力,也是这个时代 AI 云厂商对抗“价格战”的底气,忻舟说:“同样花 100 块钱,我们能用更优的模型路由和调用策略,为客户提供更多的服务——这是我们从产品和架构为用户做的工作。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
人民币78岁了!你见没见过的人民币,都在这里!

人民币78岁了!你见没见过的人民币,都在这里!

中国艺术家
2026-05-12 05:24:45
美股芯片股走低 高通、美光科技等涨幅收窄

美股芯片股走低 高通、美光科技等涨幅收窄

财联社
2026-05-13 21:40:13
纪委已明确!公职人员“8小时外”的社交篇 , 这4种行为绝不能碰

纪委已明确!公职人员“8小时外”的社交篇 , 这4种行为绝不能碰

细说职场
2026-05-13 14:18:41
她曾经玩过14位男星,人前玉女,人后“欲女”,47岁如今还是单身

她曾经玩过14位男星,人前玉女,人后“欲女”,47岁如今还是单身

喜欢历史的阿繁
2026-05-13 17:30:17
黑人男子作恶4次都被放过!受害者心软没起诉,他转头就把76岁老人推下楼...

黑人男子作恶4次都被放过!受害者心软没起诉,他转头就把76岁老人推下楼...

英国那些事儿
2026-05-12 23:22:48
国际乒联亲宣!64岁蔡振华再破天花板,让刘国梁和乒坛“沉默”了

国际乒联亲宣!64岁蔡振华再破天花板,让刘国梁和乒坛“沉默”了

以茶带书
2026-05-05 17:10:10
万事万物都由原子构成,但原子是什么?又是如何运作的?

万事万物都由原子构成,但原子是什么?又是如何运作的?

宇宙时空
2026-05-12 21:30:07
欧美为什么希望我们也不要加班?

欧美为什么希望我们也不要加班?

罗sir财话
2026-05-11 17:35:24
第一个帮助中国的日本企业,不留余力提供技术!如今怎么样了?

第一个帮助中国的日本企业,不留余力提供技术!如今怎么样了?

博览历史
2025-10-07 17:13:05
为何突然加速?土耳其空军宣布购买20架国产Kaan五代机,2030年前全部交付完毕!

为何突然加速?土耳其空军宣布购买20架国产Kaan五代机,2030年前全部交付完毕!

军武速递
2026-05-12 19:27:46
卡塞米罗:因为觉得赢下欧冠太正常了,所以我想离开皇马

卡塞米罗:因为觉得赢下欧冠太正常了,所以我想离开皇马

懂球帝
2026-05-13 23:30:14
女子推搡哨兵后续:知情人爆料,官媒发声,恐不止坐牢这么简单

女子推搡哨兵后续:知情人爆料,官媒发声,恐不止坐牢这么简单

坠入二次元的海洋
2026-05-13 16:27:16
看是御姐,脸还能打,肉却 “软趴趴” 了

看是御姐,脸还能打,肉却 “软趴趴” 了

飛娱日记
2026-03-13 11:31:29
为啥建议尽量用现金支付?3个现实原因,看完你也会揣现金出门

为啥建议尽量用现金支付?3个现实原因,看完你也会揣现金出门

老特有话说
2026-05-10 21:01:02
河南一幼儿园用依云矿泉水蒸饭引争议

河南一幼儿园用依云矿泉水蒸饭引争议

黄河新闻网吕梁
2026-05-11 15:23:41
裤子上这两根绳,一定还有它存在的道理!

裤子上这两根绳,一定还有它存在的道理!

新住家居
2026-05-12 06:06:10
唐湘龙痛批国民党“跪美卖台”;郭正亮:大陆已确定要驻军台湾!

唐湘龙痛批国民党“跪美卖台”;郭正亮:大陆已确定要驻军台湾!

放开他让wo来
2026-05-13 11:03:55
美记:詹姆斯湖人生涯在场时正负值+1225,不在场时-664

美记:詹姆斯湖人生涯在场时正负值+1225,不在场时-664

懂球帝
2026-05-13 19:17:42
外交部:坚决反对所谓“哥本哈根民主峰会”执意邀请“台独”分子大放厥词

外交部:坚决反对所谓“哥本哈根民主峰会”执意邀请“台独”分子大放厥词

新京报
2026-05-13 15:38:09
皇马确认恩德里克回归,他将使用俱乐部设施备战世界杯

皇马确认恩德里克回归,他将使用俱乐部设施备战世界杯

懂球帝
2026-05-13 21:34:36
2026-05-14 00:00:49
雷峰网 incentive-icons
雷峰网
关注智能与未来!
69325文章数 656123关注度
往期回顾 全部

科技要闻

腾讯一季度营收1964.6亿元 同比增9%

头条要闻

女子闪婚获千万房产99%份额闪离后起诉分割 法院判了

头条要闻

女子闪婚获千万房产99%份额闪离后起诉分割 法院判了

体育要闻

14年半,74万,何冰娇没选那条更安稳的路

娱乐要闻

白鹿掉20万粉,网友为李晨鸣不平

财经要闻

美国总统特朗普抵达北京

汽车要闻

C级纯电轿跑 吉利银河"TT"申报图来了

态度原创

艺术
亲子
本地
公开课
军事航空

艺术要闻

乾隆 “翻车” 名画刷屏!

亲子要闻

孤独症特教老师的工作,远不止“教说话”! (上)

本地新闻

用苏绣的方式,打开江西婺源

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

沙特被指3月曾对伊朗发动多次“报复性”空袭

无障碍浏览 进入关怀版