Token的代价|黄仁勋|工作流|token

分享至

在工业革命的漫长叙事中，有一个被反复验证的定律：每当一种新的生产要素变得足够便宜，它就会像水渗入干涸的河床一般，重塑整个经济的底层结构。19世纪的钢铁如此，20世纪的石油如此，21世纪初的带宽和存储空间亦如此。每一次成本曲线的坍塌，都催生出一批前所未有的商业物种。

如今，同样的故事正在算力领域上演。2026年的硅谷与北京中关村，一场静悄悄的经济学革命正在动摇软件行业数十年来的根基。在过去四十年间，这片土地上的人们笃信一条金科玉律：一旦代码编写完成，服务下一个新增用户的边际成本几乎为零。正是这一被称作「零边际成本复制」的特性，缔造了微软、谷歌、Meta这些市值以万亿美元计的科技巨头，也奠定了风险资本对软件初创企业慷慨解囊的底层逻辑。

然而，随着生成式人工智能的爆发，这条定律正在以一种几乎令人措手不及的速度走向失效。当模型的每一次推理都需要消耗真实而昂贵的计算资源时，软件的边际成本结构发生了根本性的逆转。这不仅是一个技术问题，更是一个经济学问题，一个关于如何在这个新时代创造和捕获价值的问题。

杰文斯的幽灵

Jevons's Ghost

要理解当前正在发生的一切，需要回溯一个半世纪前的经济学思想。1865年，英国经济学家威廉·斯坦利·杰文斯提出了一个看似违背直觉的观察：蒸汽机的效率在不断提升，但英国工业对煤炭的消耗却与日俱增。他的结论是，效率的提高降低了每单位产出所需的成本，而这反过来刺激了更多的消费需求，最终导致总资源消耗不降反升。

这一悖论在今天的AI领域找到了它新的体现。2022年至2026年间，GPT-3.5级别的模型推理成本下降了近280倍，每百万Token的价格从30美元跌至0.2美元以下。然而，清华大学研究团队的最新数据显示，同期OpenAI的推理总支出反而增长了2.4倍（清华大学《Token经济学全景报告2026》，2026年4月）。当单位成本以两个数量级的速度坠落时，总账单却在攀升，这正是杰文斯悖论在新时代的重演。

原因并不难理解。成本的下降打开了一系列此前在经济学上根本不可行的应用场景。当图像生成从每张数美元降至不足一厘时，设计师们开始批量产出方案；当文档总结从按篇计费变为按Token计费时，每个白领都开始在每个工作日大量使用AI辅助阅读；当代码补全从昂贵的专业工具变为程序员的日常伴侣时，开发者们发现自己的产出边界被大幅拓宽。这些新增需求汇聚在一起，构成了一个吞噬算力的无底洞。

更值得关注的是推理成本在AI企业财务结构中所占的比例正在持续攀升。OpenAI于2026年2月披露的财务数据显示，2025年其推理成本达到84亿美元，占营收比例约47%，导致毛利率从2024年的40%压缩至33%，远未达到年初设定的46%的目标。同期Anthropic的毛利率也仅录得40%，同样低于预期10个百分点（Anthropic融资披露文件，2026年4月）。当算力成本成为企业利润最关键的变量时，软件行业传统的「规模化后实现盈利」的叙事框架正在遭受前所未有的挑战。

思考的代价

The Cost of Thinking

在当前的AI叙事中，模型的参数量和基准测试分数占据了过多的篇幅，而推理成本这一决定商业模型能否成立的底层变量，却始终没有得到与其重要性相称的关注。这种认知偏差正在让无数投资人和创业者付出昂贵的学费。

真正将问题推向极致的是Reasoning模型——也就是那些以「深度思考」为卖点的大语言模型的兴起。2026年3月的研究数据揭示了一个此前被广泛忽视的事实：与普通对话场景相比，Reasoning模型的内部推理过程会额外消耗50至600倍的Token。这意味着，当用户要求模型「仔细思考」某个问题时，他们实际上是在请求一次成本可能高达普通对话数百倍的算力消耗。一个极端的案例显示，某次Reasoning模型的调用消耗了600个Token，却仅输出了两个英文单词。对于企业财务而言，这恐怕是商业史上最昂贵的一次数字「沉思」。

这种成本结构对于依赖订阅制的SaaS企业而言是致命的。以一款提供财报分析的AI助手为例，其前端定价通常沿用SaaS时代的惯性，采用固定月费模式，例如每月收取20美元。然而其后端的成本结构却是高度波动的——当它吸引到真正的高净值用户，即那些每天需要处理数百页财报的华尔街分析师时，每月的后端API调用成本可能轻易突破50美元甚至更高。这意味着，企业每服务一位重度使用用户，就要承受长期的现金流净流出，而这在传统软件时代是不可想象的局面。

TikTok视频分析Agent的案例进一步印证了这一困境。单条视频的分析成本约为5美元，如果一个专业用户每天需要分析50条视频，那么其每日的AI支出就达到250美元，相当于每月7500美元——这是一个足以让绝大多数企业用户望而却步的数字。然而，当用户愿意为真正创造价值的AI工具支付溢价时，定价权的问题就变得尖锐起来：是按照传统的座位数收费，还是按照实际消耗的Token计费，抑或是探索其他的商业模式？

分配的残酷

Cruel Distribution

在一块蛋糕的切分中，位于最底层的往往掌握着最大的话语权。这条在工业史上被反复验证的定律，正在AI产业中以新的面貌重演。NVIDIA创始人黄仁勋将AI产业比作一块五层蛋糕：能源、芯片、基础设施、模型、应用。每一层都在吞噬上一层的利润，直到最底层——那些驱动整个系统的发电厂和变电站——成为真正的价值锚点。

能源：沉默的定价者

每一行代码的执行，每一次Token的生成，都是电子在导体中流动、热量在散热器中消散的结果。这意味着，能源不仅是AI的燃料，更是其最根本的成本约束。当一座数据中心每天消耗数十兆瓦电力时，能源供应商便拥有了隐形的定价权——无论上游的模型多先进、应用多精巧，最终都要向电网支付账单。这种约束并不显眼，却决定着整个系统能够承载的智能规模上限。

芯片：王者的护城河

在能源之上，NVIDIA筑起了当前AI产业中最坚固的壁垒。其最新季度财报显示毛利率已达75%，这一数字远超软件行业的平均水平，也远超下游的任何竞争对手。原因在于，芯片层是能源转化为计算的唯一桥梁，而当前能够大规模生产高端AI芯片的企业屈指可数。当OpenAI和Anthropic在为33%和40%的毛利率苦苦挣扎时，NVIDIA却能以接近奢侈品的利润率定价——这不是偶然，而是产业链结构的必然结果。

基础设施：资本密集的铁幕

芯片之上是基础设施层——土地、供电系统、冷却网络以及将成千上万处理器编织成一台超级计算机的工程奇迹。这些就是黄仁勋所定义的「AI工厂」：它们不存储信息，只生产智能。建设一座万卡集群的成本已达数十亿美元，而折旧与维护进一步侵蚀着利润空间。这一层的玩家往往是国家资本或超级互联网企业，它们以规模换取微薄的回报率，却为整个产业提供了不可或缺的物理底座。

模型：光鲜背后的毛利率之痛

位于基础设施之上的模型层，是这场AI浪潮中最引人注目的明星。OpenAI和Anthropic的名字频繁出现在新闻头条，它们的模型参数动辄千亿，估值高达数百亿美元。然而，当视线穿透光鲜的估值数字，露出的却是一幅毛利率承压的现实图景。OpenAI 2025年推理成本达84亿美元，占营收比例约47%，导致毛利率从2024年的40%压缩至33%；Anthropic的毛利率也仅录得40%，低于预期10个百分点（Anthropic融资披露文件，2026年4月）。这种压力源于上下游：模型公司既需要向上游购买算力，又需要向下游争夺用户，夹在中间的它们不得不承受来自两端的定价挤压。

更值得关注的是，这种挤压正在加剧。Anthropic于2026年4月公布的最新数据显示，其年度经常性收入已从2025年8月的50亿美元飙升至300亿美元，首次超越OpenAI成为行业收入领头羊。然而，即便收入增长如此迅猛，毛利率仍持续承压，这表明整个行业正处于一个尴尬的中间地带——既没有享受到纯粹基础设施提供商的定价权，也没有建立起真正的应用层壁垒。

应用：被上下游夹击的战场

最上层的应用本应是价值兑现的舞台，如今却成为利润最稀薄的战场。NVIDIA最新发布的Blackwell平台数据揭示了一个场景：在医疗、游戏、客服等垂直场景中，推理成本的优化幅度动辄达到4至6倍（NVIDIA Blackwell平台发布，2026年2月）。这些数字既展示了技术进步带来的成本下降空间，也暗示了一个不可逆转的趋势——应用层的竞争正在将节约下来的成本转移给上下游，而自身难以留存超额利润。

当然，并非所有应用都处于相同的困境。Anysphere旗下的Cursor编程助手目前年度经常性收入已达5亿美元，估值99亿美元；Cognition旗下的Devin估值40亿美元。这些公司的共同特点是高度聚焦于一个具体场景——代码生成与编程辅助，并且已经积累了相当规模的付费用户群体。Anthropic披露的数据显示，其Claude Code产品60%以上的收入来自API调用，编程成为目前AI垂直应用中最成熟的商业模式。当AI能够替代昂贵的专业人力时，其创造的价值便足以支撑健康的利润率。

夹缝中的生存法则

黄仁勋的蛋糕比喻描述了一个产业的价值链的特点：在AI的价值链中，越靠近底层，定价权越稳固；越靠近上层，竞争越激烈，利润越稀薄。能源决定着系统的物理上限，芯片把控着转化的咽喉，基础设施消耗着惊人的资本，应用则被上下游双重挤压。

在这个结构中，唯一可能的例外是那些真正解决了「最后一公里」问题的垂直应用——它们之所以能够存活，不是因为上游的施舍，而是因为它们直接替代了昂贵的专业人力，从而截留了价值转移的通道。

对于整个产业而言，这意味着未来十年的竞争将不再仅仅是模型的军备竞赛，更是对价值链位置的战略抉择。选择芯片层意味着与NVIDIA正面竞争；选择模型层意味着接受夹心饼干的命运；选择应用层则需要在垂直场景中建立足够深的护城河。

而那些无法在这个链条中找到自己位置的企业，将不可避免地成为他人蛋糕上的糖霜——看似甜美，实则随时可能被抹去。

中国式的例外

The China's Exception

将目光转向中国市场，会看到一幅更加复杂、也更加令人困惑的画面。

国家数据局于2026年4月发布的统计数据显示，2024年全年中国的Token调用量为114万亿，而仅仅半年后的2025年上半年，这一数字就激增至537万亿。更令人震惊的是2026年3月的数据：日均调用量已达140万亿，以此推算单月调用量约为4200万亿，是2024年全年的37倍。这一增速在全球范围内几乎找不到可比的先例。

QuestMobile的数据进一步揭示了用户端的爆发：截至2026年第一季度末，AI原生应用的月活用户数已达4.4亿，仅Q1就新增1.3亿用户。其中，字节跳动的豆包以3.45亿月活领跑市场，阿里千问月活1.66亿，DeepSeek月活1.27亿。更值得关注的是用户行为深度的变化：月人均使用次数同比增长55.3%，人均使用时长增长41.4%，用户结构也在悄然下沉——70后和60后用户占比增加2.8%，三线及以下城市用户占比增加2.4%（QuestMobile，2026年3月）。

然而，在中国市场光鲜的用户数据背后，隐藏着一个难以回避的成本困境。由于美国对华芯片出口管制，中国企业被迫使用性能受限的H20芯片或寻找替代方案，这些替代方案的计算成本普遍高于国际同行的主流选择。

换言之，当中国用户在以惊人的速度消耗AI服务时，其背后的单位算力成本却高于海外竞争对手。这种「高消耗、高成本」的组合，对于任何试图在这个市场建立可持续商业模式的玩家而言，都是一个严峻的考验。

新炼金术士

The New Alchemists

当资本的耐心逐渐消磨殆尽，2026年正在成为检验AI应用商业模式的真正元年。

风险投资的标准正在经历一次深刻的转变：红杉中国于近期调整了其投资评估框架，将量化指标权重提升至60%，涵盖投资回报率、成本节约额、付费转化率、客户留存率等硬指标，而定性指标仅占40%。a16z则更为直接地宣布，不再关注模型的参数规模，转而评估「算力投入产出比」——即每1美元的算力投入能否创造3美元以上的营收。

这种投资逻辑的转变，直接反映在成功与失败的案例对比中。美的集团的AI应用已实现节约成本7亿元人民币，生产效率提升80%，排产响应速度提升90%，成为制造业AI转型的标杆案例。它石智航在具身智能领域获得4550万美元Pre-A轮融资，并成功在欧洲仓储场景落地。

相比之下，Builder.ai因虚报营收300%于2025年破产，负债1.15亿美元；C3.ai在2025年亏损2.89亿美元，仍未找到盈利路径；十余家AI应用初创公司因成本结构无法闭环，在2026年第一季度停止运营。

这些案例揭示了一个残酷的事实：在当前的AI产业格局中，能够真正跑通商业模式的，往往是那些对成本结构有深刻理解、并能将其转化为竞争优势的企业。

Gartner预测，到2026年底，企业应用中集成AI Agent的比例将从不足5%跃升至40%，全球运营的AI智能体数量将超过10亿个。OpenClaw开源智能体框架在发布后两个月内GitHub星标数突破30万，登顶全球榜首，引发腾讯、阿里、字节、百度、智谱AI等国内厂商密集入局。这一切都在预示着，AI Agent正在成为下一个兵家必争之地。

然而，Agent的商业化路径远比聊天机器人复杂。当AI从「会聊天」进化到「能干活」时，其消耗的Token数量呈指数级增长。

一条TikTok视频的分析可能需要数百个Token，多步骤的Agent工作流则可能轻松消耗数万个Token。对于企业而言，这意味着AI的价值创造与成本消耗之间的博弈将更加激烈。

历史的回响

Echoes of History

在所有关于AI未来的叙事中，有一个比喻被反复使用，却很少被真正讲透。那就是将AI比作19世纪末的电力。

历史总是惊人地相似。1890年代的工厂主们发现，用电动机替换蒸汽机并没有带来预期的效率飞跃。他们只是在旧的生产线上简单地装上了电动机，却仍然沿用着为蒸汽动力设计的工厂布局和组织方式。

直到几十年后，当亨利·福特根据电力的特性重新设计整条流水线时，第二次工业革命的生产力红利才真正爆发。

今天的AI正如当年的电力，而Token构成了这个时代的数字电力。然而，仅仅在现有的工作流中「接入」一个对话框，正如在旧机器上接上一根昂贵的电线，除了徒增算力成本之外别无他用。

那些真正捕获AI时代红利的企业，不是那些拥有最强大模型的公司，而是那些最深刻理解如何将AI能力转化为全新价值形态的组织。他们重新思考业务流程，重新设计用户体验，重新定义成本结构，最终实现了从「用AI工作」到「为AI工作」的跨越。

这种跨越需要的不仅是技术能力，更是一种商业哲学的转变。互联网和SaaS时代的成功经验告诉他们，规模就是一切，先占领市场再考虑盈利是颠扑不破的真理。

然而，当每个新增用户都在消耗真实而昂贵的算力成本时，这条铁律正在失效。取而代之的，是一种更为精细化、更为成本敏感的经营哲学——在追求增长的同时，必须时刻关注单位经济学是否健康，因为在这个时代，规模的扩张可能恰恰是利润的腐蚀剂。

未竟的变局

The Unfinished Revolution

2026年的AI产业正处于一个微妙的历史节点。技术的能力边界在快速拓展，用户的接受程度在加速渗透，但商业模式的底层逻辑仍在迷雾中摸索。当算力成本成为决定生死的关键变量，当杰文斯悖论在每一张GPU账单上重演，当推理的代价逐渐被资本市场定价，那个属于「先烧钱后盈利」的草莽时代正在走向终结。

对于观察者而言，这场变局最引人入胜之处在于其不确定性。没有人知道推理成本会继续以何种速度下降，没有人确切预测Reasoning模型何时会找到可持续的定价方案，也没有人能够断言哪个垂直场景最终会孕育出真正具有壁垒的商业模式。

但有一点是确定的：在这个算力即石油的新时代，那些能够将「计算的代价」转化为「计算的价值」的企业，将在未来的产业格局中占据不可替代的位置。

而对于更广泛的商业世界而言，AI带来的这场经济学革命才刚刚开始。它的影响将远远超出科技行业本身，重塑从制造业到金融业、从教育到医疗的每一个角落。

当电力在19世纪末普及后，真正改变世界的不是电力公司本身，而是那些学会用电力重新设计一切的企业家。今天的AI或许正处于同样的历史关口。

Token经济学的悖论从来不是一个需要被消除的系统Bug，它是市场进行残酷筛选的机制。

作者：坦桑尼亚老云 | 编辑：栗加

每个视角都是拼凑世界真相的碎片，听真诚的行业观察者讲述独特的故事。我们有深耕行业的资深顾问，连续跨界探索的未来创业者，专注细节的产品匠人，和许多志同道合的你们，如果你有想要分享的故事或者感想，可以留言或者邮件联系（AiysJY@outlook.com），也欢迎点分享给需要的朋友们，记得点一下在看和星标，期待共同在这个行业的宏大叙事中，留下一句诗。：）

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.