AI模型烧掉的Token，对应多少GDP？AI的经济贡献现在有数了|度量|token

分享至

机器之心发布

本文作者为摩尔线程天使投资人、中国初代AI投资人王捷。他于 2025 年 8 月和 12 月分别发表了《浮现中的AI经济》、《关于AI经济的四十个问题》两篇文章，对即将到来的 AI 经济进行了展望和解读。本篇是他近期的第三篇文章，是就如何从经济生产力的角度评价 AI 大模型，提出的一个思路。

AI生产能力函数：

从经济生产力的角度评估AI模型

Measuring Model Capability as Economic Productivity: A Production Capacity Function for Artificial Intelligence

1. 引言

1.1 背景

AI 大模型已经从技术、产品走向全面影响经济和社会，需要一个指标，来评价AI对于真实经济任务的工作能力。
现有主流评测基准包括MMLU、BIG-bench、SWE-Bench、WebArena、GAIA、AgentBench、MiniWoB等，这些基准被广泛用于衡量模型在知识理解、推理、编程等任务中的表现。
但现有评测基准：
任务同质性假设：
所有任务对总评分的贡献相同，未区分任务价值差异；
未含人类和组织的接受度；
忽略推理成本：
Token消耗未纳入能力衡量，仅作为附加指标；
不能反映经济产出，因此宏观统计（GDP、TFP）也无法分辨 AI 的真实边际贡献。
关键缺口：缺乏一个连接“AI模型→生产能力→生产率→宏观经济”的表达函数。

1.2 研究问题

如何以统一、可计量的方式衡量AI对经济产出的“真实生产能力
我们提出一个以任务为基本单元、以 token 为投入/计量基础、以 GDP 为产出的 AI 生产能力函数，定义为模型给定任务空间社会接受约束下，将计算资源token）稳定地转化为经济价值能力上限（capacity），明确包括以下要素：
通过引入“经济图灵测试”，将任务集中的任务从仅体现“技术正确性/feasibility”，变为也体现“在真实经济环境中被人类接受/desirability
模型能够成功完成的任务的经济价值；
成功完成任务的概率；
完成任务所消耗的推理资源token）。
希望回答以下问题：
一个 AI 模型每消耗一个token，能创造多少经济价值？即GDP/token问题。
可否将 AI 模型能力从“在若干 benchmark 上的点状表现（pointwise performance）”，转化为“在整个经济任务空间中的价值加权期望产出密度（task-space integral
不同模型、不同经济任务、不同国家拥有的AI能力、AI大模型的不同发展阶段之间如何可比？

2. 当前对模型能力评估方案的局限性

2.1 AI 能力评测与 Benchmark

传统 benchmark（如 MMLU、BIG-bench、SWE-Bench、AgentBench）只测成功率或通过率；
无法回答“单位 AI 投入 → 经济产出”；
缺乏“经济系统接受性”的内生处理。

2.2 引入AI生产能力函数 ()

() 同时考虑：
任务经济价值
任务异质性
成功概率（技术能力）
资源消耗（成本约束）
() 将任务经济价值、任务异质性、成功概率、资源消耗统一在一个框架中，是从技术能力到经济生产力的度量映射。

3. 基本概念与定义

3.1 定义与核心函数

模型能力被定义为模型在其可被经济接受的任务集合上，单位 token 所能稳定地产生任务成果的期望经济价值。

3.2 分子：经济产出

含义：模型 (m) 在可接受任务集上可实现的总经济价值，这些经济价值来自于统计。
关键性质：任务集中的任务符合两个条件
该AI模型可以完成该类任务（解决“能不能做”的问题）；
该AI模型完成该类任务的结果通过了“经济图灵测试”（解决“做得好不好人类是否接受”的问题）。
任务价值异质时，公式自动对高价值任务赋权。

3.3 分母：token 投入

分母是完成该j项任务消耗的token数的加总，以百万token计。其中单任务 token 消耗定义：

单任务 token 消耗＝完成单项任务的单次平均token消耗/该模型对该任务的成功完成率，其中完成单项任务的单次平均token消耗＝完成该项任务的总次数所消耗的总token数/总次数；这些数据来自统计。
单任务 token 消耗内生地反映模型的成本效率
成功率内生地反映：
能力水平
稳定性
复现性

3.4 任务（Task）

人的工作是以单个劳动力作为最小的执行单元，AI完成工作是以“任务”为最小执行单元。
对AI而言，任务是一个被明确形式化的目标实例，它定义了期望结果、行动空间、约束条件与完成判定，使 Agent 能够将开放式环境问题转化为可规划、可执行、可评估的决策过程。

3.5任务集合 (J_m)

针对模型 (m) 定义的可执行任务集；需要满足两个准入条件：
1. 技术可完成性
2. 通过经济图灵测试
任务集的构建：我们需要将当前经济活动中的所有任务，构建为适配Agent工作方式的任务集，并基于此展开任务的统计工作。

3.6 经济图灵测试（ETT, Economic Turing Test）

定义：如果模型完成任务的输出在真实经济环境被人类接受，则视为成功；否则视为失败；
取值为[0, 1]，即“不通过”为0，“通过”为1；
与传统图灵测试的差异；
在生产函数中的角色：经济图灵测试等价于一个制度与偏好约束（institutional and preference constraint），决定哪些 AI 产出可以被计入 GDP。

3.7 任务经济价值 (V_j)

任务经济价值统计方式包括：
人类工作成本：人类完成同一个任务所需的工作成本/工资；
市场交易价格：如果该任务是可在市场上交易的，市场交易价格是多少；
影子价格：对没有市场价格但会影响社会福利、风险或长期产出的任务，估计其隐含边际价值。
这些数据来自统计。

3.8 量纲与解释

单位：货币 / 百万 token。

4. 与传统生产函数的关系

4.1 AI 作为新型生产要素

AI =以 token 表达的任务执行能力；是一种以计算资源驱动、以任务执行能力表现、可在数字环境中规模复制的生产性要素；
在宏观经济领域，这是Model-Level AI Capability in Macroeconomics；可在宏观层面衡量 AI 对经济总产出的贡献；
在经济增长领域，这是Task-Based AI Capability Models for Economic Growth.

4.2 嵌入传统生产函数

AI可以被视为一种“可资本化复制的任务执行能力”，其经济属性既具有劳动的任务完成功能又具有资本的规模复制特征；
在AI经济阶段，任务执行能力以token 表达，这意味着token作为生产函数的中间变量，是可精确计量的代理变量；
与TFP的关系：可能导致传统生产函数中的TFP从残差变为可解释，AI生产力是可解释的TFP分量。

4.3 与劳动生产率的比较

在工业经济中，劳动生产率通常以“单位劳动投入创造的产出”表示，典型形式为 GDP/工时。其直观含义是：在既定技术、资本与组织条件下，劳动每单位时间可以实现多少产出；
本文提出的 AI 生产能力函数在结构上与之具有清晰对应关系：它以“单位 token 所能稳定转化的经济价值”刻画 AI 的生产能力，典型口径为GDP/token（或 GDP/百万 token）；GDP/token的形式可以进入更一般的生产率分析框架。

5. 应用与扩展

前文给出的 AI 生产能力函数主要完成两个任务：其一，给出模型能力作为经济生产力的形式化定义；其二，说明该定义如何与宏观生产分析建立联系。在此基础上，本节进一步讨论该框架的应用与扩展方向。

5.1 模型比较

不同模型之间的AI生产能力排序：对不同模型进行“单位token经济价值产出能力”的排序；
同一模型不同版本的工作能力比较：更清楚地区分“技术分数提升”与“经济生产能力提升”是否同步。

5.2 时间维度比较

不同阶段的模型能力比较，技术进步的动态刻画：

“成本下降”：单次平均token 消耗下降，即推理效率改善、工具调用更有效或策略更紧凑；

“质量提升”：单位任务的成功概率提升，即模型在既有任务上的能力水平、稳定性或复现性增强；

“能力边界扩张”：任务集合(J_m)扩张，即模型能够覆盖更多任务，尤其是更高价值或更复杂的任务。

5.3 成本结构分析

() 可用于分析推理端的商品化（commoditization）过程：如果多个模型在某些任务集上的成功率趋近，模型间竞争往往从“能不能做”转向“谁能更低成本、更稳定地做”，本文的生产能力函数可以提供理解模型服务价格竞争、推理优化策略的统一视角。
() 为分析能源与算力约束提供了中间变量：可将()与“每 token 的能耗和算力成本”结合，构建从资源约束到模型能力到经济产出的多层映射。

5.4 产业与国家层面

产业任务结构差异：
某些行业（如软件开发、数字营销、在线客服、标准化文书处理）具有较高的任务形式化程度与数字化环境兼容性，因而更容易形成稳定的(J_m)并实现较高的 () 应用收益；
另一些行业（如高风险医疗决策、复杂现场作业、强监管流程）则可能因ETT约束严格、任务价值评估复杂或执行环境非数字化而限制AI 生产能力的释放。
国家级 AI 生产能力不同经济体的AI生产能力对比：
“国家级AI 生产能力”是该经济体基于其可获得AI基础模型、任务数字化程度、组织采用能力、制度接受边界与基础设施条件，对AI生产能力的综合实现水平；
本文框架的意义在于，为这种“模型能力—任务结构—制度环境—经济产出”的分层分析提供统一的概念与度量接口。

5.5 政策与投资导向

本文提出的AI生产能力函数可以为AI模型研发投入、模型部署选择、AI投入产出核算、公共采购、经济政策、投资分析制定提供量化工具，是连接技术评估、部署决策、产业分析宏观政策通用度量语言

在 AI 快速扩散的阶段，仅依赖benchmark排名进行决策，容易导致资源配置偏向“技术表现最优而非经济生产率最优”。
对于企业用户而言，模型选择不应仅依据公开评测名次，而应基于目标任务集合下的或其近似估计值进行比较，从而将采购决策与业务价值创造能力对齐。
在 AI投入产出核算公共采购中，提供了一种更具可审计性的量化框架。
产业政策层面，政策制定者可利用该框架识别哪些产业的任务结构更适合 AI 先行渗透，哪些制度约束正在限制高价值任务进入(J_m)，以及哪些基础设施瓶颈（能源、算力、数据中心、组织数字化）正在制约 AI 生产能力转化为实际产出。
投资分析中，及其构成项也可为判断 AI 相关企业或行业的竞争优势提供补充视角。

6. 结论

本文提出了一种基于经济生产力的模型能力度量方法，即在给定任务空间与社会接受约束下，模型将计算资源（token）稳定地转化为经济价值的能力上限（capacity）

传统benchmark的成功率排名无法准确反映模型的经济生产力；本文提供了可操作的测量框架，将现有 benchmark 数据转化为经济生产力度量；
从pointwise performance转向task-space integral；现有 benchmark 衡量的是模型在给定任务点上的正确率；本文衡量的是模型在整个经济任务空间上的价值加权期望产出密度。
本文提出的模型能力定义将任务经济价值、任务异质性、成功概率和资源消耗都纳入考虑，从而将AI模型的能力从技术评测语境中的“性能表现”，推进到经济分析语境中的“生产能力”与“生产率”度量。
本文为企业、研究机构政策制定者提供了一个衡量、比较与优化 AI 生产力操作框架，使得AI生产力可观测、可计量、可比较，为benchmark设计、模型研发、模型比较、技术进步分析、AI成本分析、产业和国家层面AI能力评估、模型部署、资源分配、经济政策、宏观生产力测算提供了理论与实证基础及新的量化工具；也为 AI 经济学研究提供了一个连接微观模型评估与宏观生产率分析的桥梁变量，是一个可进一步细化、实证化与制度化的分析基础。
随着 AI 在经济体系中的进一步渗透，围绕的数据化、标准化与实证化工作，有望成为理解AI 真实经济贡献及其阶段演进的重要基础。
本文应被理解为一个基础性测度框架，而非已完成的最终经验体系。其进一步落地仍依赖若干关键工作任务集合的系统构建、经济图灵测试判定机制的标准化、真实部署数据的持续统计。这些问题并不削弱本文框架的理论意义，反而说明其核心价值正在于提供一个可组织后续测量工作的统一形式。与其在理论上等待一个完美而封闭的 AI 经济指标，不如先建立一个可迭代、可扩展、可实证化的能力度量框架，使模型能力能够在经济分析中被逐步观测、比较与检验。

作者简介

作者王捷，中国初代 AI 投资人，完整经历了移动互联网各个发展和投资阶段， 2017 年以来主要从事 AI 行业投资，投资了摩尔线程、比亚迪半导体、万国数据、京东科技、开思时代、奇安信、明略科技等公司。作者邮箱 jie_wang7@sina.com，欢迎交流，添加请说明工作/学习机构、职务信息。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.