智荟月刊 | 加快构建词元质量评价标准体系|科学|计量

分享至

让词元更有质量

——推动词元经济高质量发展

编者按词元（Token）正成为人工智能服务的核心计量、结算与统计单位。当前，词元经济呈现爆发式增长态势，各类应用场景层出不穷，但“有流量、无质量”“有消耗、难评价”等问题日益凸显：词元消耗量难以反映AI服务真实价值、定价机制混乱、高质量供给缺乏有效激励。

近日，国家数据局召开词元经济座谈会，明确将词元经济纳入工作体系，释放出推动行业从规模扩张转向高质量发展的强烈信号。中国经济时报社等机构的专家学者和部分知名企业代表应邀参会发言。本期《智荟月刊》以“让词元更有质量——推动词元经济高质量发展”为主题，特别邀请四位与会专家，围绕词元经济健康发展的核心议题展开深入研讨，并从政策、技术、经济与治理等维度带来前沿思考与务实建议，以飨读者。

中国经济时报陈波

核心观点

当前词元消耗量仅能反映AI服务的“流量”，无法衡量其“质量”与“价值”。词元产生于“用户—智能体—模型”的动态服务过程，其质量本质就是AI服务质量，且高度依赖智能体的任务规划与工具调用能力。因此，评价体系必须摒弃仅凭通用测试得分论英雄的思维，回归对输入、处理、输出、用户体验全过程的动态评价。应以“能力、底线、价值”三维框架为基础，按“分类、分级、动态”原则推进，深度融合客观标准与主观体验，并针对不同应用场景量体裁衣。

■陈波

5月22日，国家数据局召开词元经济座谈会，明确将词元经济纳入工作体系，并指出词元正成为人工智能（AI）服务的计量、结算与统计单位。数日后，市场监管总局与国家发展改革委联合印发《人工智能计量体系和能力建设指引（2026版）》（以下简称《指引》），其核心目标直指让AI“可测量、可比较、可追溯”。

这两则信息传递出明确信号，推动词元经济从初始的规模扩张转向有序的高质量发展，必须首先解决度量问题。这里必须认清一个根本逻辑，即词元产生于AI服务的动态过程，其质量本质就是AI服务的质量。这一过程并非简单的“用户—模型”直接交互，而是“用户—智能体—模型”的复杂过程。智能体作为理解和执行用户意图的代理，负责规划任务、调用工具、管理上下文记忆，并调度一个或多个模型，其自身的设计与性能直接影响着词元消耗的效率和最终输出结果的质量。

因此，建立词元质量评价标准体系，并非等同于对静态大模型的单一评价，也不同于对某个物体的检测，其核心是对AI服务这一复杂动态过程的评价。用户满意可能不是唯一标准，而只是一个结果。基于价值的定价策略也并非由用户满意一个维度所决定，还需要其他因素支撑。这决定了该体系必须是一个融合客观标准与主观体验的复杂系统。构建这样一套科学、动态、场景化的标准体系，已从行业发展需要上升为紧迫的政策需求。这不仅是一套技术规范，还是关乎产业竞争秩序、价值公平分配与社会信任构建的制度性基础设施，是破解智能经济定价之谜、激活数据要素、实现健康可持续发展的关键。

为词元经济确定价值“度量衡”

当前，我们面临AI服务的“度量危机”。词元消耗量只能反映AI服务的流量，却无法衡量其质量与价值。为何使用相同模型，效果与评价天差地别？为何耗费巨量词元，产出却不尽如人意？收费与免费，差异究竟在于AI价值还是企业策略？这些困惑，根源在于我们缺乏客观、可信的标准来度量AI服务的内在品质。

这场危机源于AI服务与生俱来的“价值情境依赖性”。我们已经有了词元这个计量单位，但这不等同于解决了AI服务质量评价的问题，并且因智能体的介入而更加复杂。智能体在服务过程中可能自主进行多轮思考、调用外部工具、从记忆库中检索信息，这些动作都会产生大量的中间过程词元，这些词元并不直接面向用户，但最终结果的质量至关重要。因此，词元消耗量与实际终端价值之间的关联，不仅取决于最终调用的模型，更取决于智能体如何使用这些词元以实现目标。同时，相同成本产出的词元，用于日常闲聊与用于辅助新药研发，所创造的价值天差地别。这也就是当前词元价值度量衡面临的三重困境。

困境一：市场失灵与定价之谜。价格与价值脱钩，高价值专业服务的提供者无法获得合理回报，抑制了其深耕垂直领域的动力；用户也无法为关键产出支付公允价格。市场在流量计价的粗放模式下，陷入低水平内卷，资源严重错配。

困境二：统计失灵与决策失准。国民经济核算体系无法区分词元消耗中的高价值创造与低价值消耗，大量由AI带来的生产率跃升和消费者福利改善成为统计“黑箱”，致使宏观决策缺乏精准的数据支撑。

困境三：创新生态激励扭曲。在质量信号缺失的“黑箱”中，投入巨大成本研发高质量数据和高可靠模型的贡献者，其价值无法被市场识别和定价，从而无法准确参与利益分享。这严重挫伤了高质量生产要素的供给积极性，长远将损害创新生态的根基。

因此，加快建立词元质量评价标准体系，首要目标就是建立一套清晰、可信的价值度量衡，它通过提供客观的质量信号，引导资本、算力、数据、人才等资源自动流向能创造更高社会经济价值的领域，从根本上矫正上述失灵。

词元的质量评价体系，其深远意义远不止于给模型排名。

一是可作为公共信息产品，它是社会信任基石。强制性的安全分级如同“安全认证”，性能分级如同“能效标识”，能极大地降低社会甄别成本，扫清AI大规模普及的信任障碍。这个体系的核心，是建立一套能够被广泛认可的客观标准框架，为市场提供一个评价基准，而最终的使用体验和主观评判权仍交还给用户自身。

二是可作为资源要素指引，它是技术向善标准。通过为教育、医疗、养老等民生领域设定更高评价标准，可以引导产业界的研发与创新活动优先服务于国家战略与公共利益。

三是可作为收益分享基础，为要素市场提供动力。这是其最核心的经济功能，科学分级为优质优价提供了依据，使高价值模型能获得合理溢价，从而为“保底授权费+价值分成”等定价模式奠定基础，激活数据要素市场。

四是可与计量审计协同，串联成AI产业价值闭环。质量评价的落地，尤其与分成模式结合，高度依赖于一套可信的计量与审计基础设施。质量评价体系与《指引》规划的AI计量能力建设，是一体两面、必须协同推进的同一系统工程。公认的质量标签加上可信的计量数据，才能让价值正常循环。

把场景因素纳入构建质量体系

构建词元质量评价体系，首先必须彻底摒弃仅凭通用测试得分论英雄的思维。一个学术评测冠军模型，可能在产业场景中平平无奇，或者完全是大材小用，甚至因安全问题无法实用。对词元质量的评价，必须回归到对AI服务全过程，即输入—处理—输出—用户体验整个过程的动态评价。词元的评价体系不是唯一标准的分数榜，而是一套多维、动态、与场景深度耦合的体系，其设计哲学是将可标准化的客观部分建立起来，同时为不可标准化的主观体验留出评估空间和用户选择权。

1.用“能力、底线、价值”三个维度构建评价框架

第一个维度是能力维度，衡量基础性能，评价模型和智能体的能力。对于模型的能力包括在通用知识和逻辑推理上的广度；在代码、法律、医疗等垂直领域的深度与精度；抵抗幻觉的可靠性；以及单位能耗的效率。这是相对客观的、可复现测量的硬指标。对于智能体则主要是调度与组合能力，包括任务规划与拆解准确率、工具调用精准度与效率、上下文管理能力和多模型协同能力，等等。

第二个维度是底线维度，衡量安全与合规程度，类似模型和智能体应用的“一票否决”项，是信任的基石。标准必须系统评估，针对模型及智能体应用场景，对内容安全、隐私与数据安全、公平性与偏见，以及关键决策的可解释性与可控性进行评价。这部分工作可以参考已有的信息系统安全测评方面的相关经验。这部分评价也以客观标准为主。

第三个维度是价值维度，对场景适配性进行规范。这是最具挑战性的，也是最关键的维度，直接体现了AI服务的动态过程与用户体验。这个维度完全由场景定义，必须量体裁衣，也就融合了客观效果与主观感受。例如：

在创意生成场景中，例如生成文案和视觉产品，则评价输出的新颖性、审美价值时，必须结合行业专家评审与市场反馈数据。

在知识工作场景中，例如与决策支持相关的行业研究和投资分析，则评价输出的准确性、逻辑严谨性、信息溯源性等客观指标，同时也需考虑呈现方式对用户理解的支持度。

在工具增强场景中，例如辅助编程和数据分析，则评价结果正确性、执行效率、符合行业规范等客观标准。

在交互与陪伴场景中，例如客户服务和教育辅助，则评价输出的流畅度、共情能力、长期一致性，这部分评价则需要引入大量用户主观体验调研。

2.以“分类，分级，动态”方式逐渐形成标准体系

首先，要对场景进行分类。可以由制定机构联合产业界，制定覆盖主要领域的《智能服务核心应用场景分类指南》，建立评价的标准坐标。这是对AI服务多样性的客观刻画。

其次，在场景中进行分级。对每个重要细分场景，如智能客服中的金融领域服务，成立专门工作组，从三维框架中遴选核心指标，为客观化的指标，如响应准确率、代码通过率，设定明确的分级阈值；对主观性的指标，设计科学的抽样调查与评价方法，如用户满意度，将其转化为可比较的分级数据。最终形成一类一策的《质量分级评价规范》，使模型获得一系列场景化的能力证书，而非一个笼统分数。

再次，把动态进化当作工作常态。通过年检加新版本检测、吸纳市场反馈与监管沙盒相结合等方式，尤其是要建立机制化的用户主观评价反馈渠道，把标准体系的动态优化作为工作常态，持续改进客观标准和公布主观评价结果。

多方协同实施敏捷治理

标准的构建和完善需要国家、行业、企业和社会的协同共治，可以按“急用先行、滚动迭代”的方式敏捷实施。在此需要明确界定各方在构建评价体系中的角色。

国家与监管部门是规则的制定者与秩序的维护者，负责明确安全底线、搭建公共平台、制定路线图、维护执法公平，核心任务之一是牵头建立基础的客观评价标准。

行业组织与专业机构是垂直领域标准制定者和裁判员，负责研制本领域专业化的性能与适用性标准，提供公正评测服务，他们将行业的共性客观要求和典型主观体验转化为具体评估细则。

企业也就是模型与平台方，既是创新主力也是质量第一责任人，必须履行全面真实的质量信息披露义务，不仅要满足客观标准，还需建立用户反馈闭环。作为智能体的提供方或运营平台，企业不仅要对底层模型负责，更要对智能体的整体行为、安全性和效率负责，需披露智能体的决策逻辑框架、安全边界和已知局限。

用户、应用开发者与社会公众是最终的使用者也是监督员，要确保他们能获得真实完整的信息，能自主通过用脚投票、社区评议和调研参与的方式，形成外部制衡与反馈网络，使评价体系保持鲜活，最终通过付费表达自己真实的购买意愿。

构建体系的过程是一项系统工程，需要分阶段推进。

第一阶段是筑基与试点阶段。政府要快速出台安全合规分级强制国标，确定场景试点目录，探索建立包含基础性能和初步用户体验指标的评价规范，要邀请头部企业深度参与、率先改造、接受评测。目标是快速产出可信的可行方案，建立公信力。

第二阶段是扩展与推广阶段。政府应上线国家评价公共平台，展示初步的客观分级和主观评价结果，发布场景建设路线图。政府要引导各行各业主动牵头制定标准，改进完善评价和计量工具。企业为获取更高评级和市场口碑，必须认真参与这场质量评比赛，并探索数据、算法等分成模式。目标是培育可良性循环的市场生态。

第三阶段是巩固与完善阶段。政府设立常设标准化技术委员会，建立快速修订机制，管理好监管沙盒内的标准孵化。企业、社区、学界持续提供反馈，特别是来自真实用户的主观体验数据，将成为标准迭代的关键输入。前沿企业在沙盒内承担探索责任。目标是实现标准与技术的同步进化，治理模式转变为多方参与的标准共同体。

让AI服务可度量、可信赖

建立词元质量评价标准体系，这是一项涉及技术、经济与治理的复杂工程。我们必须深刻认识到，评价词元质量，就是评价AI服务本身。在智能体日益成为服务主导形态的趋势下，这一评价必须穿透智能体这一层。一个健康的评价体系，必须能同时容纳可验证的客观标准和多元化的主观体验——前者建立秩序与信任的基石，后者赋予市场活力与创新的源泉。唯有政府、行业、企业与社会四方凝聚智慧，以清晰的权责、敏捷的节奏、紧密的协同，才能将这套体系从蓝图变为现实，使词元经济实现高质量发展，推动人工智能服务迈向价值驱动的新阶段，释放人工智能赋能千行百业、增进社会福祉的巨大潜能。

（作者单位：中国经济时报社）

总监制丨王列军车海刚

监制丨陈波王彧杨玉洋

主编丨毛晶慧编辑丨陈姝含

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

智荟月刊 | 加快构建词元质量评价标准体系