对话清程极智核心团队：不是所有Token都是好Token|引擎|评测|大模型|token

分享至

智东西

作者 | 陈骏达

编辑 | 李水青

智东西5月26日报道，今天，北京AI Infra创企清程极智举办了一场小范围媒体沟通会，系统性地梳理了其成立以来的技术脉络与产品版图。

清程极智成立于2023年底，核心团队来自清华大学计算机系高性能所，在高性能计算等领域有丰富经验。截至2026年3月，清程已完成3轮融资，投资方包括北京市人工智能产业基金、联想、中科创星等知名产业基金。

目前，清程极智已经推出了智能计算软件栈八卦炉（Bagualu）、大模型推理引擎赤兔（Chitu）、大模型服务评测与API调用平台AI Ping等多款产品，覆盖AI训练、推理与应用服务的完整体系。

清程极智重点展示了AI Ping在Token服务环节的能力，包括通过7×24小时持续评测、异地分布式测试以及智能路由，对不同Token服务商的延迟、吞吐和稳定性进行动态观测与调度。

在推理层面，清程极智分享了赤兔推理引擎的技术路径，包括底层自研架构、国产芯片适配，到支持FP8/FP4等量化技术的实现思路，以及其在昇腾、沐曦、海光、摩尔线程等国产算力生态中的实践进展。

清程极智核心团队还向智东西等媒体分享了不少行业一线观察，话题涵盖Token服务成本、国产算力适配和模型技术路线等。

清程极智首席科学家翟季冬提出了Token有好坏之分的观点，即便是同一个模型、同样数量的Token，不同服务商在首Token延迟、吞吐量、支持的上下文长度这些指标上，表现可能相差四五倍。

清程极智联合创始人、产品副总裁师天麾则进一步揭示了Token服务中的乱象，比如有些厂商Token单价看似不高，但缓存命中率低，反而拉高总体使用成本。

一、Token经济爆火，如何少花“冤枉钱”

2026年，Token经济成为新的热词。清程极智首席科学家翟季冬抛出了一组数据：从全球范围看，Token每日调用量从2024年初的约0.5万亿，攀升至今年3月的300至600万亿，增长近300倍；而中国的增速更为惊人，同期从0.1万亿增长至140万亿，增幅高达1400倍。

是什么在驱动这种增长？翟季冬说道：“现在Top 10的AI应用中，Agent能占到80%以上。Agent和单轮对话不一样，它需要多步执行，每一步都可能调用大模型，Token消耗量是普通对话的好几倍。另外像AI编程这类工具，Token调用量也非常大，未来可能真的会取代相当一部分普通程序员的日常工作。”

中国具备独特的Token经济发展土壤。翟季冬称，在供给侧，政府在大力建智算中心、数算中心、超算中心，算力基础设施在持续增长。

模型层面，DeepSeek、GLM、Kimi等优秀模型在不断开源，云厂商部署很方便，连电信、移动这样的运营商都在朝着Token服务方向走。

需求侧，中国的企业级用户、开发者、科研人员、普通消费者，都对Token有着真实的需求。

然而，市场爆发并不等于用户获得了良好体验。如今，业界常常将Token比喻为“水电煤”，但翟季冬认为，Token与电力还有些细微的区别：当我们使用电力的时候，并不关心是风电、水电、火电，但Token本身，是有好有坏的。

国内目前已经涌现出数十家Token供应商，但服务质量参差不齐，流通环节问题凸显。用户面对众多模型和供应商，往往难以判断Token的好坏与差异，选择变得异常困难。

清程极智团队在日常业务中，接触了大量“花冤枉钱”的案例。清程极智联合创始人、产品副总裁师天麾说道：“买Token里头有很多的坑。”

第一个坑是不同服务商模型效果不一致。以DeepSeek模型为例，即便是同一个版本、同样的机器、同样的价格，不同服务商提供的模型效果也是不一样的。

第二个坑是不同服务商Token服务的实际成本不一致。有些情况下，就算标价相同、生成Token数相同，但不同服务商最终成本可能差好几倍。

这与缓存命中率有关。有的服务商缓存机制做得好，实际重复的请求不用重新计算，成本就低；有的服务商技术不行，每次都要重新跑，用户花同样的钱，买到的有效计算可能少很多。

第三个坑是服务质量。迅速兴起的Token厂商服务质量参差不齐，有的顺畅，有的卡顿，甚至会出现服务变笨的情况。清程极智观察到，目前“慢响应”的问题愈发突出，拿到请求后Token服务厂商原本应该3-5秒返回结果，但实际情况是，30秒、50秒甚至300秒都可能出现。

从用户实际体验的角度来说，这种相应速度已经基本不可用，然而在厂商的服务质量保证中，只要返回了结果就算可用。

翟季冬说道：“不同服务商在首Token延迟、吞吐量、支持的上下文长度这些指标上，表现可能相差四五倍。”

二、给大模型API做个“大众点评”，7×24小时持续评测、智能调度模型

今年一月，清程极智推出了AI Ping，就是为了解决上述问题。开发者将AI Ping形象地称为“大模型API服务的大众点评”。

AI Ping面向开发者的两大核心需求提供支持：一是通过7×24小时的持续评测，呈现全面、客观、真实的大模型服务性能指标，提供客观、可验证的性能榜单；二是借助统一API接口、智能路由调度等功能，帮助需通过云端调用大模型的开发者缩短决策周期、提升开发效率、降低接入成本。

师天麾详细介绍了AI Ping背后的关键技术。

在测评方面，AI Ping主打的是从真实用户的视角出发，做端到端的匿名评测。为确保公平性，他们会使用同样的模型、同样的输入、在同一个时间段进行测试，并通过动态输入机制改变评测内容，避免服务商针对评测进行“作弊”。

同时，这一评测不是一次性的，而是24小时不间断的进行，还会同时在北京、深圳、上海、成都等地进行分布式的异地评测。

师天麾称，他们将部分评测结果与国内云厂商的性能监测进行过交叉验证，误差基本控制在1%以内。AI Ping目前可以将Token服务的成本降低超37%，吞吐提升超90%，延迟降低超20%，可用率达到99.99%以上，对标服务质量最高的云大厂。

这些评测成为AI Ping提供智能路由服务的基础。清程极智观察到，同一家服务商的延迟、吞吐在一天内大幅度波动是十分正常的现象，对于用户而言，如果选择单一的服务商，资深的服务稳定性就会受到影响。

AI Ping的智能路由就像是一套导航系统，针对模型调用过程中的卡顿、成本失控等问题，智能调用最优链路，实时规划高效调用路径。

同时，有些模型适合处理快速问答、有些模型适合复杂推理，AI Ping智能路由还可以实现不同模型的搭配。

用户还可在AI Ping上根据自己的需求选择模型策略，比如默认模式、成本优先、性能优先等等。

师天麾认为，AI Ping提供的服务队中小企业而言尤其具有价值。对大厂而言，采购几十个服务商提供的Token服务，然后进行评测并不是件难事，但中小企业因为成本、技术等原因很难做到这点。

三、自研国产大模型推理引擎，不简单挪用现成技术

清程极智的另一大关键产品，是其生产级大模型推理引擎“赤兔”。清程极智联合创始人唐适之详细介绍了推理引擎的技术原理和赤兔的技术特点。

推理引擎是运行在AI算力上的计算机程序，它接收用户输入，依据大模型定义进行计算并产生输出，其输入输出以Token为单位进行计量。之所以需要专门开发推理引擎，是因为开源模型本身只是数学表示，要实现接收输入并产生回答的完整过程，就必须设计相应的推理引擎程序。

一个高效的推理引擎需要满足多方面的要求：其精度要能如实反映模型的回答能力；吞吐量要大，每秒钟处理的请求和Token数量要足够多；延迟要低，每个请求的处理时间要尽可能短；同时还要占用尽可能少的硬件资源，并且运行稳定，避免因频繁报错导致服务中断。

赤兔推理引擎正是为应对这些挑战而自主研发的。赤兔由清程极智联合清华大学团队推出并开源，同时也提供商用版本。开源版服务国产算力生态并持续迭代，企业版则服务企业级高端需求。

赤兔推理引擎从第一行代码就均为自研，面向国产芯片开发，既能在昇腾、沐曦、海光、摩尔线程等厂商的国产芯片上运行，也能在进口芯片上运行，具备较强的兼容性，为行业节约了大量重复工作的成本。

在适应国产算力方面，赤兔引擎没有像很多现有方案那样简单挪用vLLM、SGLang等现成技术，而是真正考虑国产芯片与英伟达芯片在计算能力、数据表达能力、硬件调度和通信方式等方面的差异，在技术上做了针对性突破。

例如，他们通过软件实现对FP8/FP4等浮点数量化类型的支持，在有硬件支持的GPU上可以节省显卡并提升速度，在没有硬件支持的国产卡上则可以有效降低成本并达到可用的使用价值。

总体而言，赤兔这样的国产推理引擎在国产算力和国产模型之间搭建起重要的桥梁，完善了整个生态，助力国产AI推理链条实现自主可控。

四、谈模型架构演进与国产算力生态

会后，翟季冬、师天麾、唐适之与智东西等媒体进行了深入沟通。

唐适之向我们介绍了赤兔推理引擎的技术积累。大模型兴起之前，流体力学模拟、药物设计相关的计算需求也很高，如今AI Infra层的许多技术都源自于高性能计算。清程极智核心团队所来自的清华大学计算机系高性能所，已经在这方面有几十年的技术积累。

谈及国产算力生态的建设，唐适之回忆起了英伟达的往事。唐适之称，之前他还在清华学习时，英伟达会主动向他们赠送免费GPU，为的就是打造生态，如今英伟达的生态已经较为成熟，其芯片也成为紧俏的商品。

目前，各大国产芯片厂商都在自建生态，但这些生态都相对独立。不同国产厂商的所需要的技术很多都是共通的，清程极智想做的就是站在更宏观的视角，服务整个国产算力的发展。

智东西向唐适之询问了国产芯片适配过程中的具体细节。唐适之解释称，芯片能力的发挥不仅依赖硬件本身，更依赖系统软件的深度优化。当前国产算力适配涉及算子库、编译器、并行方案等多个技术层面，它们解决的是同一问题：如何让芯片将更多时间投入真实有效计算，而不是消耗在无效的数据搬运和通信开销上。

他举例称，算子库更偏向手工优化，能够精细调用芯片计算单元；编译器则偏向自动优化，但自动生成的效果未必始终最优。因此，在实际部署中，需要综合不同技术手段，根据芯片架构特点选择最适合的方案，有时甚至需要多种方式协同使用。

对于市场关注的“Token越来越便宜”趋势，师天麾则从供需关系与调度效率角度给出了观察。他认为，大模型推理成本下降并不意味着Token不再紧缺。当前国内推理需求仍在快速增长，尤其长上下文、多轮交互等应用兴起后，Token消耗速度远超以往，而算力供给却难以同步扩张。

师天麾透露，清程极智正在尝试通过评测和智能调度提升算力利用率。“全中国总会有一些服务繁忙，也会有一些服务空闲，但过去业界并不知道谁繁忙谁空闲。”有了AI Ping之后，清程极智可以用更便宜的价格获得Token、并以更便宜的价格对外提供服务，提高算力的利用率，然后同时也给用户来降低成本。

翟季冬则分享了他对大模型技术路线演进的看法。他认为：“如果朝着AGI方向看，上层模型其实远远没有收敛，还有很多探索空间。”

未来模型架构并不一定局限于传统自回归（Auto-regressive）路线。例如，去年蚂蚁曾探索基于扩散机制的语言模型方向，其技术路径与传统自回归架构有所不同，目前包括蚂蚁在内的一些企业仍在持续推进类似尝试，谷歌此前也进行过相关探索。

与此同时，多模态统一模型也成为行业关注的重要方向。目前文本问答、图片生成、视频生成等能力大多仍由不同模型分别承担，但越来越多企业正在尝试将文本、图片和视频整合到统一模型之中，实现多模态能力的一体化。

尽管翟季冬并非直接从事大模型研究，但结合与相关企业的交流和观察，他感受到，整个行业仍在积极探索模型架构，未来仍有望出现新的模型架构与技术路线。

结语：AI Infra效率成竞争焦点

随着大模型逐渐普及，模型背后的基础设施效率愈发成为AI行业的竞争焦点。谁能更低成本、更稳定、更高质量地提供Token服务，谁就更有机会占据下一阶段优势。

与此同时，国产算力生态也在加速发展，行业对于新型架构、互联效率和系统级优化的探索明显加速，转向“芯片+软件栈+推理引擎+应用生态”的整体协同。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.