清华教授翟季冬：Benchmark正在「失效」，智能路由终结大模型选型乱象|benchmark

分享至

“选择悖论”正在AI模型与算力世界里上演。

作者丨赵之齐

编辑丨包永刚

北京一月的初雪落下前，我们在清华见到了翟季冬教授。他手持保温杯，说话很利落，即便一边思考一边叙述，言辞间也几乎没有停顿、没有模糊地带。

这位曾带队拿下15次世界超算冠军的清华计算机系长聘教授，此刻正在拆解一个行业怪象：为什么在大模型参数狂飙、算力价格下探的当下，用户的AI落地负担却越来越重？

他指出，如今Benchmark（基准测试）上的高分，在比对用户真实需求时不一定管用，有时，同个模型在不同MaaS平台上跑出来的效果可能差异巨大，因为部分服务商为了降低成本，会对模型进行“阉割级”量化。而面对眼花缭乱的MaaS供应商，用户要在性能、价格与稳定性之间做取舍，往往光调研一轮市场报价，就已耗尽精力。

“把选型的主动权完全交给用户，其实是很大的挑战”，翟季冬直言。这种“选择悖论”不仅折磨着开发者，更在吞噬企业的利润——对于企业来说，降本增效的核心可能并非追求最顶尖的模型，而是如何调度能力恰当的模型，让昂贵的大模型处理复杂指令，让轻量的小模型应付日常任务。

洞察到这一痛点后，由翟季冬的几位毕业学生发起的AI Infra厂商——清程极智，开发出智能路由产品AI Ping（AI 评），希望成为算力界的“大众点评”。

他们将分散的性能数据系统性整理，并收集用户的使用习惯，公开不同模型与供应商的测评数据，并给用户推荐合适的、高性价比方案。翟季冬认为，这种产品形态，有助于撬动算力行业的马太效应——他相信，当数据越集中，模型的选择就越精准；选择越精准，用户需要付出的成本就越低。

翟季冬

与我们交流时，尽管判断明确，翟季冬说话时的语气却始终都是温和的。他走进会议室时，手上拎着提前为我们备好的饮用水；对话结束后，还为北京凛冽的寒潮给我们来访带来的困扰而“致歉”。待人的认真，也换来了学生们的真心相待——在许多博士生习惯将导师称为“老板”的当下，他的博士生们仍坚持称呼他为“老师”。

这份温和的师者风范背后，是他对算力行业丛林法则的洞察。当大模型从实验室走向万千企业，性能数据与用户体验之间的信息差该如何填平？在国内“重硬轻软”的ToB市场中，AI Infra团队又应该如何定位自己的存在？（关于AI Infra生存路径的探讨，欢迎添加作者微信Ericazhao23交流）

这些问题的答案，都藏在他的娓娓道来里。

01
模型选型的隐形账本：

位置、定价与被阉割的精度

更多的自由和选择，并不意味着更大的幸福，有限且可比较的选项，反而能提升决策效率与满意度——这一“选择悖论”，正在AI模型与算力的世界里上演。

大模型井喷式发展，每个人手里都握着好几款“AI助手”。但翟季冬捕捉到一个痛点：现在很多用户上网挑选模型，能参考的只有很标准的Benchmark（基准测试），不少人直接冲着跑分最高的模型去——但最牛的不一定是最合适的。他直言：“模型刷了多少分，并不一定能匹配用户的真实需求。”

究其原因，除了纯粹的性能，还有很多因素会影响模型使用体验。

供给侧上，各家模型供应商的服务响应效果有所差别。以DeepSeek-v3.2模型为例，翟季冬团队调研发现，国内提供这一API服务的厂商就有几十家，但他们的API服务吞吐却覆盖从15~200 token/s，相差10倍以上；而其支持的输入输出长度，也从8k~160k不等，相差了20倍。

用户对此其实早有体感：去年初DeepSeek爆火后，一众服务商纷纷接入其API，很多人用过一轮后却发现，同样调用DeepSeek模型、问出相同问题，不同供应商的输出效果却天差地别。

答案很快浮出水面：即便接入同个模型，有的厂商会对模型做激进的量化处理，例如从FP8变成INT4，输出的表现自然随之改变。

连服务商的算力部署位置，也会左右模型的调用体验：同款模型，如果用户在北京调用，MaaS提供方在上海或深圳，体验都会有很大差异。

此外，各玩家定价策略各异，不同阶段的促销活动还会导致成本相差甚远。

但用户的需求本身就是多维度的：有的更看重性价比，有的追求稳定性，有的则更在意响应速度。而不同的任务场景，也对应着不同的大模型最优解——

对于需求是“写小说”的用户，模型擅长写调研报告的能力就毫无意义；而日常查天气、问穿搭，一个轻量级的小模型也足够用；可要是解一道复杂的科学难题，就得大参数的模型出马。

“把选型的主动权完全交给用户，其实是很大的挑战”，翟季冬指出。虽然对个人免费用户而言影响可能甚微，但对企业级用户来说，会直接引发巨大的成本鸿沟：

同样的预算，调用大模型可能仅能支持十万次请求，换成小模型却能达到百万次量级。

理想的情况是：如果能对需求做精细化拆分，让复杂问题匹配大模型、简单问题对接小模型，就能实现算力成本的最优解。

而这些，都是翟季冬和清程极智团队想解决的问题。

02
做算力界的“大众点评”，

终结大模型选型乱象

瞄准这些行业痛点，清程极智团队打造出智能路由产品AI Ping（AI评）。

“AI评的‘评’，就是评测，清程对国内MaaS供应商持续测试——既测同款模型在不同厂商手中的延迟、带宽表现，也对比不同模型在各家平台的吞吐效率与价格成本差异”，翟季冬介绍说。

拆解来看，智能路由的能力分为两层：一是服务商路由，在众多API服务提供者中选择最佳的服务；二是模型路由，在众多大模型中选择最佳的模型。

回顾技术的研发，翟季冬感慨，服务商路由的搭建不算是最难的事，真正难啃的硬骨头，是如何为用户精准匹配模型。

“要给企业的问题精准匹配模型，前提是积累他们的海量历史数据”，但在初期，数据储备往往不足、用户行为画像模糊，模型的精准选择很难。

这个难点，在AI Ping的目标市场——个人开发者和中小企业这个群体里，被进一步放大：

AI Ping团队发现，这类用户对产品质量的要求几乎是要“超出预期”，八十分的水准，在他们眼里几乎等同于不合格，这让产品打磨的难度陡增。

因此，在起初的冷启动阶段，团队选择用“笨办法”突围：一边给供应商测试大量数据，用Benchmark测试准确性、延迟带宽、价格；一边联合上下游企业拓展市场，在真实场景中积累用户、沉淀数据。

解决了这个问题，另一重考验随即出现：面对企业的高吞吐刚需，单一供应商的算力储备往往难以满足。这就对平台提出了两大要求——强大的算力整合能力，以及国产算力接入通道的打通能力。

对此，清程极智就在AI Infra上做了大量工作，把“赤兔”推理引擎与AI Ping对接，完成了算力资源的整合调度。

截图来自AI Ping网站

在翟季冬看来，AI Ping很像算力行业的“大众点评”，给用户打造一套垂直领域的解决方案。

这本质上也是一种团购逻辑：聚合海量用户需求后，清程极智能以更大的体量与算力厂商议价。毕竟，大模型选型的核心命题，始终是成本与效率的平衡。

“这本身也会形成一种马太效应”，翟季冬指出，“聚合的用户越多、收集的数据越丰富，模型匹配的精准度就越高；既能帮助用户省去更多钱，也能帮算力厂商盘活资源，我们的软件能力也能借此赋能”。

从2025年春夏之交筹备至今，历时近一年，AI Ping终于迎来了正式面市的时刻。

这种中立的评测甚至成了行业“裁判”：硅基流动创始人袁进辉此前在朋友圈提及，有的用户分不清其基于国产卡的非pro版与基于国际算力的Pro版的指标差异，于是直接抛出AI Ping的测评结果作佐证。

“可以去这个网站看各项指标，很靠谱”，袁进辉这样写道。

来自同行的反馈，已侧面印证出AI Ping作为风向标的价值。不过，一个更现实的问题也随之浮现：对于清程极智而言，如何把这种数据影响力在商业上变现？

03
AI Ping商业解法：整机与算力双管齐下

对话刚开场，被问及“如今Infra行业的普遍焦虑是什么”时，翟季冬的回应直指核心：

“怎么让国内AI Infra赚到更多钱？”

在他看来，商业化的核心逻辑正在逐渐明晰：算力需求是一个非常真实的市场，怎么通过服务软件把算力有效整合提供给用户，会是AI Infra行业未来的重要发展方向。

这一判断，也支撑起了清程极智的产品布局——大模型训练智能软件栈“八卦炉”、被誉为国产算力部署神器的“赤兔”大模型推理引擎和一站式大模型API评测和调用平台AI Ping，本质上都是底层算力到用户端的一个个“出口”。其中，AI Ping便通过整合模型和供应商，把软件能力赋能到算力上，给用户提供token和算力。

这也是清程在这两年沉淀出来的解法。

翟季冬评论道，清程极智的核心竞争力是中间软件层，包括编译、通信库、并行加速等技术，基于此，他们逐渐找到了自己的定位：和芯片厂商合作，做其系统软件之上增量的部分，让大模型在这些芯片上发挥出极致的效率。

围绕这一定位，清程也在探索多种不同的商业化路径：

一方面，将软件与硬件打包为整机服务，针对“买了国产卡却难落地”的痛点，让裸机用户也能做训练与微调；另一方面，是通过AI Ping等平台与算力厂商合作，提升国产算力的易用性。

而在最近与国产芯片公司的厂商交流中，翟季冬也感受到，大家对软硬件高效协同的重要性已形成共识，“剩下的问题，无非就是这些软件由谁去做”。

清程极智联合创始人师天麾，也观察到了这种行业认知的转变。他此前向雷峰网表示：

“DeepSeek能用极少的算力卡和极低的成本，训练出如此大规模的模型，主要依靠的是模型架构设计和Infra软件技术，尤其是他们把大量算力加速类Infra软件开源后，大家才真正意识到Infra的重要性。”

一个显著标识是，以前他还需要和投资人解释什么是Infra，进入2025年之后，这一步已经可以省略了。

但在当下，行业内也流传着一种担忧：

“AI Infra的价值，只存在于国产算力群雄逐鹿阶段，一旦算力架构定型、大模型技术收敛，Infra的必要性也会大打折扣。”

这也是摆在所有Infra从业者面前共同的问题：下一个能证明自己价值的“地盘”会在哪里？未来如果国产算力逐渐同构，AI Infra还有存在的必要吗？

04
Infra的生命力：

架构演进不止，软件迭代不息

此前，AI Infra已在架构适配、算子生成、并行通信等领域初试锋芒，不过，这远非终点。

在翟季冬看来，Infra的生命力源于底层架构与上层软件的双重迭代：“只要模型还在演进、算力架构还在融合发展，Infra的需求就会持续存在”。

他指出，即便是英伟达的CUDA生态，底层芯片同构，但由于模型侧还没有完全收敛，推理、后训练的复杂度仍在提升：

文生图、文生视频等多模态模型还在兴起，即将推出的DeepSeek V4，还将引入更多稀疏性相关的技术难题；AI for Science、AI for Engineering等新的应用领域迸发，也在倒逼AI Infra的底层需求发生变革。

同时，国内算力不仅厂商多，各自的架构也并不统一，这更决定了AI Infra的不可替代性。

翟季冬分析，海外算力市场的架构相对统一：英伟达与AMD占主导地位，二者的GPU架构均属于SIMT（单指令多线程），有很强的相似性。

反观国内，有的厂商选择对标英伟达的SIMT架构，有的则主攻SIMD（单指令流多数据流）架构。

并且，在这几年里，这两种架构并非一方绝对压倒另一方：很多芯片厂商如今都在走架构融合的路线，通过取长补短提升性能，比如华为，开始在SIMD架构里融入SIMT的设计思路；英伟达则正好相反。

在此基础上，即便已有比较成熟的Infra项目，例如开源圈里炙手可热的Triton——这款由OpenAI为英伟达芯片开发的算子生成工具，在适配不同架构的国产芯片时，也必须经过大量本土化改造。

而未来，随着推理场景的全面爆发，AI Infra还将迎来新一轮的挑战。

翟季冬直言，行业现在普遍面临一个痛点：芯片的峰值算力与实际利用率之间存在巨大鸿沟。一块标称300TFLOPS算力的芯片，在大模型训练或推理中，实际利用率往往只有10%-20%；即便是英伟达这样的巨头，预训练场景下的算力利用率也仅能达到50%上下。

进入推理阶段后，文字、图像、视频等不同任务的算力需求差异显著，再加上对时延的极高要求，如何针对不同推理场景实现硬件性能的最大化释放，将是AI Infra未来的核心攻坚方向。

除了这些看得见的产业机遇，翟季冬还在默默探索那些“冷赛道”，比如AI for Science等短期内难见商业价值、但对科技发展至关重要的领域。

他还与我们分享了一段近期的交流经历：一位归国的天文系老师告诉他，射电望远镜每天都会产生海量观测数据，他们需要高效的解决方案，来完成数据的实时处理与算法分析——这无疑对AI Infra的软硬件协同能力，提出了更高的要求。

这些眼下难见回报的探索，正藏着AI Infra的本真价值。在翟季冬眼中，这也是Infra行业可以穿越周期、走向未来的底气。

作者长期关注AI算力上下游等方向，欢迎添加微信Ericazhao23交流。

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！

公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.