网易首页 > 网易号 > 正文 申请入驻

清华教授翟季冬:Benchmark正在「失效」,智能路由终结大模型选型乱象

0
分享至



「选择悖论」正在AI模型与算力世界里上演。

作者丨赵之齐

编辑丨包永刚

北京一月的初雪落下前,我们在清华见到了翟季冬教授。他手持保温杯,说话很利落,即便一边思考一边叙述,言辞间也几乎没有停顿、没有模糊地带。

这位曾带队拿下15次世界超算冠军的清华计算机系长聘教授,此刻正在拆解一个行业怪象:为什么在大模型参数狂飙、算力价格下探的当下,用户的AI落地负担却越来越重?

他指出,如今Benchmark(基准测试)上的高分,在比对用户真实需求时不一定管用,有时,同个模型在不同MaaS平台上跑出来的效果可能差异巨大,因为部分服务商为了降低成本,会对模型进行“阉割级”量化。而面对眼花缭乱的MaaS供应商,用户要在性能、价格与稳定性之间做取舍,往往光调研一轮市场报价,就已耗尽精力。

“把选型的主动权完全交给用户,其实是很大的挑战”, 翟季冬直言。这种“选择悖论”不仅折磨着开发者,更在吞噬企业的利润——对于企业来说,降本增效的核心可能并非追求最顶尖的模型,而是如何调度能力恰当的模型,让昂贵的大模型处理复杂指令,让轻量的小模型应付日常任务

洞察到这一痛点后,由翟季冬的几位毕业学生发起的AI Infra厂商——清程极智,开发出智能路由产品AI Ping(AI 评),希望成为算力界的“大众点评”。

他们将分散的性能数据系统性整理,并收集用户的使用习惯,公开不同模型与供应商的测评数据,并给用户推荐合适的、高性价比方案。翟季冬认为,这种产品形态,有助于撬动算力行业的马太效应——他相信,当数据越集中,模型的选择就越精准;选择越精准,用户需要付出的成本就越低。


翟季冬

与我们交流时,尽管判断明确,翟季冬说话时的语气却始终都是温和的。他走进会议室时,手上拎着提前为我们备好的饮用水;对话结束后,还为北京凛冽的寒潮给我们来访带来的困扰而“致歉”。待人的认真,也换来了学生们的真心相待——在许多博士生习惯将导师称为“老板”的当下,他的博士生们仍坚持称呼他为“老师”。

这份温和的师者风范背后,是他对算力行业丛林法则的洞察。当大模型从实验室走向万千企业,性能数据与用户体验之间的信息差该如何填平?在国内“重硬轻软”的ToB市场中,AI Infra团队又应该如何定位自己的存在?(关于AI Infra生存路径的探讨,欢迎添加作者微信Ericazhao23交流)

这些问题的答案,都藏在他的娓娓道来里。

01

模型选型的隐形账本:位置、定价与被阉割的精度

更多的自由和选择,并不意味着更大的幸福,有限且可比较的选项,反而能提升决策效率与满意度——这一“选择悖论”,正在AI模型与算力的世界里上演。

大模型井喷式发展,每个人手里都握着好几款“AI助手”。但翟季冬捕捉到一个痛点:现在很多用户上网挑选模型,能参考的只有很标准的Benchmark(基准测试),不少人直接冲着跑分最高的模型去——但最牛的不一定是最合适的。他直言:“模型刷了多少分,并不一定能匹配用户的真实需求。”

究其原因,除了纯粹的性能,还有很多因素会影响模型使用体验。

供给侧上,各家模型供应商的服务响应效果有所差别。以DeepSeek-v3.2模型为例,翟季冬团队调研发现,国内提供这一API服务的厂商就有几十家,但他们的API服务吞吐却覆盖从15~200 token/s,相差10倍以上;而其支持的输入输出长度,也从8k~160k不等,相差了20倍

用户对此其实早有体感:去年初DeepSeek爆火后,一众服务商纷纷接入其API,很多人用过一轮后却发现,同样调用DeepSeek模型、问出相同问题,不同供应商的输出效果却天差地别。

答案很快浮出水面:即便接入同个模型,有的厂商会对模型做激进的量化处理,例如从FP8变成INT4,输出的表现自然随之改变。

服务商的算力部署位置,也会左右模型的调用体验:同款模型,如果用户在北京调用,MaaS提供方在上海或深圳,体验都会有很大差异。

此外,各玩家定价策略各异,不同阶段的促销活动还会导致成本相差甚远

用户的需求本身就是多维度的:有的更看重性价比,有的追求稳定性,有的则更在意响应速度。而不同的任务场景,也对应着不同的大模型最优解——

对于需求是“写小说”的用户,模型擅长写调研报告的能力就毫无意义;而日常查天气、问穿搭,一个轻量级的小模型也足够用;可要是解一道复杂的科学难题,就得大参数的模型出马。

把选型的主动权完全交给用户,其实是很大的挑战”,翟季冬指出。虽然对个人免费用户而言影响可能甚微,但对企业级用户来说,会直接引发巨大的成本鸿沟

同样的预算,调用大模型可能仅能支持十万次请求,换成小模型却能达到百万次量级。

理想的情况是:如果能对需求做精细化拆分,让复杂问题匹配大模型、简单问题对接小模型,就能实现算力成本的最优解。

而这些,都是翟季冬和清程极智团队想解决的问题。

02

做算力界的“大众点评”,终结大模型选型乱象

瞄准这些行业痛点,清程极智团队打造出智能路由产品AI Ping(AI评)。

“AI评的‘评’,就是评测,清程对国内MaaS供应商持续测试——既测同款模型在不同厂商手中的延迟、带宽表现,也对比不同模型在各家平台的吞吐效率与价格成本差异”,翟季冬介绍说。

拆解来看,智能路由的能力分为两层:一是服务商路由,在众多API服务提供者中选择最佳的服务;二是模型路由,在众多大模型中选择最佳的模型。

回顾技术的研发,翟季冬感慨,服务商路由的搭建不算是最难的事,真正难啃的硬骨头,是如何为用户精准匹配模型。

“要给企业的问题精准匹配模型,前提是积累他们的海量历史数据”,但在初期,数据储备往往不足、用户行为画像模糊,模型的精准选择很难。

这个难点,在AI Ping的目标市场——个人开发者和中小企业这个群体里,被进一步放大

AI Ping团队发现,这类用户对产品质量的要求几乎是要“超出预期”,八十分的水准,在他们眼里几乎等同于不合格,这让产品打磨的难度陡增。

因此,在起初的冷启动阶段,团队选择用“笨办法”突围:一边给供应商测试大量数据,用Benchmark测试准确性、延迟带宽、价格;一边联合上下游企业拓展市场,在真实场景中积累用户、沉淀数据。

解决了这个问题,另一重考验随即出现:面对企业的高吞吐刚需,单一供应商的算力储备往往难以满足。这就对平台提出了两大要求——强大的算力整合能力,以及国产算力接入通道的打通能力。

对此,清程极智就在AI Infra上做了大量工作,把“赤兔”推理引擎与AI Ping对接,完成了算力资源的整合调度。


截图来自AI Ping网站

在翟季冬看来,AI Ping很像算力行业的“大众点评”,给用户打造一套垂直领域的解决方案

这本质上也是一种团购逻辑:聚合海量用户需求后,清程极智能以更大的体量与算力厂商议价。毕竟,大模型选型的核心命题,始终是成本与效率的平衡。

“这本身也会形成一种马太效应”,翟季冬指出,“聚合的用户越多、收集的数据越丰富,模型匹配的精准度就越高;既能帮助用户省去更多钱,也能帮算力厂商盘活资源,我们的软件能力也能借此赋能”。

从2025年春夏之交筹备至今,历时近一年,AI Ping终于迎来了正式面市的时刻。

这种中立的评测甚至成了行业“裁判”:硅基流动创始人袁进辉此前在朋友圈提及,有的用户分不清其基于国产卡的非pro版与基于国际算力的Pro版的指标差异,于是直接抛出AI Ping的测评结果作佐证。

“可以去这个网站看各项指标,很靠谱”,袁进辉这样写道。

来自同行的反馈,已侧面印证出AI Ping作为风向标的价值。不过,一个更现实的问题也随之浮现:对于清程极智而言,如何把这种数据影响力在商业上变现?

03

AI Ping商业解法:整机与算力双管齐下

对话刚开场,被问及“如今Infra行业的普遍焦虑是什么”时,翟季冬的回应直指核心:

“怎么让国内AI Infra赚到更多钱?”

在他看来,商业化的核心逻辑正在逐渐明晰:算力需求是一个非常真实的市场,怎么通过服务软件把算力有效整合提供给用户,会是AI Infra行业未来的重要发展方向。

这一判断,也支撑起了清程极智的产品布局——大模型训练智能软件栈“八卦炉”、被誉为国产算力部署神器的“赤兔”大模型推理引擎和一站式大模型API评测和调用平台AI Ping,本质上都是底层算力到用户端的一个个“出口”。其中,AI Ping便通过整合模型和供应商,把软件能力赋能到算力上,给用户提供token和算力

这也是清程在这两年沉淀出来的解法。

翟季冬评论道,清程极智的核心竞争力是中间软件层,包括编译、通信库、并行加速等技术,基于此,他们逐渐找到了自己的定位:和芯片厂商合作,做其系统软件之上增量的部分,让大模型在这些芯片上发挥出极致的效率

围绕这一定位,清程也在探索多种不同的商业化路径:

一方面,将软件与硬件打包为整机服务,针对“买了国产卡却难落地”的痛点,让裸机用户也能做训练与微调;另一方面,是通过AI Ping等平台与算力厂商合作,提升国产算力的易用性。

而在最近与国产芯片公司的厂商交流中,翟季冬也感受到,大家对软硬件高效协同的重要性已形成共识,“剩下的问题,无非就是这些软件由谁去做”。

清程极智联合创始人师天麾,也观察到了这种行业认知的转变。他此前向雷峰网表示:

“DeepSeek能用极少的算力卡和极低的成本,训练出如此大规模的模型,主要依靠的是模型架构设计和Infra软件技术,尤其是他们把大量算力加速类Infra软件开源后,大家才真正意识到Infra的重要性。”

一个显著标识是,以前他还需要和投资人解释什么是Infra,进入2025年之后,这一步已经可以省略了。

但在当下,行业内也流传着一种担忧:

“AI Infra的价值,只存在于国产算力群雄逐鹿阶段,一旦算力架构定型、大模型技术收敛,Infra的必要性也会大打折扣。”

这也是摆在所有Infra从业者面前共同的问题:下一个能证明自己价值的“地盘”会在哪里?未来如果国产算力逐渐同构,AI Infra还有存在的必要吗?

04

Infra的生命力:架构演进不止,软件迭代不息

此前,AI Infra已在架构适配、算子生成、并行通信等领域初试锋芒,不过,这远非终点。

在翟季冬看来,Infra的生命力源于底层架构与上层软件的双重迭代:“只要模型还在演进、算力架构还在融合发展,Infra的需求就会持续存在”。

他指出,即便是英伟达的CUDA生态,底层芯片同构,但由于模型侧还没有完全收敛,推理、后训练的复杂度仍在提升:

文生图、文生视频等多模态模型还在兴起,即将推出的DeepSeek V4,还将引入更多稀疏性相关的技术难题;AI for Science、AI for Engineering等新的应用领域迸发,也在倒逼AI Infra的底层需求发生变革。

同时,国内算力不仅厂商多,各自的架构也并不统一,这更决定了AI Infra的不可替代性。

翟季冬分析,海外算力市场的架构相对统一:英伟达与AMD占主导地位,二者的GPU架构均属于SIMT(单指令多线程),有很强的相似性。

反观国内,有的厂商选择对标英伟达的SIMT架构,有的则主攻SIMD(单指令流多数据流)架构。

并且,在这几年里,这两种架构并非一方绝对压倒另一方:很多芯片厂商如今都在走架构融合的路线,通过取长补短提升性能,比如华为,开始在SIMD架构里融入SIMT的设计思路;英伟达则正好相反。

在此基础上,即便已有比较成熟的Infra项目,例如开源圈里炙手可热的Triton——这款由OpenAI为英伟达芯片开发的算子生成工具,在适配不同架构的国产芯片时,也必须经过大量本土化改造。

而未来,随着推理场景的全面爆发,AI Infra还将迎来新一轮的挑战。

翟季冬直言,行业现在普遍面临一个痛点:芯片的峰值算力与实际利用率之间存在巨大鸿沟。一块标称300TFLOPS算力的芯片,在大模型训练或推理中,实际利用率往往只有10%-20%;即便是英伟达这样的巨头,预训练场景下的算力利用率也仅能达到50%上下。

进入推理阶段后,文字、图像、视频等不同任务的算力需求差异显著,再加上对时延的极高要求,如何针对不同推理场景实现硬件性能的最大化释放,将是AI Infra未来的核心攻坚方向

除了这些看得见的产业机遇,翟季冬还在默默探索那些“冷赛道”,比如AI for Science等短期内难见商业价值、但对科技发展至关重要的领域。

他还与我们分享了一段近期的交流经历:一位归国的天文系老师告诉他,射电望远镜每天都会产生海量观测数据,他们需要高效的解决方案,来完成数据的实时处理与算法分析——这无疑对AI Infra的软硬件协同能力,提出了更高的要求。

这些眼下难见回报的探索,正藏着AI Infra的本真价值。在翟季冬眼中,这也是Infra行业可以穿越周期、走向未来的底气。

作者长期关注AI算力上下游等方向,欢迎添加微信Ericazhao23交流。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
广东:力争到2026年底 建成50个以上特色鲜明、功能突出的生产性服务业集聚区

广东:力争到2026年底 建成50个以上特色鲜明、功能突出的生产性服务业集聚区

财联社
2026-03-26 10:15:09
中东睿评|表层冲突烈火焚烧,深层矛盾坚如寒冰:美以对伊朗战争的表与里

中东睿评|表层冲突烈火焚烧,深层矛盾坚如寒冰:美以对伊朗战争的表与里

澎湃新闻
2026-03-25 13:14:37
法国艺术圈地震!芭蕾女神、哲学少女,都被钢琴家送给了爱泼斯坦!

法国艺术圈地震!芭蕾女神、哲学少女,都被钢琴家送给了爱泼斯坦!

新欧洲
2026-02-18 19:44:34
别想再回国!中国体坛 4 大叛徒,夺冠后否认是国人,如今遭报应

别想再回国!中国体坛 4 大叛徒,夺冠后否认是国人,如今遭报应

动物奇奇怪怪
2026-03-25 14:18:48
叔本华:性欲是一切欲望的焦点

叔本华:性欲是一切欲望的焦点

听哲学
2026-03-24 21:42:04
87年薄一波去杭州探望陈云,期间二人神秘交谈,薄提醒:你悠着点

87年薄一波去杭州探望陈云,期间二人神秘交谈,薄提醒:你悠着点

谈古论今历史有道
2026-03-25 15:15:03
张雪峰死因:吃外卖撑住了?

张雪峰死因:吃外卖撑住了?

李万卿
2026-03-26 10:48:19
前球探:切尔西担忧加纳乔的表现,他在曼联的问题又出现了

前球探:切尔西担忧加纳乔的表现,他在曼联的问题又出现了

懂球帝
2026-03-26 12:27:11
稳居西部第二!马刺三大年轻核心,已成联盟无解难题!

稳居西部第二!马刺三大年轻核心,已成联盟无解难题!

田先生篮球
2026-03-26 14:23:29
丑橘是转基因水果?专家直言:这几种水果,再便宜也不要买

丑橘是转基因水果?专家直言:这几种水果,再便宜也不要买

白宸侃片
2026-03-26 11:19:02
农用无人机载客!大疆:吊销“驾照”

农用无人机载客!大疆:吊销“驾照”

热点科技
2026-03-26 11:30:59
四川高县村支书暴打残疾村妇致轻伤 法院判决免于刑事处罚引争议

四川高县村支书暴打残疾村妇致轻伤 法院判决免于刑事处罚引争议

律法刑道
2026-03-26 10:55:03
中国资产,大涨!美联储,降息大消息!

中国资产,大涨!美联储,降息大消息!

中国基金报
2026-03-26 08:22:37
1955年蒋介石想吃奉化老家的黄花泥螺,保密局知道后如何搞到的?

1955年蒋介石想吃奉化老家的黄花泥螺,保密局知道后如何搞到的?

铜臭的历史味
2026-03-16 13:05:54
林彪的儿子要结婚,叶群在全国选美,毛主席得知说了5个字

林彪的儿子要结婚,叶群在全国选美,毛主席得知说了5个字

扬平说史
2026-03-25 21:04:04
曼联标价700万卖滕哈格爱将!2次出租英冠均重伤,实力平庸还倒霉

曼联标价700万卖滕哈格爱将!2次出租英冠均重伤,实力平庸还倒霉

罗米的曼联博客
2026-03-26 11:16:06
英国上将揭露:1997年香港回归真相,谁敢抗衡中国解放军?

英国上将揭露:1997年香港回归真相,谁敢抗衡中国解放军?

老范谈史
2026-03-18 23:51:08
马奎尔曝续约曼联最后要求,评价红牌停赛!重返国家队让妈妈落泪

马奎尔曝续约曼联最后要求,评价红牌停赛!重返国家队让妈妈落泪

罗米的曼联博客
2026-03-26 12:11:02
美军全球调兵、要打地面战争?伊朗:要给特朗普一个“巨大惊喜”

美军全球调兵、要打地面战争?伊朗:要给特朗普一个“巨大惊喜”

野史日记
2026-03-25 10:00:12
巴拿马接手港口仅一个月,中远海运集运宣布恢复中东六国新订舱业务!

巴拿马接手港口仅一个月,中远海运集运宣布恢复中东六国新订舱业务!

趣味萌宠的日常
2026-03-26 14:04:01
2026-03-26 15:16:49
雷峰网 incentive-icons
雷峰网
关注智能与未来!
68852文章数 656101关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
亲子
时尚
数码
本地

教育要闻

高考地理中的花海经济

亲子要闻

躺平的孩子意外觉醒了,在父母学会当“乌龟”!

2026年了,最好看的还是“这件针织”!

数码要闻

配件制造商清单泄露:2026款iPad将搭载A18芯片

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

无障碍浏览 进入关怀版