网易首页 > 网易号 > 正文 申请入驻

清华教授翟季冬:Benchmark正在「失效」,智能路由终结大模型选型乱象

0
分享至


选择悖论”正在AI模型与算力世界里上演。

作者丨赵之齐

编辑丨包永刚

北京一月的初雪落下前,我们在清华见到了翟季冬教授。他手持保温杯,说话很利落,即便一边思考一边叙述,言辞间也几乎没有停顿、没有模糊地带。

这位曾带队拿下15次世界超算冠军的清华计算机系长聘教授,此刻正在拆解一个行业怪象:为什么在大模型参数狂飙、算力价格下探的当下,用户的AI落地负担却越来越重?

他指出,如今Benchmark(基准测试)上的高分,在比对用户真实需求时不一定管用,有时,同个模型在不同MaaS平台上跑出来的效果可能差异巨大,因为部分服务商为了降低成本,会对模型进行“阉割级”量化。而面对眼花缭乱的MaaS供应商,用户要在性能、价格与稳定性之间做取舍,往往光调研一轮市场报价,就已耗尽精力。

“把选型的主动权完全交给用户,其实是很大的挑战”, 翟季冬直言。这种“选择悖论”不仅折磨着开发者,更在吞噬企业的利润——对于企业来说,降本增效的核心可能并非追求最顶尖的模型,而是如何调度能力恰当的模型,让昂贵的大模型处理复杂指令,让轻量的小模型应付日常任务

洞察到这一痛点后,由翟季冬的几位毕业学生发起的AI Infra厂商——清程极智,开发出智能路由产品AI Ping(AI 评),希望成为算力界的“大众点评”。

他们将分散的性能数据系统性整理,并收集用户的使用习惯,公开不同模型与供应商的测评数据,并给用户推荐合适的、高性价比方案。翟季冬认为,这种产品形态,有助于撬动算力行业的马太效应——他相信,当数据越集中,模型的选择就越精准;选择越精准,用户需要付出的成本就越低。


翟季冬

与我们交流时,尽管判断明确,翟季冬说话时的语气却始终都是温和的。他走进会议室时,手上拎着提前为我们备好的饮用水;对话结束后,还为北京凛冽的寒潮给我们来访带来的困扰而“致歉”。待人的认真,也换来了学生们的真心相待——在许多博士生习惯将导师称为“老板”的当下,他的博士生们仍坚持称呼他为“老师”。

这份温和的师者风范背后,是他对算力行业丛林法则的洞察。当大模型从实验室走向万千企业,性能数据与用户体验之间的信息差该如何填平?在国内“重硬轻软”的ToB市场中,AI Infra团队又应该如何定位自己的存在?(关于AI Infra生存路径的探讨,欢迎添加作者微信Ericazhao23交流)

这些问题的答案,都藏在他的娓娓道来里。

01
模型选型的隐形账本:

位置、定价与被阉割的精度

更多的自由和选择,并不意味着更大的幸福,有限且可比较的选项,反而能提升决策效率与满意度——这一“选择悖论”,正在AI模型与算力的世界里上演。

大模型井喷式发展,每个人手里都握着好几款“AI助手”。但翟季冬捕捉到一个痛点:现在很多用户上网挑选模型,能参考的只有很标准的Benchmark(基准测试),不少人直接冲着跑分最高的模型去——但最牛的不一定是最合适的。他直言:“模型刷了多少分,并不一定能匹配用户的真实需求。”

究其原因,除了纯粹的性能,还有很多因素会影响模型使用体验。

供给侧上,各家模型供应商的服务响应效果有所差别。以DeepSeek-v3.2模型为例,翟季冬团队调研发现,国内提供这一API服务的厂商就有几十家,但他们的API服务吞吐却覆盖从15~200 token/s,相差10倍以上;而其支持的输入输出长度,也从8k~160k不等,相差了20倍

用户对此其实早有体感:去年初DeepSeek爆火后,一众服务商纷纷接入其API,很多人用过一轮后却发现,同样调用DeepSeek模型、问出相同问题,不同供应商的输出效果却天差地别。

答案很快浮出水面:即便接入同个模型,有的厂商会对模型做激进的量化处理,例如从FP8变成INT4,输出的表现自然随之改变。

服务商的算力部署位置,也会左右模型的调用体验:同款模型,如果用户在北京调用,MaaS提供方在上海或深圳,体验都会有很大差异。

此外,各玩家定价策略各异,不同阶段的促销活动还会导致成本相差甚远

用户的需求本身就是多维度的:有的更看重性价比,有的追求稳定性,有的则更在意响应速度。而不同的任务场景,也对应着不同的大模型最优解——

对于需求是“写小说”的用户,模型擅长写调研报告的能力就毫无意义;而日常查天气、问穿搭,一个轻量级的小模型也足够用;可要是解一道复杂的科学难题,就得大参数的模型出马。

把选型的主动权完全交给用户,其实是很大的挑战”,翟季冬指出。虽然对个人免费用户而言影响可能甚微,但对企业级用户来说,会直接引发巨大的成本鸿沟

同样的预算,调用大模型可能仅能支持十万次请求,换成小模型却能达到百万次量级。

理想的情况是:如果能对需求做精细化拆分,让复杂问题匹配大模型、简单问题对接小模型,就能实现算力成本的最优解。

而这些,都是翟季冬和清程极智团队想解决的问题。

02
做算力界的“大众点评”,

终结大模型选型乱象

瞄准这些行业痛点,清程极智团队打造出智能路由产品AI Ping(AI评)。

“AI评的‘评’,就是评测,清程对国内MaaS供应商持续测试——既测同款模型在不同厂商手中的延迟、带宽表现,也对比不同模型在各家平台的吞吐效率与价格成本差异”,翟季冬介绍说。

拆解来看,智能路由的能力分为两层:一是服务商路由,在众多API服务提供者中选择最佳的服务;二是模型路由,在众多大模型中选择最佳的模型。

回顾技术的研发,翟季冬感慨,服务商路由的搭建不算是最难的事,真正难啃的硬骨头,是如何为用户精准匹配模型。

“要给企业的问题精准匹配模型,前提是积累他们的海量历史数据”,但在初期,数据储备往往不足、用户行为画像模糊,模型的精准选择很难。

这个难点,在AI Ping的目标市场——个人开发者和中小企业这个群体里,被进一步放大

AI Ping团队发现,这类用户对产品质量的要求几乎是要“超出预期”,八十分的水准,在他们眼里几乎等同于不合格,这让产品打磨的难度陡增。

因此,在起初的冷启动阶段,团队选择用“笨办法”突围:一边给供应商测试大量数据,用Benchmark测试准确性、延迟带宽、价格;一边联合上下游企业拓展市场,在真实场景中积累用户、沉淀数据。

解决了这个问题,另一重考验随即出现:面对企业的高吞吐刚需,单一供应商的算力储备往往难以满足。这就对平台提出了两大要求——强大的算力整合能力,以及国产算力接入通道的打通能力。

对此,清程极智就在AI Infra上做了大量工作,把“赤兔”推理引擎与AI Ping对接,完成了算力资源的整合调度。


截图来自AI Ping网站

在翟季冬看来,AI Ping很像算力行业的“大众点评”,给用户打造一套垂直领域的解决方案

这本质上也是一种团购逻辑:聚合海量用户需求后,清程极智能以更大的体量与算力厂商议价。毕竟,大模型选型的核心命题,始终是成本与效率的平衡。

“这本身也会形成一种马太效应”,翟季冬指出,“聚合的用户越多、收集的数据越丰富,模型匹配的精准度就越高;既能帮助用户省去更多钱,也能帮算力厂商盘活资源,我们的软件能力也能借此赋能”。

从2025年春夏之交筹备至今,历时近一年,AI Ping终于迎来了正式面市的时刻。

这种中立的评测甚至成了行业“裁判”:硅基流动创始人袁进辉此前在朋友圈提及,有的用户分不清其基于国产卡的非pro版与基于国际算力的Pro版的指标差异,于是直接抛出AI Ping的测评结果作佐证。

“可以去这个网站看各项指标,很靠谱”,袁进辉这样写道。

来自同行的反馈,已侧面印证出AI Ping作为风向标的价值。不过,一个更现实的问题也随之浮现:对于清程极智而言,如何把这种数据影响力在商业上变现?

03
AI Ping商业解法:整机与算力双管齐下

对话刚开场,被问及“如今Infra行业的普遍焦虑是什么”时,翟季冬的回应直指核心:

“怎么让国内AI Infra赚到更多钱?”

在他看来,商业化的核心逻辑正在逐渐明晰:算力需求是一个非常真实的市场,怎么通过服务软件把算力有效整合提供给用户,会是AI Infra行业未来的重要发展方向。

这一判断,也支撑起了清程极智的产品布局——大模型训练智能软件栈“八卦炉”、被誉为国产算力部署神器的“赤兔”大模型推理引擎和一站式大模型API评测和调用平台AI Ping,本质上都是底层算力到用户端的一个个“出口”。其中,AI Ping便通过整合模型和供应商,把软件能力赋能到算力上,给用户提供token和算力

这也是清程在这两年沉淀出来的解法。

翟季冬评论道,清程极智的核心竞争力是中间软件层,包括编译、通信库、并行加速等技术,基于此,他们逐渐找到了自己的定位:和芯片厂商合作,做其系统软件之上增量的部分,让大模型在这些芯片上发挥出极致的效率

围绕这一定位,清程也在探索多种不同的商业化路径:

一方面,将软件与硬件打包为整机服务,针对“买了国产卡却难落地”的痛点,让裸机用户也能做训练与微调;另一方面,是通过AI Ping等平台与算力厂商合作,提升国产算力的易用性。

而在最近与国产芯片公司的厂商交流中,翟季冬也感受到,大家对软硬件高效协同的重要性已形成共识,“剩下的问题,无非就是这些软件由谁去做”。

清程极智联合创始人师天麾,也观察到了这种行业认知的转变。他此前向雷峰网表示:

“DeepSeek能用极少的算力卡和极低的成本,训练出如此大规模的模型,主要依靠的是模型架构设计和Infra软件技术,尤其是他们把大量算力加速类Infra软件开源后,大家才真正意识到Infra的重要性。”

一个显著标识是,以前他还需要和投资人解释什么是Infra,进入2025年之后,这一步已经可以省略了。

但在当下,行业内也流传着一种担忧:

“AI Infra的价值,只存在于国产算力群雄逐鹿阶段,一旦算力架构定型、大模型技术收敛,Infra的必要性也会大打折扣。”

这也是摆在所有Infra从业者面前共同的问题:下一个能证明自己价值的“地盘”会在哪里?未来如果国产算力逐渐同构,AI Infra还有存在的必要吗?

04
Infra的生命力:

架构演进不止,软件迭代不息

此前,AI Infra已在架构适配、算子生成、并行通信等领域初试锋芒,不过,这远非终点。

在翟季冬看来,Infra的生命力源于底层架构与上层软件的双重迭代:“只要模型还在演进、算力架构还在融合发展,Infra的需求就会持续存在”。

他指出,即便是英伟达的CUDA生态,底层芯片同构,但由于模型侧还没有完全收敛,推理、后训练的复杂度仍在提升:

文生图、文生视频等多模态模型还在兴起,即将推出的DeepSeek V4,还将引入更多稀疏性相关的技术难题;AI for Science、AI for Engineering等新的应用领域迸发,也在倒逼AI Infra的底层需求发生变革。

同时,国内算力不仅厂商多,各自的架构也并不统一,这更决定了AI Infra的不可替代性。

翟季冬分析,海外算力市场的架构相对统一:英伟达与AMD占主导地位,二者的GPU架构均属于SIMT(单指令多线程),有很强的相似性。

反观国内,有的厂商选择对标英伟达的SIMT架构,有的则主攻SIMD(单指令流多数据流)架构。

并且,在这几年里,这两种架构并非一方绝对压倒另一方:很多芯片厂商如今都在走架构融合的路线,通过取长补短提升性能,比如华为,开始在SIMD架构里融入SIMT的设计思路;英伟达则正好相反。

在此基础上,即便已有比较成熟的Infra项目,例如开源圈里炙手可热的Triton——这款由OpenAI为英伟达芯片开发的算子生成工具,在适配不同架构的国产芯片时,也必须经过大量本土化改造。

而未来,随着推理场景的全面爆发,AI Infra还将迎来新一轮的挑战。

翟季冬直言,行业现在普遍面临一个痛点:芯片的峰值算力与实际利用率之间存在巨大鸿沟。一块标称300TFLOPS算力的芯片,在大模型训练或推理中,实际利用率往往只有10%-20%;即便是英伟达这样的巨头,预训练场景下的算力利用率也仅能达到50%上下。

进入推理阶段后,文字、图像、视频等不同任务的算力需求差异显著,再加上对时延的极高要求,如何针对不同推理场景实现硬件性能的最大化释放,将是AI Infra未来的核心攻坚方向

除了这些看得见的产业机遇,翟季冬还在默默探索那些“冷赛道”,比如AI for Science等短期内难见商业价值、但对科技发展至关重要的领域。

他还与我们分享了一段近期的交流经历:一位归国的天文系老师告诉他,射电望远镜每天都会产生海量观测数据,他们需要高效的解决方案,来完成数据的实时处理与算法分析——这无疑对AI Infra的软硬件协同能力,提出了更高的要求。

这些眼下难见回报的探索,正藏着AI Infra的本真价值。在翟季冬眼中,这也是Infra行业可以穿越周期、走向未来的底气。

作者长期关注AI算力上下游等方向,欢迎添加微信Ericazhao23交流。

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
苗伟任吉林省检察院代检察长,曾长期在山西工作

苗伟任吉林省检察院代检察长,曾长期在山西工作

澎湃新闻
2026-01-23 20:27:10
蒋介石死后,无儿无女的宋美龄,靠什么在美国过了28年奢华生活

蒋介石死后,无儿无女的宋美龄,靠什么在美国过了28年奢华生活

牛牛叨史
2025-11-26 01:39:31
订单暴涨2000%!一举突破美国垄断,这家中国企业实在太“猛”了

订单暴涨2000%!一举突破美国垄断,这家中国企业实在太“猛”了

牛牛叨史
2026-01-22 00:01:48
Wow!新晋女神,这笑容过目难忘

Wow!新晋女神,这笑容过目难忘

碧波万览
2026-01-24 00:24:25
伦纳德:快船不该挥霍26分领先;詹姆斯和东契奇是伟大的球员

伦纳德:快船不该挥霍26分领先;詹姆斯和东契奇是伟大的球员

懂球帝
2026-01-23 22:13:09
对话口腔颌面外科专家陈亦阳:唇腭裂没那么可怕,规范治疗后可与常人无异 | 嫣然医院欠租风波背后

对话口腔颌面外科专家陈亦阳:唇腭裂没那么可怕,规范治疗后可与常人无异 | 嫣然医院欠租风波背后

每日经济新闻
2026-01-23 18:23:30
普京:格陵兰归属问题与俄罗斯无关,该岛的价值可能接近10亿美元

普京:格陵兰归属问题与俄罗斯无关,该岛的价值可能接近10亿美元

财联社
2026-01-22 21:46:07
汽车圈“大地震”!比亚迪大将投奔行业巨头,叫嚣:三年内没对手

汽车圈“大地震”!比亚迪大将投奔行业巨头,叫嚣:三年内没对手

长星寄明月
2026-01-20 21:00:46
倒反天罡?中国的北斗卫星导航,或会被美军用于制导精确打击弹药

倒反天罡?中国的北斗卫星导航,或会被美军用于制导精确打击弹药

兴史兴谈
2026-01-23 02:10:00
快船力克湖人赢下洛城德比,东契奇和哈登表现根本不在一个档次!

快船力克湖人赢下洛城德比,东契奇和哈登表现根本不在一个档次!

田先生篮球
2026-01-23 16:11:34
19国签字加入和平委员会!中国4大友国全在,中方咬死一句话不变

19国签字加入和平委员会!中国4大友国全在,中方咬死一句话不变

梁讯
2026-01-23 11:20:45
“大傻”去世15年后,儿子入狱孙子身亡,王晶曝他旧事:是狠角色

“大傻”去世15年后,儿子入狱孙子身亡,王晶曝他旧事:是狠角色

妙知
2026-01-22 16:41:19
“新疆棉花”事件的真凶许秀中,卖国求荣,如今生活困难却想回国

“新疆棉花”事件的真凶许秀中,卖国求荣,如今生活困难却想回国

北有南栀
2026-01-21 17:50:03
“你们穆斯林的形象,关我什么事?”:一次对极端主义的正面反击

“你们穆斯林的形象,关我什么事?”:一次对极端主义的正面反击

西域都护
2026-01-23 22:46:03
2026年慢病报销巨变!6种病免办卡直接省一半钱,大多数还不知情

2026年慢病报销巨变!6种病免办卡直接省一半钱,大多数还不知情

复转这些年
2026-01-11 23:32:18
从“一方诸侯”到“打回原形”,叙利亚库尔德武装如何兴衰的?

从“一方诸侯”到“打回原形”,叙利亚库尔德武装如何兴衰的?

战风
2026-01-23 11:49:30
研究发现:最能抗衰老的运动,每周2-4次,让你年轻多8岁!

研究发现:最能抗衰老的运动,每周2-4次,让你年轻多8岁!

岐黄传人孙大夫
2026-01-22 11:30:02
赛后模仿猴子!昔日TOP100网球选手种族歧视被捕,面临5年监禁

赛后模仿猴子!昔日TOP100网球选手种族歧视被捕,面临5年监禁

全景体育V
2026-01-23 18:38:54
万万没想到,6年前反中乱港分子的幕后金主,竟是个“爱国”商人

万万没想到,6年前反中乱港分子的幕后金主,竟是个“爱国”商人

百态人间
2026-01-17 16:16:00
德国政客想不通:孟买的高楼比上海都多,德企怎么就是不肯去呢?

德国政客想不通:孟买的高楼比上海都多,德企怎么就是不肯去呢?

沧海旅行家
2026-01-23 16:30:59
2026-01-24 07:51:00
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7053文章数 20726关注度
往期回顾 全部

科技要闻

TikTok守住了算法"灵魂" 更握紧了"钱袋子"

头条要闻

男子被指用SIM卡炼出近200克黄金价值21万元 最新回应

头条要闻

男子被指用SIM卡炼出近200克黄金价值21万元 最新回应

体育要闻

杜兰特鏖战44分钟累瘫 轰36+7却致命失误

娱乐要闻

演员孙涛澄清闫学晶言论 落泪维护妻子

财经要闻

“百年老字号”张小泉遭60亿债务压顶

汽车要闻

主打家庭大六座 奕境首款SUV将北京车展亮相

态度原创

艺术
教育
数码
家居
公开课

艺术要闻

高大上?错,刚够吃:揭秘历代画家混饭史

教育要闻

外省考江西警校难?别急!招生政策揭秘

数码要闻

大疆Osmo Pocket 4手持云台相机包装曝光,新增变焦与自定义键

家居要闻

在家度假 160平南洋混搭宅

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版