![]()
“选择悖论”正在AI模型与算力世界里上演。
作者丨赵之齐
编辑丨包永刚
![]()
北京一月的初雪落下前,我们在清华见到了翟季冬教授。他手持保温杯,说话很利落,即便一边思考一边叙述,言辞间也几乎没有停顿、没有模糊地带。
这位曾带队拿下15次世界超算冠军的清华计算机系长聘教授,此刻正在拆解一个行业怪象:为什么在大模型参数狂飙、算力价格下探的当下,用户的AI落地负担却越来越重?
他指出,如今Benchmark(基准测试)上的高分,在比对用户真实需求时不一定管用,有时,同个模型在不同MaaS平台上跑出来的效果可能差异巨大,因为部分服务商为了降低成本,会对模型进行“阉割级”量化。而面对眼花缭乱的MaaS供应商,用户要在性能、价格与稳定性之间做取舍,往往光调研一轮市场报价,就已耗尽精力。
“把选型的主动权完全交给用户,其实是很大的挑战”, 翟季冬直言。这种“选择悖论”不仅折磨着开发者,更在吞噬企业的利润——对于企业来说,降本增效的核心可能并非追求最顶尖的模型,而是如何调度能力恰当的模型,让昂贵的大模型处理复杂指令,让轻量的小模型应付日常任务。
洞察到这一痛点后,由翟季冬的几位毕业学生发起的AI Infra厂商——清程极智,开发出智能路由产品AI Ping(AI 评),希望成为算力界的“大众点评”。
他们将分散的性能数据系统性整理,并收集用户的使用习惯,公开不同模型与供应商的测评数据,并给用户推荐合适的、高性价比方案。翟季冬认为,这种产品形态,有助于撬动算力行业的马太效应——他相信,当数据越集中,模型的选择就越精准;选择越精准,用户需要付出的成本就越低。
![]()
翟季冬
与我们交流时,尽管判断明确,翟季冬说话时的语气却始终都是温和的。他走进会议室时,手上拎着提前为我们备好的饮用水;对话结束后,还为北京凛冽的寒潮给我们来访带来的困扰而“致歉”。待人的认真,也换来了学生们的真心相待——在许多博士生习惯将导师称为“老板”的当下,他的博士生们仍坚持称呼他为“老师”。
这份温和的师者风范背后,是他对算力行业丛林法则的洞察。当大模型从实验室走向万千企业,性能数据与用户体验之间的信息差该如何填平?在国内“重硬轻软”的ToB市场中,AI Infra团队又应该如何定位自己的存在?(关于AI Infra生存路径的探讨,欢迎添加作者微信Ericazhao23交流)
这些问题的答案,都藏在他的娓娓道来里。
01
模型选型的隐形账本:
位置、定价与被阉割的精度
更多的自由和选择,并不意味着更大的幸福,有限且可比较的选项,反而能提升决策效率与满意度——这一“选择悖论”,正在AI模型与算力的世界里上演。
大模型井喷式发展,每个人手里都握着好几款“AI助手”。但翟季冬捕捉到一个痛点:现在很多用户上网挑选模型,能参考的只有很标准的Benchmark(基准测试),不少人直接冲着跑分最高的模型去——但最牛的不一定是最合适的。他直言:“模型刷了多少分,并不一定能匹配用户的真实需求。”
究其原因,除了纯粹的性能,还有很多因素会影响模型使用体验。
供给侧上,各家模型供应商的服务响应效果有所差别。以DeepSeek-v3.2模型为例,翟季冬团队调研发现,国内提供这一API服务的厂商就有几十家,但他们的API服务吞吐却覆盖从15~200 token/s,相差10倍以上;而其支持的输入输出长度,也从8k~160k不等,相差了20倍。
用户对此其实早有体感:去年初DeepSeek爆火后,一众服务商纷纷接入其API,很多人用过一轮后却发现,同样调用DeepSeek模型、问出相同问题,不同供应商的输出效果却天差地别。
答案很快浮出水面:即便接入同个模型,有的厂商会对模型做激进的量化处理,例如从FP8变成INT4,输出的表现自然随之改变。
连服务商的算力部署位置,也会左右模型的调用体验:同款模型,如果用户在北京调用,MaaS提供方在上海或深圳,体验都会有很大差异。
此外,各玩家定价策略各异,不同阶段的促销活动还会导致成本相差甚远。
但用户的需求本身就是多维度的:有的更看重性价比,有的追求稳定性,有的则更在意响应速度。而不同的任务场景,也对应着不同的大模型最优解——
对于需求是“写小说”的用户,模型擅长写调研报告的能力就毫无意义;而日常查天气、问穿搭,一个轻量级的小模型也足够用;可要是解一道复杂的科学难题,就得大参数的模型出马。
“把选型的主动权完全交给用户,其实是很大的挑战”,翟季冬指出。虽然对个人免费用户而言影响可能甚微,但对企业级用户来说,会直接引发巨大的成本鸿沟:
同样的预算,调用大模型可能仅能支持十万次请求,换成小模型却能达到百万次量级。
理想的情况是:如果能对需求做精细化拆分,让复杂问题匹配大模型、简单问题对接小模型,就能实现算力成本的最优解。
而这些,都是翟季冬和清程极智团队想解决的问题。
02
做算力界的“大众点评”,
终结大模型选型乱象
瞄准这些行业痛点,清程极智团队打造出智能路由产品AI Ping(AI评)。
“AI评的‘评’,就是评测,清程对国内MaaS供应商持续测试——既测同款模型在不同厂商手中的延迟、带宽表现,也对比不同模型在各家平台的吞吐效率与价格成本差异”,翟季冬介绍说。
拆解来看,智能路由的能力分为两层:一是服务商路由,在众多API服务提供者中选择最佳的服务;二是模型路由,在众多大模型中选择最佳的模型。
回顾技术的研发,翟季冬感慨,服务商路由的搭建不算是最难的事,真正难啃的硬骨头,是如何为用户精准匹配模型。
“要给企业的问题精准匹配模型,前提是积累他们的海量历史数据”,但在初期,数据储备往往不足、用户行为画像模糊,模型的精准选择很难。
这个难点,在AI Ping的目标市场——个人开发者和中小企业这个群体里,被进一步放大:
AI Ping团队发现,这类用户对产品质量的要求几乎是要“超出预期”,八十分的水准,在他们眼里几乎等同于不合格,这让产品打磨的难度陡增。
因此,在起初的冷启动阶段,团队选择用“笨办法”突围:一边给供应商测试大量数据,用Benchmark测试准确性、延迟带宽、价格;一边联合上下游企业拓展市场,在真实场景中积累用户、沉淀数据。
解决了这个问题,另一重考验随即出现:面对企业的高吞吐刚需,单一供应商的算力储备往往难以满足。这就对平台提出了两大要求——强大的算力整合能力,以及国产算力接入通道的打通能力。
对此,清程极智就在AI Infra上做了大量工作,把“赤兔”推理引擎与AI Ping对接,完成了算力资源的整合调度。
![]()
截图来自AI Ping网站
在翟季冬看来,AI Ping很像算力行业的“大众点评”,给用户打造一套垂直领域的解决方案。
这本质上也是一种团购逻辑:聚合海量用户需求后,清程极智能以更大的体量与算力厂商议价。毕竟,大模型选型的核心命题,始终是成本与效率的平衡。
“这本身也会形成一种马太效应”,翟季冬指出,“聚合的用户越多、收集的数据越丰富,模型匹配的精准度就越高;既能帮助用户省去更多钱,也能帮算力厂商盘活资源,我们的软件能力也能借此赋能”。
从2025年春夏之交筹备至今,历时近一年,AI Ping终于迎来了正式面市的时刻。
这种中立的评测甚至成了行业“裁判”:硅基流动创始人袁进辉此前在朋友圈提及,有的用户分不清其基于国产卡的非pro版与基于国际算力的Pro版的指标差异,于是直接抛出AI Ping的测评结果作佐证。
“可以去这个网站看各项指标,很靠谱”,袁进辉这样写道。
来自同行的反馈,已侧面印证出AI Ping作为风向标的价值。不过,一个更现实的问题也随之浮现:对于清程极智而言,如何把这种数据影响力在商业上变现?
03
AI Ping商业解法:整机与算力双管齐下
对话刚开场,被问及“如今Infra行业的普遍焦虑是什么”时,翟季冬的回应直指核心:
“怎么让国内AI Infra赚到更多钱?”
在他看来,商业化的核心逻辑正在逐渐明晰:算力需求是一个非常真实的市场,怎么通过服务软件把算力有效整合提供给用户,会是AI Infra行业未来的重要发展方向。
这一判断,也支撑起了清程极智的产品布局——大模型训练智能软件栈“八卦炉”、被誉为国产算力部署神器的“赤兔”大模型推理引擎和一站式大模型API评测和调用平台AI Ping,本质上都是底层算力到用户端的一个个“出口”。其中,AI Ping便通过整合模型和供应商,把软件能力赋能到算力上,给用户提供token和算力。
这也是清程在这两年沉淀出来的解法。
翟季冬评论道,清程极智的核心竞争力是中间软件层,包括编译、通信库、并行加速等技术,基于此,他们逐渐找到了自己的定位:和芯片厂商合作,做其系统软件之上增量的部分,让大模型在这些芯片上发挥出极致的效率。
围绕这一定位,清程也在探索多种不同的商业化路径:
一方面,将软件与硬件打包为整机服务,针对“买了国产卡却难落地”的痛点,让裸机用户也能做训练与微调;另一方面,是通过AI Ping等平台与算力厂商合作,提升国产算力的易用性。
而在最近与国产芯片公司的厂商交流中,翟季冬也感受到,大家对软硬件高效协同的重要性已形成共识,“剩下的问题,无非就是这些软件由谁去做”。
清程极智联合创始人师天麾,也观察到了这种行业认知的转变。他此前向雷峰网表示:
“DeepSeek能用极少的算力卡和极低的成本,训练出如此大规模的模型,主要依靠的是模型架构设计和Infra软件技术,尤其是他们把大量算力加速类Infra软件开源后,大家才真正意识到Infra的重要性。”
一个显著标识是,以前他还需要和投资人解释什么是Infra,进入2025年之后,这一步已经可以省略了。
但在当下,行业内也流传着一种担忧:
“AI Infra的价值,只存在于国产算力群雄逐鹿阶段,一旦算力架构定型、大模型技术收敛,Infra的必要性也会大打折扣。”
这也是摆在所有Infra从业者面前共同的问题:下一个能证明自己价值的“地盘”会在哪里?未来如果国产算力逐渐同构,AI Infra还有存在的必要吗?
04
Infra的生命力:
架构演进不止,软件迭代不息
此前,AI Infra已在架构适配、算子生成、并行通信等领域初试锋芒,不过,这远非终点。
在翟季冬看来,Infra的生命力源于底层架构与上层软件的双重迭代:“只要模型还在演进、算力架构还在融合发展,Infra的需求就会持续存在”。
他指出,即便是英伟达的CUDA生态,底层芯片同构,但由于模型侧还没有完全收敛,推理、后训练的复杂度仍在提升:
文生图、文生视频等多模态模型还在兴起,即将推出的DeepSeek V4,还将引入更多稀疏性相关的技术难题;AI for Science、AI for Engineering等新的应用领域迸发,也在倒逼AI Infra的底层需求发生变革。
同时,国内算力不仅厂商多,各自的架构也并不统一,这更决定了AI Infra的不可替代性。
翟季冬分析,海外算力市场的架构相对统一:英伟达与AMD占主导地位,二者的GPU架构均属于SIMT(单指令多线程),有很强的相似性。
反观国内,有的厂商选择对标英伟达的SIMT架构,有的则主攻SIMD(单指令流多数据流)架构。
并且,在这几年里,这两种架构并非一方绝对压倒另一方:很多芯片厂商如今都在走架构融合的路线,通过取长补短提升性能,比如华为,开始在SIMD架构里融入SIMT的设计思路;英伟达则正好相反。
在此基础上,即便已有比较成熟的Infra项目,例如开源圈里炙手可热的Triton——这款由OpenAI为英伟达芯片开发的算子生成工具,在适配不同架构的国产芯片时,也必须经过大量本土化改造。
而未来,随着推理场景的全面爆发,AI Infra还将迎来新一轮的挑战。
翟季冬直言,行业现在普遍面临一个痛点:芯片的峰值算力与实际利用率之间存在巨大鸿沟。一块标称300TFLOPS算力的芯片,在大模型训练或推理中,实际利用率往往只有10%-20%;即便是英伟达这样的巨头,预训练场景下的算力利用率也仅能达到50%上下。
进入推理阶段后,文字、图像、视频等不同任务的算力需求差异显著,再加上对时延的极高要求,如何针对不同推理场景实现硬件性能的最大化释放,将是AI Infra未来的核心攻坚方向。
除了这些看得见的产业机遇,翟季冬还在默默探索那些“冷赛道”,比如AI for Science等短期内难见商业价值、但对科技发展至关重要的领域。
他还与我们分享了一段近期的交流经历:一位归国的天文系老师告诉他,射电望远镜每天都会产生海量观测数据,他们需要高效的解决方案,来完成数据的实时处理与算法分析——这无疑对AI Infra的软硬件协同能力,提出了更高的要求。
这些眼下难见回报的探索,正藏着AI Infra的本真价值。在翟季冬眼中,这也是Infra行业可以穿越周期、走向未来的底气。
作者长期关注AI算力上下游等方向,欢迎添加微信Ericazhao23交流。
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.