网易首页 > 网易号 > 正文 申请入驻

算力通胀终结者!凭一招把大模型Token成本砍到1/2

0
分享至

如果在两年前问一家大模型公司最需要什么?答案是“有没有卡”。但如果今天再问同样的问题,答案也许会变成“好不好用”。



算力通胀之下

都用不起了

“我们正在制造大量的垃圾算力。”

一位负责大模型训练集群的架构师曾这样抱怨。他的焦虑并不是没有风声。过去十年是算力野蛮增长的十年,规模的快速扩张确实带来了阶段性的产业繁荣。但繁荣背后,是难以忽视的效率困局。

为了追赶GPT-4乃至GPT-5的能力,国内企业陷入了一场疯狂的参数竞赛。数以万计的GPU被高度集成化塞进数据中心,它们日夜轰鸣,但产出的智能效益却并未如预期般线性增长。

这是一种典型的“算力通胀”。行业习惯用芯片的理论峰值(Peak Performance)来衡量价值,但在现实的复杂的训练任务中,这些昂贵的芯片往往“有力使不出”。

数据显示,在许多大规模训练集群中,算力的有效利用率(MFU)仅能维持在40%左右,而在推理场景下,大量的算力更是处于闲置状态,利用率甚至不足20%。

算法迭代与硬件僵化之间的错位也在加剧这种浪费,模型架构每六个月就发生一次巨变,从Transformer到MoE,再到各种稀疏化注意力机制,而硬件研发周期长达两年以上。

大量针对上一代模型优化的专用芯片,在交付的那一刻即面临淘汰。这种“刻舟求剑”式的硬件设计模式,让原本就昂贵的算力折旧变得更加迅速。

在上述背景下,天数智芯此次发布的战略,似乎是有意在回答这个行业痛点。他们不再单纯强调单一芯片的峰值参数,而是开始谈论“高质量算力”。



寻找算力的“有效汇率”

什么是“高质量算力”?天数智芯对此的定义是:高效率、可预期、可持续。

在1月26日的发布会上,AI与加速计算技术负责人单天逸展示了一张略显复杂的架构路线图。与以往发布会只盯着TFLOPS(每秒浮点运算次数)数值不同,这次他们花了大量篇幅讲“利用率”和“兼容性”。



天数智芯给出的架构路线图:2025年的天数天枢架构,超越英伟达Hopper,重点解决多精度混合训练的效率;2026年天数天璇、天数天玑实现对标和超越英伟达Blackwell;而计划于2027年面世的天数天权,则将矛头直指英伟达下一代旗舰架构Rubin。

这不是一纸空谈,而是现实中已经部分实现的作战计划:2025年推出的天数天枢架构,通过TPC BroadCast(计算组广播机制)Instruction Co-Exec(多指令并行处理系统)Dynamic Warp Scheduling(动态线程组调度系统)等自研核心技术,调用了每一比特算力,实现算力效率较行业平均提升60%,在DeepSeek V3场景性能比英伟达Hopper架构高20%。



同样的“精打细算”也延伸到了对存储成本的控制上。面对DDR存储价格高企给AI推理环节带来的显著压力,天数智芯给出了一套“软硬兼施”的解法:底层依靠kv cache(关键值缓存)量化与无损反量化技术,将模型推理的实际内存占用直接削减50%以上,从根本上降低对昂贵存储资源的依赖;上层则利用自研的IX-SIMU软件系统,像精算师一样实时追踪存储市场价格,为客户推算出性价比最高的硬件组合。在波动的市场中锁定“性能与成本最优解”的能力,是其技术护城河的另一块拼图。



把云端折叠进方寸之间

随着物理A的“ChatGPT 时刻”到来,这一能实现物理世界“感知-推理-行动”闭环的技术,成为AI突破数字边界的新方向,推动智能从虚拟走向现实。

这次发布会上,最让现场观众感到意外的,不是巨大的服务器机柜,而是一系列可以塞进衣服口袋的小盒子。

天数智芯副总裁郭为从兜里掏出了那块名为“彤央TY1000”的算力模组。这个仅有手掌大小的模块,采用了699pin接口,却拥有媲美云端级别的大算力。



尺寸的缩小之外,算力形态的下沉是重中之重。彤央系列包括了集成ARM v9 12核CPU的TY1100,以及被戏称为“小钢炮”的TY1100_NX,还有算力高达300TOPS的TY1200。这些名字听起来有些枯燥的硬件,实则承载了国产GPU突围的另一条路径:走出恒温恒湿的数据中心,进入物理世界。

天数智芯给出的对比数据颇具一较高下的火药味:在近期火爆的DeepSeek 32B大语言模型以及计算机视觉场景下,彤央TY1000的实测性能全面优于英伟达的AGX Orin。特别是在自然语言处理上,它让边缘设备不拘泥于执行预设指令,变成了能理解复杂逻辑的智能体。

在过去,具身智能(EmbodiedAI)和工业机器人往往受限于端侧算力的贫乏,只能执行简单的预设指令。而现在,随着端侧算力达到300TOPS级别,大模型开始真正有机会住进机器人的身体里。从智慧门店到车路协同,从轨道交通到工业制造,算力的触角正在无限延伸。



算力困局:

卡越堆越多,钱越烧越快

对于互联网大厂和创业公司来说,每一秒钟的生成都在燃烧经费。“AI应用现在已经普及了,Chatbot、文生图大家每天都在用。但行业真正的瓶颈只有一个:Token成本太高。”天数智芯副总裁邹翾一针见血地指出了问题的核心。

邹翾分享的一组数据引起了在场的全体注意。在某头部互联网客户的Chatbot场景中,天数智芯的单机性能比国际方案提升了一倍以上,而每Token的成本下降了二分之一。

这意味着,同样的预算,企业可以服务两倍的用户,或者让模型思考得更久一点。

除了成本,另一个阻碍国产GPU普及的拦路虎是“迁移门槛”。长久以来,CUDA生态构建的高墙让无数开发者望而却步。天数智芯没有选择硬碰硬地去推翻现有生态,而是选择了“兼容”与“好用”。通过提供与xLLM等主流框架兼容的接口,客户只需花费其他产品1/3的精力即可完成开发调优。

“好用”的哲学也延伸到了科研领域。从基因分析到海洋地质勘探,科学家们不再需要成为硬件工程师。天数智芯帮助研究人员从繁复的底层调试中解放出来,专注于科学发现本身。

在金融领域,研报生成效率提升70%;在医疗领域,结构化病历生成缩短至30秒。这些数字的背后,是算力真正转化为生产力的过程。

2026年,对于中国GPU行业注定是不平凡的一年。

随着天数智芯在香港鸣锣,国产通用GPU四小龙已集齐IPO。但上市从来不是终点,而是更为残酷的淘汰赛的起点。

资本市场不会永远为“国产替代”的情怀买单,也不会一直容忍巨额的研发亏损。投资人最终关心的,是有多少客户真的把业务跑在了芯片上,商业化的成长是否可以持续。

天数智芯交出的答卷是300多家行业客户与1000多次实际部署,是数千卡集群稳定运行超1000天,是瑞幸数千家门店的智能运营、太平金科信贷风控的提效,以及视源科技打造的数万间智慧课堂,这些真实的业务负载,共同构成了招股书中的底色。



而在算力生态的主动建设上,天数联手了多家硬件厂商和解决方案提供商,目标是让千行百业以更高性能、更便捷方式使用AI,实现算力普惠。

在这场漫长的算力马拉松中,领跑者或许会换了一波又一波。但可以确定的是,那个靠堆砌参数、讲故事就能融资的草莽时代,已经彻底结束了。接下来的竞争,将属于那些真正能让客户好用的企业。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
微信双版本同步更新,终于支持这项新功能了!

微信双版本同步更新,终于支持这项新功能了!

花果科技
2026-01-28 23:03:49
李亚鹏的“料”不能深扒!负债1.8亿的背后,还藏着17年前的诺言

李亚鹏的“料”不能深扒!负债1.8亿的背后,还藏着17年前的诺言

离离言几许
2026-01-28 00:17:18
沈阳一商场宣告破产

沈阳一商场宣告破产

沈阳公交网小林
2026-01-29 00:11:37
字母哥离队概率升至55%!三大心仪下家曝光:专家解析交易难度

字母哥离队概率升至55%!三大心仪下家曝光:专家解析交易难度

罗说NBA
2026-01-29 01:45:33
苹果新品上架:1 月 28 日,正式首销

苹果新品上架:1 月 28 日,正式首销

科技堡垒
2026-01-28 12:11:08
杨鸣下课,辽篮崩塌始于郭艾伦被赶走!现在终于知道谁才是队魂了

杨鸣下课,辽篮崩塌始于郭艾伦被赶走!现在终于知道谁才是队魂了

嘴炮体坛
2026-01-28 21:19:48
武汉市民投诉辅警早上七点半贴单,单位:自觉遵守

武汉市民投诉辅警早上七点半贴单,单位:自觉遵守

风露清青
2026-01-27 16:26:34
唐嫣在国外很豪放!穿连体衣下面不系扣,难道不好好穿衣就时髦?

唐嫣在国外很豪放!穿连体衣下面不系扣,难道不好好穿衣就时髦?

章眽八卦
2026-01-05 12:27:07
又要下纯雪啦!江苏更新雨雪落区预报

又要下纯雪啦!江苏更新雨雪落区预报

江南晚报
2026-01-28 17:31:46
中到大雪、局地暴雪,湖北又要下雪降温

中到大雪、局地暴雪,湖北又要下雪降温

鲁中晨报
2026-01-28 20:35:05
20年前挑战台北101!法国蜘蛛人「秒道贺霍诺德」 自嘲:我当年爬4小时

20年前挑战台北101!法国蜘蛛人「秒道贺霍诺德」 自嘲:我当年爬4小时

ETtoday星光云
2026-01-26 12:30:22
周大生门店锐减560家,金价暴涨成行业杀手

周大生门店锐减560家,金价暴涨成行业杀手

燕梳楼频道
2026-01-28 21:34:06
卖女性玩具的大人糖都开进广州天环了

卖女性玩具的大人糖都开进广州天环了

蓝鲸新闻
2026-01-27 08:58:15
马上,70万亿美元!

马上,70万亿美元!

路财主
2026-01-10 19:59:20
说好败选就辞职,她反悔了!日本首相高市早苗:撤回承诺,不算数

说好败选就辞职,她反悔了!日本首相高市早苗:撤回承诺,不算数

阿伧说事
2026-01-28 15:24:53
中国军号发布日语海报:日方构成严重威胁

中国军号发布日语海报:日方构成严重威胁

看看新闻Knews
2026-01-28 16:05:05
大S雕像正式完工!具俊晔设计太巧妙,做两个决定,恐回韩国!

大S雕像正式完工!具俊晔设计太巧妙,做两个决定,恐回韩国!

古希腊掌管月桂的神
2026-01-28 11:09:10
央视曝光军工重大泄密:间谍使用了美人计

央视曝光军工重大泄密:间谍使用了美人计

南权先生
2026-01-27 15:39:22
牢A回国后,“大瓜”一个比一个劲爆,他火下去是好是坏?

牢A回国后,“大瓜”一个比一个劲爆,他火下去是好是坏?

文字里拾光
2026-01-26 19:36:46
CBA一夜变天:三队惨败,实力分级残酷上演

CBA一夜变天:三队惨败,实力分级残酷上演

魔血獄苼
2026-01-29 00:56:26
2026-01-29 03:55:00
创业邦 incentive-icons
创业邦
关注创新经济及其推动者。
15769文章数 112003关注度
往期回顾 全部

科技要闻

它是神也是毒!Clawdbot改名卷入千万诈骗

头条要闻

俄总统助理:泽连斯基若愿与普京会晤 可来莫斯科

头条要闻

俄总统助理:泽连斯基若愿与普京会晤 可来莫斯科

体育要闻

没天赋的CBA第一小前锋,秘诀只有一个字

娱乐要闻

金子涵拉黑蔡徐坤,蔡徐坤工作室回应

财经要闻

从万科退休20天后,郁亮疑似失联

汽车要闻

新手必看!冰雪路面不敢开?记住这4点 关键时刻真能保命

态度原创

游戏
艺术
家居
本地
军事航空

《怪猎荒野》PC性能大提升!Steam掌机也终于能玩了

艺术要闻

沙特醒悟,“全球最大单体建筑”停止施工!

家居要闻

跃式别墅 包络石木为生

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

军事要闻

伊朗竖起巨幅宣传画:一艘美军航母被炸

无障碍浏览 进入关怀版