网易首页 > 网易号 > 正文 申请入驻

领先推理服务商采用NVIDIA Blackwell开源模型将AI成本降低10倍

0
分享至


医疗诊断洞察、互动游戏中的角色对话、客服智能体的自主响应——这些AI驱动的交互都基于同一个智能单元:Token。

扩展这些AI交互需要企业考虑是否能负担更多Token成本。答案在于更好的Token经济学——其核心是降低每个Token的成本。这一下降趋势正在各行业展开。麻省理工学院最新研究发现,基础设施和算法效率正将前沿性能的推理成本年降幅提升至10倍。

要理解基础设施效率如何改善Token经济学,可以想象一台高速印刷机。如果印刷机通过对墨水、能源和机器本身的增量投资实现10倍产出,那么每页的印刷成本就会下降。同样,对AI基础设施的投资能带来远超成本增长的Token产出,从而显著降低每Token成本。

这正是Baseten、DeepInfra、Fireworks AI和Together AI等领先推理服务商选择使用NVIDIA Blackwell平台的原因,该平台帮助他们将每Token成本相比NVIDIA Hopper平台降低多达10倍。

这些服务商托管先进的开源模型,这些模型现已达到前沿智能水平。通过结合开源前沿智能、NVIDIA Blackwell的极致硬件-软件协同设计以及他们自己的优化推理堆栈,这些服务商正为各行各业的企业实现显著的Token成本降低。

医疗领域变革

在医疗领域,医疗编码、文档记录和保险表格管理等繁琐耗时的任务占用了医生与患者相处的时间。

Sully.ai通过开发能处理医疗编码和记录等常规任务的"AI员工"来帮助解决这一问题。随着公司平台规模扩大,其专有闭源模型产生了三个瓶颈:实时临床工作流中的不可预测延迟、推理成本增长超过收入增长,以及对模型质量和更新控制不足。

为克服这些瓶颈,Sully.ai使用Baseten的模型API,在NVIDIA Blackwell GPU上部署如gpt-oss-120b等开源模型。Baseten采用低精度NVFP4数据格式、NVIDIA TensorRT-大语言模型库和NVIDIA Dynamo推理框架来提供优化推理。公司选择NVIDIA Blackwell运行其模型API,因为相比NVIDIA Hopper平台,每美元吞吐量提升了2.5倍。

结果,Sully.ai的推理成本下降了90%,相比之前的闭源实现实现了10倍降低,同时医疗记录生成等关键工作流的响应时间改善了65%。公司现已为医生节省超过3000万分钟,这些时间此前都浪费在数据录入和其他手动任务上。

游戏体验革命

Latitude正在通过其AI Dungeon冒险故事游戏和即将推出的AI驱动角色扮演游戏平台Voyage构建AI原生游戏的未来,玩家可以创建或游玩世界,自由选择任何行动并创造自己的故事。

公司平台使用大语言模型响应玩家行动——但这带来了扩展挑战,因为每个玩家行动都会触发推理请求。成本随参与度扩展,响应时间必须保持足够快以确保无缝体验。

Latitude在DeepInfra的推理平台上运行大型开源模型,该平台由NVIDIA Blackwell GPU和TensorRT-大语言模型驱动。对于大规模专家混合模型,DeepInfra将每百万Token成本从NVIDIA Hopper平台的20美分降至Blackwell上的10美分。转向Blackwell原生低精度NVFP4格式进一步将成本降至仅5美分——总计4倍每Token成本改善——同时保持客户期望的准确性。

在DeepInfra的Blackwell驱动平台上运行这些大规模专家混合模型,使Latitude能够经济高效地提供快速可靠响应。DeepInfra推理平台在可靠处理流量峰值的同时提供这种性能,让Latitude能部署更强大的模型而不妨碍玩家体验。

推理系统突破

Sentient Labs专注于汇聚AI开发者共同构建强大的推理AI系统,所有系统都是开源的。目标是通过安全自主、智能体架构和持续学习研究加速AI解决更难推理问题。

其首个应用Sentient Chat编排复杂的多智能体工作流,集成了社区中十多个专业AI智能体。因此,Sentient Chat有巨大计算需求,因为单个用户查询可能触发通常导致昂贵基础设施开销的自主交互级联。

为管理这种规模和复杂性,Sentient使用运行在NVIDIA Blackwell上的Fireworks AI推理平台。通过Fireworks的Blackwell优化推理堆栈,Sentient实现了相比之前基于Hopper部署25-50%的成本效率提升。

每GPU更高吞吐量使公司能以相同成本服务显著更多并发用户。平台的可扩展性支持了24小时内180万用户排队的病毒式发布,单周处理560万次查询,同时保持一致的低延迟。

客服智能体优化

语音AI客服通话往往以挫败告终,因为即使轻微延迟也可能导致用户与智能体重叠说话、挂断或失去信任。

Decagon为企业客户支持构建AI智能体,AI驱动语音是其最苛刻的渠道。Decagon需要能在不可预测流量负载下提供亚秒级响应的基础设施,以及支持全天候语音部署的Token经济学。

Together AI在NVIDIA Blackwell GPU上为Decagon的多模型语音堆栈运行生产推理。两家公司在几个关键优化上合作:投机解码,训练较小模型生成更快响应,同时较大模型在后台验证准确性;缓存重复对话元素以加速响应;构建自动扩展以处理流量激增而不降低性能。

Decagon看到响应时间在处理每查询数千Token时仍保持400毫秒以下。每查询成本(完成一次语音交互的总成本)相比使用闭源专有模型下降了6倍。这通过Decagon的多模型方法(部分开源,部分在NVIDIA GPU上内部训练)、NVIDIA Blackwell的极致协同设计和Together的优化推理堆栈组合实现。

未来发展趋势

医疗、游戏和客服领域看到的显著成本节省由NVIDIA Blackwell的效率驱动。NVIDIA GB200 NVL72系统通过为推理专家混合模型提供相比NVIDIA Hopper突破性的10倍每Token成本降低,进一步扩大了这一影响。

NVIDIA在堆栈每一层的极致协同设计——涵盖计算、网络和软件——及其合作伙伴生态系统正在大规模解锁每Token成本的巨大降低。

这一势头将延续到NVIDIA Rubin平台——将六款新芯片集成到单一AI超级计算机中,相比Blackwell提供10倍性能和10倍更低Token成本。

Q&A

Q1:NVIDIA Blackwell平台相比Hopper平台在成本节省方面有什么优势?

A:NVIDIA Blackwell平台帮助领先推理服务商将每Token成本相比NVIDIA Hopper平台降低多达10倍。例如,DeepInfra将大规模专家混合模型的每百万Token成本从Hopper平台的20美分降至Blackwell上的10美分,使用NVFP4格式进一步降至5美分。

Q2:开源模型在AI应用中能达到什么样的性能水平?

A:开源模型现已达到前沿智能水平。通过结合开源前沿智能、NVIDIA Blackwell的极致硬件-软件协同设计以及优化的推理堆栈,这些模型能够为各行业企业实现显著的Token成本降低,同时保持高质量的AI交互体验。

Q3:这些成本优化对实际业务应用有什么影响?

A:成本优化带来显著业务价值。例如,Sully.ai推理成本下降90%,为医生节省超过3000万分钟;Decagon每查询成本下降6倍,响应时间保持400毫秒以下;Sentient实现25-50%成本效率提升,支持24小时内180万用户排队的病毒式发布。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大批美国游客涌入中国,回国后坦言:客观对比,中国比美国强多了

大批美国游客涌入中国,回国后坦言:客观对比,中国比美国强多了

聚焦事件
2026-02-14 21:36:45
欧洲赛事:皇马4-1登顶,利物浦3-0晋级,朗斯5-0大胜

欧洲赛事:皇马4-1登顶,利物浦3-0晋级,朗斯5-0大胜

佳佳说奇事故事
2026-02-15 06:16:11
研究发现:早期脑梗不是头晕,而是频繁出现这5个异常,占一个都要警惕!

研究发现:早期脑梗不是头晕,而是频繁出现这5个异常,占一个都要警惕!

刘哥谈体育
2026-02-15 03:59:12
蒙古为何成为韩国老男人的圣地?带你去瞧瞧这个可悲的国家

蒙古为何成为韩国老男人的圣地?带你去瞧瞧这个可悲的国家

吕醿极限手工
2025-12-29 18:33:00
浙江“一人公司”兴起!前大厂程序员靠AI月入200万元:“完全不需要员工”

浙江“一人公司”兴起!前大厂程序员靠AI月入200万元:“完全不需要员工”

环球网资讯
2026-02-13 20:27:07
CBA最滑稽一幕诞生!广东克星入选全明星后被裁:这下篮协该懵了

CBA最滑稽一幕诞生!广东克星入选全明星后被裁:这下篮协该懵了

篮球快餐车
2026-02-15 05:32:16
女子深夜打车回家,发现司机绕路她准备报警,司机:你仔细看后面

女子深夜打车回家,发现司机绕路她准备报警,司机:你仔细看后面

千秋文化
2026-02-12 20:06:26
中国专家:乌克兰兵源枯竭,战败已成定局

中国专家:乌克兰兵源枯竭,战败已成定局

俄罗斯卫星通讯社
2026-02-13 15:28:30
从5260万降到600万,还准备退役巡演么?夺冠热门似乎不太需要你

从5260万降到600万,还准备退役巡演么?夺冠热门似乎不太需要你

老梁体育漫谈
2026-02-15 00:03:47
快船队科怀·伦纳德坦诚谈克里斯·保罗退役:这样的球员并不多见

快船队科怀·伦纳德坦诚谈克里斯·保罗退役:这样的球员并不多见

好火子
2026-02-15 05:57:15
金价真是变天了,2月14日全国金价竟然差这么多?

金价真是变天了,2月14日全国金价竟然差这么多?

时尚的弄潮
2026-02-15 00:55:47
易梦玲一双金灿灿的大灯,明艳晃眼

易梦玲一双金灿灿的大灯,明艳晃眼

吃瓜党二号头目
2026-02-13 08:13:30
2000年山东状元失踪案,局长父亲25年寻子终有结果

2000年山东状元失踪案,局长父亲25年寻子终有结果

丁懰惊悚影视解说
2026-02-14 21:28:14
郑丽文太猛了!“蓝皮绿骨”集体变脸,李四川大义灭亲让政敌傻眼

郑丽文太猛了!“蓝皮绿骨”集体变脸,李四川大义灭亲让政敌傻眼

沧海旅行家
2026-02-14 16:20:12
2月16除夕,“三菜放餐桌,人旺财也旺”!三菜指的啥?建议了解

2月16除夕,“三菜放餐桌,人旺财也旺”!三菜指的啥?建议了解

江江食研社
2026-02-13 07:30:10
中国重金打造游泳赛事,美国媒体:这些钱是我们所能提供的十多倍

中国重金打造游泳赛事,美国媒体:这些钱是我们所能提供的十多倍

杨华评论
2026-02-14 19:00:38
四川成都一佳人好漂亮, 身高169cm,体重48kg 美的让人移不开眼

四川成都一佳人好漂亮, 身高169cm,体重48kg 美的让人移不开眼

喜欢历史的阿繁
2026-02-07 14:21:17
倒在黎明前的生鲜鼻祖,反被700万人封神

倒在黎明前的生鲜鼻祖,反被700万人封神

金错刀
2026-02-14 17:18:33
深夜十一点!杜锋官宣重要决定,奎因暂时离队,张昊最新伤情

深夜十一点!杜锋官宣重要决定,奎因暂时离队,张昊最新伤情

多特体育说
2026-02-14 22:45:00
卢克文:“当前中美战况主线,美国捅中国外贸,中国捅美国股市

卢克文:“当前中美战况主线,美国捅中国外贸,中国捅美国股市

安安说
2026-02-14 09:21:02
2026-02-15 07:00:49
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
16214文章数 49690关注度
往期回顾 全部

科技要闻

字节跳动官宣豆包大模型今日进入2.0阶段

头条要闻

泽连斯基:冲突可以结束 但首先要结束得体面

头条要闻

泽连斯基:冲突可以结束 但首先要结束得体面

体育要闻

最戏剧性的花滑男单,冠军为什么是他?

娱乐要闻

春晚第五次联排路透 明星积极饭撒互动

财经要闻

谁在掌控你的胃?起底百亿"飘香剂"江湖

汽车要闻

星光730新春促销开启 80天销量破2.6万台

态度原创

艺术
教育
时尚
本地
军事航空

艺术要闻

一组罕见年画,藏着我的童年

教育要闻

四川大学王牌专业揭秘!精准锁定未来优势

推广中奖名单-更新至2026年2月3日推广

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

军事要闻

钓鱼岛、黄岩岛、仁爱礁已充满中国年味

无障碍浏览 进入关怀版