![]()
医疗诊断洞察、互动游戏中的角色对话、客服智能体的自主响应——这些AI驱动的交互都基于同一个智能单元:Token。
扩展这些AI交互需要企业考虑是否能负担更多Token成本。答案在于更好的Token经济学——其核心是降低每个Token的成本。这一下降趋势正在各行业展开。麻省理工学院最新研究发现,基础设施和算法效率正将前沿性能的推理成本年降幅提升至10倍。
要理解基础设施效率如何改善Token经济学,可以想象一台高速印刷机。如果印刷机通过对墨水、能源和机器本身的增量投资实现10倍产出,那么每页的印刷成本就会下降。同样,对AI基础设施的投资能带来远超成本增长的Token产出,从而显著降低每Token成本。
这正是Baseten、DeepInfra、Fireworks AI和Together AI等领先推理服务商选择使用NVIDIA Blackwell平台的原因,该平台帮助他们将每Token成本相比NVIDIA Hopper平台降低多达10倍。
这些服务商托管先进的开源模型,这些模型现已达到前沿智能水平。通过结合开源前沿智能、NVIDIA Blackwell的极致硬件-软件协同设计以及他们自己的优化推理堆栈,这些服务商正为各行各业的企业实现显著的Token成本降低。
医疗领域变革
在医疗领域,医疗编码、文档记录和保险表格管理等繁琐耗时的任务占用了医生与患者相处的时间。
Sully.ai通过开发能处理医疗编码和记录等常规任务的"AI员工"来帮助解决这一问题。随着公司平台规模扩大,其专有闭源模型产生了三个瓶颈:实时临床工作流中的不可预测延迟、推理成本增长超过收入增长,以及对模型质量和更新控制不足。
为克服这些瓶颈,Sully.ai使用Baseten的模型API,在NVIDIA Blackwell GPU上部署如gpt-oss-120b等开源模型。Baseten采用低精度NVFP4数据格式、NVIDIA TensorRT-大语言模型库和NVIDIA Dynamo推理框架来提供优化推理。公司选择NVIDIA Blackwell运行其模型API,因为相比NVIDIA Hopper平台,每美元吞吐量提升了2.5倍。
结果,Sully.ai的推理成本下降了90%,相比之前的闭源实现实现了10倍降低,同时医疗记录生成等关键工作流的响应时间改善了65%。公司现已为医生节省超过3000万分钟,这些时间此前都浪费在数据录入和其他手动任务上。
游戏体验革命
Latitude正在通过其AI Dungeon冒险故事游戏和即将推出的AI驱动角色扮演游戏平台Voyage构建AI原生游戏的未来,玩家可以创建或游玩世界,自由选择任何行动并创造自己的故事。
公司平台使用大语言模型响应玩家行动——但这带来了扩展挑战,因为每个玩家行动都会触发推理请求。成本随参与度扩展,响应时间必须保持足够快以确保无缝体验。
Latitude在DeepInfra的推理平台上运行大型开源模型,该平台由NVIDIA Blackwell GPU和TensorRT-大语言模型驱动。对于大规模专家混合模型,DeepInfra将每百万Token成本从NVIDIA Hopper平台的20美分降至Blackwell上的10美分。转向Blackwell原生低精度NVFP4格式进一步将成本降至仅5美分——总计4倍每Token成本改善——同时保持客户期望的准确性。
在DeepInfra的Blackwell驱动平台上运行这些大规模专家混合模型,使Latitude能够经济高效地提供快速可靠响应。DeepInfra推理平台在可靠处理流量峰值的同时提供这种性能,让Latitude能部署更强大的模型而不妨碍玩家体验。
推理系统突破
Sentient Labs专注于汇聚AI开发者共同构建强大的推理AI系统,所有系统都是开源的。目标是通过安全自主、智能体架构和持续学习研究加速AI解决更难推理问题。
其首个应用Sentient Chat编排复杂的多智能体工作流,集成了社区中十多个专业AI智能体。因此,Sentient Chat有巨大计算需求,因为单个用户查询可能触发通常导致昂贵基础设施开销的自主交互级联。
为管理这种规模和复杂性,Sentient使用运行在NVIDIA Blackwell上的Fireworks AI推理平台。通过Fireworks的Blackwell优化推理堆栈,Sentient实现了相比之前基于Hopper部署25-50%的成本效率提升。
每GPU更高吞吐量使公司能以相同成本服务显著更多并发用户。平台的可扩展性支持了24小时内180万用户排队的病毒式发布,单周处理560万次查询,同时保持一致的低延迟。
客服智能体优化
语音AI客服通话往往以挫败告终,因为即使轻微延迟也可能导致用户与智能体重叠说话、挂断或失去信任。
Decagon为企业客户支持构建AI智能体,AI驱动语音是其最苛刻的渠道。Decagon需要能在不可预测流量负载下提供亚秒级响应的基础设施,以及支持全天候语音部署的Token经济学。
Together AI在NVIDIA Blackwell GPU上为Decagon的多模型语音堆栈运行生产推理。两家公司在几个关键优化上合作:投机解码,训练较小模型生成更快响应,同时较大模型在后台验证准确性;缓存重复对话元素以加速响应;构建自动扩展以处理流量激增而不降低性能。
Decagon看到响应时间在处理每查询数千Token时仍保持400毫秒以下。每查询成本(完成一次语音交互的总成本)相比使用闭源专有模型下降了6倍。这通过Decagon的多模型方法(部分开源,部分在NVIDIA GPU上内部训练)、NVIDIA Blackwell的极致协同设计和Together的优化推理堆栈组合实现。
未来发展趋势
医疗、游戏和客服领域看到的显著成本节省由NVIDIA Blackwell的效率驱动。NVIDIA GB200 NVL72系统通过为推理专家混合模型提供相比NVIDIA Hopper突破性的10倍每Token成本降低,进一步扩大了这一影响。
NVIDIA在堆栈每一层的极致协同设计——涵盖计算、网络和软件——及其合作伙伴生态系统正在大规模解锁每Token成本的巨大降低。
这一势头将延续到NVIDIA Rubin平台——将六款新芯片集成到单一AI超级计算机中,相比Blackwell提供10倍性能和10倍更低Token成本。
Q&A
Q1:NVIDIA Blackwell平台相比Hopper平台在成本节省方面有什么优势?
A:NVIDIA Blackwell平台帮助领先推理服务商将每Token成本相比NVIDIA Hopper平台降低多达10倍。例如,DeepInfra将大规模专家混合模型的每百万Token成本从Hopper平台的20美分降至Blackwell上的10美分,使用NVFP4格式进一步降至5美分。
Q2:开源模型在AI应用中能达到什么样的性能水平?
A:开源模型现已达到前沿智能水平。通过结合开源前沿智能、NVIDIA Blackwell的极致硬件-软件协同设计以及优化的推理堆栈,这些模型能够为各行业企业实现显著的Token成本降低,同时保持高质量的AI交互体验。
Q3:这些成本优化对实际业务应用有什么影响?
A:成本优化带来显著业务价值。例如,Sully.ai推理成本下降90%,为医生节省超过3000万分钟;Decagon每查询成本下降6倍,响应时间保持400毫秒以下;Sentient实现25-50%成本效率提升,支持24小时内180万用户排队的病毒式发布。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.