网易首页 > 网易号 > 正文 申请入驻

为了让DeepSeek-R1用起来更顺畅,火山引擎将TPM上调到了500万!

0
分享至

机器之心报道

编辑:Panda

最近,DeepSeek 很热,是个好 AI,但不是每个人都能用上。

于是,不少大大小小的 AI 云服务商都看到了机会,部署上线了 DeepSeek 的各个模型,并还通过各种优惠活动为自己拉用户。相信很多读者都参与到了这波薅羊毛中,但结果呢?很多时候,虽然免费的 Token 额度是到账了,但调用 DeepSeek-R1 是否成功就完全得看运气了。那些到账的 Token 额度也就成了一个可见而不可用的数字。这不由得让人感叹:薅羊毛,还是得薅大厂的。

前些天,火山引擎也上线了 DeepSeek-R1 模型(包括满血版和一些蒸馏版),并且还向用户赠送了 50 万 Token 的免费额度。用完后「续杯」的价格也不贵 —— 目前 DeepSeek-R1 满血版还在半价优惠中!算下来,每 100 万 Token 输入仅需 2 元钱,100 万 Token 输出也只需 8 元。

并且我们完全不必担心遇到「服务器繁忙」的问题。作为字节跳动旗下的云和 AI 服务平台,火山引擎的实力已经得到了大量部署其上的服务的验证 —— 就以 DeepSeek 的模型为例,自其登陆火山引擎以来,用量一直在持续攀升,现在已有数万客户稳定调用该模型,而火山引擎依然能够轻松地保持非常稳定的服务。

这也得到了第三方评测平台的佐证。根据 SuperCLUE 最新发布的 DeepSeek-R1 网页端稳定性测评报告,火山引擎是唯一一个完整回复率达到了 100% 的 DeepSeek-R1 第三方平台,也就是说部署在该平台上的 DeepSeek-R1 模型每一次都能给出完整回复,不存在截断、无响应等问题。

事实上,DeepSeek 系列模型现有的数万客户对火山引擎来说也只能是「洒洒水啦」。要知道,火山引擎为每位用户设定的初始 TPM(每分钟 Token 数)限流就已经达到了惊人的500 万!在之前 80 万 TPM 的基础上实现了近一个数量级的提升。可说是全网最高。企业和开发者完全不必担心自己的数据或查询量过大和流量不够。

相较之下,其它 AI 云服务商提供的 TPM 就远远不及了,比如阿里云为 DeepSeek-R1 和 DeepSeek-V3 设定了最高 120 万的 TPM,而腾讯云的数据也只有 60 万 TPM,百度智能云为自家 ERNIE 系列模型设置的初始 TPM 也都不超过 80 万。其它更小规模的厂商就更别提了。

放眼海外, OpenAI 为用户设置的 TPM 也非常低:免费用户仅有 4 万 TPM,而只有当付费等级达到 Tier 3 以上时,才有可能获得与火山引擎提供的相当的 TPM。Claude 的流量限制也差不多,其为 Tier 1 用户设置了 4 万输入 TPM 和 8000 输出 TPM 的限制,最高的 Tier 4 也仅有 40 万输入 TPM 和 8 万输出 TPM。

此外,火山引擎还给了用户50 亿初始离线 TPD(每日 Token 数)配额,是全网首家做到如此豪气的 AI 云服务商。

所以,不管是「全网最高」还是「全网首家」,火山引擎都当之无愧。

同时,在保证了超大流量和吞吐量的同时,火山引擎也做到了超低延迟。据火山引擎智能算法负责人吴迪介绍,即使是在数千万 TPM 的大流量下,火山引擎依然能达到相当稳定的低延迟水平,如下图所示。

500 万 TPM,火山引擎的底气是什么?

500 万 TPM 并不是一个小数字,换算下来,大致相当于每分钟 3 万多条响应,足以满足一个具有相当规模用户的应用的需求。火山引擎敢放开手脚,为用户提供如此实惠,自然有着自己的底气。

首先,自然是硬件实力。火山引擎有海量的 GPU 资源,并且吴迪表示已经将数以万计不同型号的 GPU 算力投入了火山方舟 —— 火山引擎旗下一站式大模型服务平台。另外,火山引擎还实现了「极致的成本效用」,可实现对 GPU 算力的灵活调用。

不仅如此,火山引擎的弹性伸缩(Auto Scaling)能力也值得称道。简单来说,弹性伸缩是指让云服务器资源池可根据当前服务的需求弹性调整所配置的计算资源。火山引擎能在分钟级的时间内完成数千台 GPU 资源的伸缩调度,从而可以有效地支持突发的流量和业务高峰。

针对 DeepSeek 系列模型,火山引擎还通过全栈自研推理引擎进行了算子层、系统层的深度优化。

算子层,由于 DeepSeek 系列与此前公开的豆包大模型 1.5 都采用了相似的 MoE 稀疏架构,因此火山引擎针对豆包系列模型部署的大量专家优化都可以直接复用。在此基础上,火山引擎还针对 DeepSeek 的尺寸进行了重新调优。比如针对 MLA(多头隐注意力)计算,火山引擎结合精度量化,针对硬件架构进行了指令级别的调优。

而在系统层,火山引擎进行了三项深度优化:

  • 通过异构 PD 分离以及多机 EP + DP + TP 的混合并行推理方式,对计算效率和成本进行了极致的优化,同时还保障了推理延迟的稳定。
  • 通过定制化网卡和自主研发的网络协议,显著优化多机推理 All2All 通信耗时。
  • 结合高效的分布式存储设施,可显著优化 DeepSeek 671B 这种超大模型权重的加载速度,保证系统的扩容效率,从而达成更加高效的弹性计算系统。

方舟推理工程优化专家徐子林表示:「DeepSeek-R1 满血版是一个非常庞大的模型,加上前后处理过程,总参数量可达 700B,而如果按照我们当前最极致的优化水平,可在 7 秒内完成模型的加载。」也就是说,当系统出现突发流量时,火山引擎可实现秒级响应,从而实现「用户侧的无感使用」。

在火山引擎使用 DeepSeek,还有更多好处

在火山引擎上使用 DeepSeek,除了流量大、速度快、延迟低,用户还能享受到更多好处。

首先,火山引擎不仅提供了已经部署好的 DeepSeek 系列模型(可通过网页端直接使用以及通过 API 调用),而且还支持其它几种使用 DeepSeek 的模式,包括使用火山引擎的 veMLP(机器学习平台)高效部署、使用 VKE(容器服务)灵活部署、使用火山引擎系列 GPU ECS 自定义部署。下表简要总结了这几种不同模式的适合场景、核心使用方式以及优势。

下面展示了一个通过方舟 API 将 DeepSeek-R1 引入 AI 客户端 Chatbox 的示例,请注意这里设置了「你是一位数学老师」的系统提示词:

此外,在安全和隐私方面 —— 吴迪称这是火山引擎关注的「重中之重」,火山引擎也做出了承诺。火山引擎采用了先进的加密技术和严格的控制策略,可以保障用户的数据安全,杜绝用户的 prompt 和 response 被泄露和滥用的风险。简单来说,火山引擎的安全理念可以总结为:链路全加密、数据高保密、环境强隔离、操作可审计。

当然,火山引擎上不只有 DeepSeek-R1,也有 DeepSeek-V3,更有字节自家的豆包大模型家族以及 Mistral、Llama 等开源模型。这些模型在规模和功能上各有特色,有的支持音频、图像、视频等多模态处理,还有专门针对金融、漫画、音乐、同声传译等应用场景定制的专业模型。开发者和企业可根据自身业务需求,灵活选择最适合的模型与版本。

进一步优化即将到来

综合来看,火山引擎在 DeepSeek 系列模型的部署上展现出了卓越的技术实力和市场竞争力。

凭借海量的 GPU 资源、灵活的弹性伸缩能力以及全栈自研推理引擎的深度优化,火山引擎不仅实现了 500 万 TPM 的高流量吞吐,还在低延迟、低成本的前提下为企业和开发者提供了极具吸引力的服务。相较于国内外其他 AI 云服务商,火山引擎在 Token 计费、初始配额以及系统稳定性方面均具有明显优势。

与此同时,火山引擎丰富的部署模式(如 veMLP、VKE、GPU ECS 自定义部署)和全面的安全防护措施,更为用户在大规模数据查询和实时计算需求下,提供了坚实的技术保障。

为了让 DeepSeek-R1 和其它 AI 模型更快、更准确地与用户交互,火山引擎还在继续不断完善推理层性能,现已将 TPOT(输出每个 Token 的时间)降低到接近30ms。并且优化还将继续,据了解,火山引擎还计划将 TPOT 进一步稳定地压低至15ms~30ms区间,成为国内最低延迟的大规模 DeepSeek-R1 推理服务,助力用户获得畅享流畅的交互体验。

当然,用户们心心念念的联网搜索能力也即将上线火山引擎,加上字节跳动优质的内容生态。届时我们有望看到大量丰富多样的应用爆发。

未来,随着技术的不断迭代升级和市场需求的进一步释放,火山引擎有望在 AI 云服务领域继续引领行业潮流,为各类创新应用赋能,为数字化转型提供更高效、更稳定的支撑。

心动了吗?快通过这个传送门前往火山方舟吧:https://console.volcengine.com/ark

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
Altman发感谢信,16000名被裁程序员集体破防

Altman发感谢信,16000名被裁程序员集体破防

Ping值焦虑
2026-03-25 17:02:40
杨瀚森降维打击!9中9轰20+9,定位逐渐清晰,难怪球队16顺位选他

杨瀚森降维打击!9中9轰20+9,定位逐渐清晰,难怪球队16顺位选他

你的篮球频道
2026-03-26 10:19:18
中国移动官宣!4月30日起全国统一执行,事关所有手机号

中国移动官宣!4月30日起全国统一执行,事关所有手机号

Thurman在昆明
2026-03-26 13:35:46
人社部明确:事业编制改革启动,3100万人的“铁饭碗”要变了

人社部明确:事业编制改革启动,3100万人的“铁饭碗”要变了

慧眼看世界哈哈
2026-03-24 06:36:05
黄巢虽然残忍,却做了件好事:为我国破除了危害近600年的祸根

黄巢虽然残忍,却做了件好事:为我国破除了危害近600年的祸根

铭记历史呀
2026-03-26 11:26:09
过分!一大V讽刺张雪峰:称少一个鼓吹战争的疯子,对世界更美好

过分!一大V讽刺张雪峰:称少一个鼓吹战争的疯子,对世界更美好

谈史论天地
2026-03-26 07:56:52
“鸟面妈妈”王小妞:不听劝阻生二胎,儿子遗传其外貌,现如何

“鸟面妈妈”王小妞:不听劝阻生二胎,儿子遗传其外貌,现如何

观察者海风
2026-03-24 23:04:30
巨乳性感绑带浑圆大腿!日本格斗游戏劲爆手办预告

巨乳性感绑带浑圆大腿!日本格斗游戏劲爆手办预告

游民星空
2026-03-25 19:48:32
2026QS世界大学学科排名,发布!

2026QS世界大学学科排名,发布!

EOL教育在线
2026-03-26 10:21:35
张雪峰母亲:下岗摆摊育子上学,四年内丧夫又丧子,有钱又如何?

张雪峰母亲:下岗摆摊育子上学,四年内丧夫又丧子,有钱又如何?

游戏收藏指南
2026-03-25 23:03:52
63岁阿姨说:和再婚老伴同居后才懂得,男人老了还要找老伴的原因

63岁阿姨说:和再婚老伴同居后才懂得,男人老了还要找老伴的原因

烙任情感
2026-03-25 13:16:34
“贞洁是女孩最高贵的嫁妆”,公交广告别变公害广告|新京报快评

“贞洁是女孩最高贵的嫁妆”,公交广告别变公害广告|新京报快评

新京报
2026-03-25 13:18:07
迪拜崩了!伊朗美国大战,迪拜40年的造富神话,11天就崩了!

迪拜崩了!伊朗美国大战,迪拜40年的造富神话,11天就崩了!

澳洲红领巾
2026-03-19 14:27:38
张雪峰8亿遗产如何分?法定继承vs遗嘱继承,妻子女儿份额大不同

张雪峰8亿遗产如何分?法定继承vs遗嘱继承,妻子女儿份额大不同

别人都叫我阿螫
2026-03-25 17:35:23
突发!上海最大商场砸的62亿悬了!

突发!上海最大商场砸的62亿悬了!

新浪财经
2026-03-26 00:14:57
40集古装权谋剧《莫离》空降,戏骨云集看着拉满

40集古装权谋剧《莫离》空降,戏骨云集看着拉满

手工制作阿歼
2026-03-26 11:19:03
王毅判断没错,短短三天中方见识了:比利时的虚伪、西班牙的真诚

王毅判断没错,短短三天中方见识了:比利时的虚伪、西班牙的真诚

快看张同学
2026-03-26 10:19:39
很多中字头工程局都发不出工资了!

很多中字头工程局都发不出工资了!

黯泉
2026-03-25 21:14:53
世乒赛选拔落幕,国乒8人确定,王艺迪梁靖崑温瑞博无缘

世乒赛选拔落幕,国乒8人确定,王艺迪梁靖崑温瑞博无缘

格斗联盟
2026-03-26 13:01:14
《雍正王朝》演员现状:有人住千万豪宅,有人晚节不保,有人离世

《雍正王朝》演员现状:有人住千万豪宅,有人晚节不保,有人离世

小徐讲八卦
2026-03-24 17:10:05
2026-03-26 14:27:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12603文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

手机
游戏
数码
旅游
军事航空

手机要闻

三星One UI 9前瞻:小部件更方正、Now Bar动画更丝滑

IGN认为Xbox机会来了!新主机要转守为攻 重塑自我

数码要闻

Intel史上最先进!酷睿Ultra 300系列vPro平台发布

旅游要闻

明起全面实行线上实名预约购票!云台山景区发布公告

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版