网易首页 > 网易号 > 正文 申请入驻

下一个“AI卖铲人”:算力调度是推理盈利关键,向量数据库成刚需

0
分享至

随着生成式AI应用加速渗透,AI基础设施软件(AI Infra)正成为应用落地的关键“卖铲人”,算力调度能力已成为决定模型推理盈利水平的核心变量。

近期,申万宏源研究黄忠煌团队发布了深度报告《AI Infra:应用渗透下的又一卖铲》,报告指出基础设施软件正迎来黄金发展期。与模型训练阶段被巨头垄断不同,推理和应用部署环节为独立软件厂商打开了新的商业空间。当前两类产品最为关键:算力调度软件和数据类软件。

算力调度能力直接决定模型推理服务的盈利水平。根据测算,在单日10亿查询量下,若使用H800芯片,单卡吞吐能力每提升10%,毛利率能够提升2-7个百分点。

数据层面,向量数据库已成刚需,Gartner预测2025年企业RAG技术采用率将达68%。海外数据厂商如MongoDB在2024年二季度收入增速出现明显拐点,验证了这一趋势。

算力调度:推理盈利的核心变量

AI Infra指的是专门为AI工作负载的设计、构建、管理和优化的底层硬件与软件系统。 它的核心目标是高效、大规模地完成AI模型的训练和推理任务。如果将开发大模型比做是 “造房子”,那 AI Infra 就是“工具箱”,包括构建、部署和维护人工智能 (AI) 系统所需的硬件、 软件和服务的组合。


国内模型价格战背景下,成本控制成为生死攸关的问题。Deepseek V3官方定价仅为每百万token输入2元、输出3元,而海外同类产品价格普遍在1.25-5美元之间。这种显著的价格差异使得国内厂商对成本的敏感度远超海外。

大厂算力调度能力对比:

华为Flex:ai实现了异构算力统一调度,支持英伟达、昇腾及第三方算力,通过芯片级切分技术(精准至10%粒度),在无法充分利用整卡算力的场景下,可将平均利用率提升30%。
阿里巴巴Aegaeon更进一步,实现了token级动态调度。通过token粒度的精细化调度、阶段化计算、缓存复用和弹性扩缩容,Aegaeon将10个模型所需GPU数量从1192张锐减至213张,资源节约率高达82%。这种"按token分拣"的实时调度方式,类似将快递分拣从"按批次"升级为"按单个包裹"。

报告数据表明,算力调度软件已成为提升毛利率的隐形杠杆:

毛利率敏感性分析显示,假设模型推理服务商使用H800芯片,在单日10亿查询量场景下(日收入约440万元,年收入16.06亿元),当单卡吞吐从基准值的0.6倍提升至1.4倍时,毛利率可从52%提升至80%。这意味着算力调度优化每提升10%的单卡吞吐,就能带来约2-7个百分点的毛利率改善。

这也解释了为何海外三大云厂商的云业务毛利率差异显著:2025年三季度,谷歌云毛利率为43.3%,微软智能云为34.6%,而亚马逊AWS仅为23.7%。随着AI大模型云收入占比持续提升,硬件调度能力对毛利率的影响将愈发关键。


向量数据库:RAG应用的刚需基础

大模型幻觉问题催生了RAG(检索增强生成)技术的快速普及。由于大模型无法直接记住大量企业私有知识,且缺乏外部知识时容易产生幻觉,RAG成为企业部署AI应用的标配。Gartner数据显示,2024年全球已有45%的企业在智能客服、数据分析等场景中部署RAG系统,预计2025年这一比例将突破68%。

报告指出,向量数据库的核心价值在于支撑海量数据的毫秒级检索。在RAG应用推理流程中,系统需要先将用户查询转化为向量,然后在向量数据库中检索最相似的知识片段,最后将检索结果与用户问题一起输入大模型生成答案。这要求向量数据库能在亿级数据规模下保持高QPS(每秒查询数)的实时检索能力。

OpenRouter统计数据显示,从2024年四季度开始,从API接口接入各类大模型的Token消耗量快速增长,一年时间内翻了近10倍,直接拉动了向量数据库需求。

数据库格局重塑:OLTP反攻,实时性为王

生成式AI时代,数据架构正从"分析优先"转向"实时运营+分析协同"。传统数据仓库/湖仓架构设计目标是批量处理和事后洞察,但AI应用需要毫秒级响应,Agent更需要持续获取实时数据并快速决策。这种高频、小批量、低延迟的实时事务处理需求,正是OLTP(在线事务处理)数据库的核心优势。


报告指出,AI时代数据架构从‘分析优先’转向‘实时运营 + 分析协同’...MongoDB 凭借‘低门槛 + 高弹性’,契合中小客户低成本 AI 落地需求,增长弹性突出。Snowflake 与 Databricks...需应对CSP跨界竞争与实时能力短板。

具体来看:

MongoDB:低门槛切入中小客户市场
MongoDB作为文档型NoSQL数据库,天然适配非结构化数据存储与高频实时CRUD操作。其收入增速在2024年二季度出现拐点,2026财年一至三季度,核心产品Atlas收入增速分别为26%、29%、30%,显著高于总体收入增速。
MongoDB的竞争优势体现在三个方面:首先,其文档型设计摒弃了预定义表结构,以类似JSON格式存储数据,契合AI原生应用需求;其次,通过2025年2月以2.2亿美元收购Voyage AI,补齐了向量检索能力,Voyage的嵌入模型在HuggingFace RTEB测评中霸榜第一、第四和第五;第三,新推出的AMP(应用现代化平台)帮助客户从传统关系型数据库迁移至现代文档数据库。
2026财年三季度,MongoDB毛利率达到76%,预计年底经营利润率将达到18%,全年营收增长率约21%-22%,几乎接近Rule of 40标准(收入增长率+利润率≥40%)。
Snowflake与Databricks:向全栈工具延伸
以OLAP为核心的Snowflake和Databricks选择了不同的应对策略——向上下游纵向拓展。Snowflake在2025年通过Iceberg Tables实现数据湖仓兼容,推出Snowpark支持Python等多语言,并提供Cortex AI和Snowflake ML等AI工具链。2025财年收入达36.26亿美元,同比增长29.21%,预计2026财年收入44.46亿美元。
Databricks则在2025年5月以10亿美元收购无服务器Postgres解决方案提供商Neon,补齐OLTP能力,随后推出AI原生数据库Lakebase和Agent Bricks。其2025年年化收入超48亿美元,同比增长55%,数据湖仓产品年化收入超10亿美元,净留存率超140%。
两家公司凭借全流程工具链和客户粘性,占据金融、医疗等数据密集型行业核心场景。截至2026财年三季度,Snowflake年消费超100万美元的高价值客户达688家,福布斯全球2000强企业中已有766家成为其客户。
GPU主导存储架构:技术升级进行时

AI推理进入实时化、PB级数据访问的新阶段,存储IO正从"幕后支撑"变成"性能命脉"。LLM推理的KV缓存访问粒度仅8KB-4MB,向量数据库检索更是低至64B-8KB,且需要支持数千条并行线程的并发请求。

英伟达推出的SCADA(加速数据访问扩展)方案实现了GPU直连SSD,将IO延迟从毫秒级降至微秒级。该方案采用"GPU-交换机-SSD"直连架构,测试数据显示,1颗H100 GPU的IO调度效率是Gen5 Intel Xeon Platinum CPU的2倍以上。

这要求向量数据库进行技术升级:采用GPU适配的列式存储、将检索算法改为GPU并行版本、自主管理GPU显存分配。这些技术演进正在重塑数据基础设施的竞争格局。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
青海4位专家“饿晕”拒绝评标细节曝光,和招标无关,就餐是关键

青海4位专家“饿晕”拒绝评标细节曝光,和招标无关,就餐是关键

Mr王的饭后茶
2026-01-13 21:03:08
让人眼红!合川呆呆3天涨粉175万,预计收入400万,96个大哥守护

让人眼红!合川呆呆3天涨粉175万,预计收入400万,96个大哥守护

火山诗话
2026-01-13 06:57:26
29岁网红口子姐去世,父亲病逝,自曝得梅毒,欠债太多下海惹争议

29岁网红口子姐去世,父亲病逝,自曝得梅毒,欠债太多下海惹争议

揽星河的笔记
2026-01-13 13:05:05
97-107!CBA爆大冷,夺冠热门终结9连胜,深圳队爆冷击败上海队:

97-107!CBA爆大冷,夺冠热门终结9连胜,深圳队爆冷击败上海队:

白话谈体育
2026-01-14 00:35:39
苏州多地突闻巨响,窗户震动,像“炸雷”!相关部门回应:非爆炸事故,原因正调查

苏州多地突闻巨响,窗户震动,像“炸雷”!相关部门回应:非爆炸事故,原因正调查

扬子晚报
2026-01-13 19:45:13
英媒:解雇弗兰克至少需要800万镑,他还有两年半的合同在身

英媒:解雇弗兰克至少需要800万镑,他还有两年半的合同在身

懂球帝
2026-01-13 19:39:12
百万粉丝网红“你的渡口”去世,知情人:系熬夜猝死,遗体已火化;是多年潮流圈博主,曾参赛《说唱听我的》

百万粉丝网红“你的渡口”去世,知情人:系熬夜猝死,遗体已火化;是多年潮流圈博主,曾参赛《说唱听我的》

大风新闻
2026-01-13 08:02:04
手机收到这类短信立刻删!一关机钱就被隔空转走,87人已中招

手机收到这类短信立刻删!一关机钱就被隔空转走,87人已中招

复转这些年
2026-01-12 23:46:00
浮出水面!顶级名帅有望“空降”皇马!老弗爷或送1.7亿见面礼

浮出水面!顶级名帅有望“空降”皇马!老弗爷或送1.7亿见面礼

头狼追球
2026-01-13 11:09:48
谎言被网友揭穿后,“通信专家”项立刚怒斥:你们混得不如我好

谎言被网友揭穿后,“通信专家”项立刚怒斥:你们混得不如我好

区块科技
2026-01-13 18:50:15
抛弃有线电视的亏大了!2026免费升级4K,收费便宜还没猫腻!

抛弃有线电视的亏大了!2026免费升级4K,收费便宜还没猫腻!

叮当当科技
2026-01-13 00:19:30
两岸统一的风向:赖清德由独转统,或能成就统一功绩​

两岸统一的风向:赖清德由独转统,或能成就统一功绩​

比利
2026-01-13 20:29:57
南博疑云 | 鉴定是“一票否决制”

南博疑云 | 鉴定是“一票否决制”

新民周刊
2026-01-12 13:54:19
下课真因?曝阿隆索与3巨星交恶 已失球员尊重 训练闲逛+掐点离开

下课真因?曝阿隆索与3巨星交恶 已失球员尊重 训练闲逛+掐点离开

我爱英超
2026-01-13 07:16:44
回顾许家印被抓捕现场,奋力反抗,怒吼不已,被抓捕人员抬出去

回顾许家印被抓捕现场,奋力反抗,怒吼不已,被抓捕人员抬出去

干史人
2026-01-08 22:47:00
马拉松女神李美珍扔掉的饮料被粉丝喝了,网友:这算不算间接接吻

马拉松女神李美珍扔掉的饮料被粉丝喝了,网友:这算不算间接接吻

杨华评论
2026-01-13 23:18:42
南方要下雪:今冬最冷寒潮将堆积南下,一号台风洛鞍将近期生成

南方要下雪:今冬最冷寒潮将堆积南下,一号台风洛鞍将近期生成

中国气象爱好者
2026-01-13 23:34:01
山东日照34岁医生去世,家属称因“痔疮手术引发”,最新进展:卫健委成立调查组

山东日照34岁医生去世,家属称因“痔疮手术引发”,最新进展:卫健委成立调查组

潇湘晨报
2026-01-12 17:38:17
金晨疑整形脸肿如馒头引网友抵制,恐无缘《庆余年3》

金晨疑整形脸肿如馒头引网友抵制,恐无缘《庆余年3》

徐云流浪中国
2026-01-13 14:53:00
数千万波斯人,不伺候阿塞拜疆权贵了?伊朗今夜,就是百年前清末

数千万波斯人,不伺候阿塞拜疆权贵了?伊朗今夜,就是百年前清末

南宗历史
2026-01-10 16:15:24
2026-01-14 07:16:49
华尔街见闻官方 incentive-icons
华尔街见闻官方
中国领先的金融商业信息提供商
140069文章数 2652117关注度
往期回顾 全部

科技要闻

每年10亿美元!谷歌大模型注入Siri

头条要闻

特朗普:已取消所有与伊朗官员的会谈

头条要闻

特朗普:已取消所有与伊朗官员的会谈

体育要闻

他带出国乒世界冠军,退休后为爱徒返场

娱乐要闻

蔡卓妍承认新恋情,与男友林俊贤感情稳定

财经要闻

"天量存款"将到期 资金会否搬入股市?

汽车要闻

限时9.99万元起 2026款启辰大V DD-i虎鲸上市

态度原创

本地
数码
房产
艺术
亲子

本地新闻

云游内蒙|到巴彦淖尔去,赴一场塞上江南的邀约

数码要闻

MiniLED背光技术2.0时代来了 RGB架构电视今年冲击40万台

房产要闻

又一新校开建!海口这一片区,迎来教育重磅升级!

艺术要闻

世界各地的男女厕所标志, 看得都大笑了!

亲子要闻

孩子长得胖不等于长得好!13岁孩子重146斤,胆固醇尿酸都偏高

无障碍浏览 进入关怀版