开源模型都在用的重要推理框架vLLM,核心团队宣布创业了!
创始团队官宣,成立新公司Inferact,种子轮即斩获1.5亿美元(约10.5亿人民币)融资,估值达8亿美元(约56亿人民币)。
这一规模创下了近期AI基础设施领域的融资新高,也是有史以来规模最大的种子轮融资之一。
![]()
投资方指出,随着AI应用落地,行业焦点正从训练转向推理,如何低成本、高可靠地运行现有模型已成为新的痛点。
Inferact正是为了解决这一“推理瓶颈”而生,旨在构建下一代商业引擎以应对大规模部署挑战。
出任CEO的Simon Mo也表示,这反映了市场机遇的广阔,因为在推理规模化阶段,即使是微小的效率提升也能带来显著的成本节省。
vLLM商业化,Inferact正式成立
本次1.5亿美元的种子轮融资由Andreessen Horowitz(a16z)与Lightspeed Venture Partners共同领投。
除了两大领投方,跟投名单中还出现了红杉资本(Sequoia Capital)、Altimeter Capital、Redpoint Ventures以及真格基金(ZhenFund)。
如此豪华的投资规模集中在一家刚成立的初创公司身上,显示出资本市场对于AI基础设施赛道风向的剧烈转变。
a16z合伙人Matt Bornstein指出,随着大模型能力趋于成熟,开发者已不再单纯等待模型架构的更新,而是开始大规模部署现有模型。
这一转变带来了新的难题,即当应用程序需要频繁与大模型进行交互时,算力成本和系统负载会呈指数级上升,推理环节因此成为制约行业发展的最大瓶颈。
市场对于低成本、高可靠运行现有模型的需求,目前已经超过了对新模型研发的期待。
作为Inferact的技术基石,vLLM在此之前已经进入了工业界的实际生产环境。
亚马逊目前已采用该技术,而且是直接应用于自身核心购物应用的内部系统。
这种来自万亿级商业场景的实际部署,在真实的高并发流量下验证了技术的稳定性,也让资本市场看到了技术在大规模商业落地上的确定性。
面对开源与商业化的平衡问题,Inferact目前的策略是维持双线并行。
公司明确表示将继续支持vLLM作为一个独立的开源项目发展,并将技术改进回馈给社区。
在商业层面,团队将目光投向了硬件适配的效率问题,计划开发独立的商业产品,帮助企业在不同类型的硬件上运行AI模型。
从vLLM到Inferact
vLLM创立之初,团队自己都认为是一个“副业”项目。
但如今的Inferact时刻前夕,vLLM已成为大模型领域的事实标准,几乎所有主流开源大模型在发布与部署时,都会将vLLM作为首选支持的推理框架。
在a16z合伙人Matt Bornstein主持的深度对谈中,Simon Mo和Woosuk Kwon回溯了vLLM如何从一个不起眼的“副业”一步步走到聚光灯下的全过程。
![]()
最初,vLLM仅仅是两人在伯克利求学期间的一个Side Project,驱动代码更新的动力源于一种极其朴素的技术信仰——
他们坚信,在这个大模型重塑世界的时代,开源代码必须是全球AI基础设施的地基。
这种纯粹的初衷,让vLLM在没有商业推广的情况下,迅速成为了开发者社区的宠儿。
然而,随着项目从实验室走向工业界,团队的角色发生了质的转变。
作为核心维护者,他们不仅是在写代码,更是在与全球最顶尖的开发者协作,这种高强度的社区互动成为了他们技术能力的“炼金石”。
他们积累了独有的技术洞察,并确立了在行业内的权威身份,构成了后来他们能够驾驭一家独角兽企业的底层能力。
但在这一过程中,现实的引力也越来越重。他们发现,当推理任务从简单的Demo演示变成数千张GPU集群的生产级部署时,挑战的量级呈指数级上升。
“推理正在变得越来越难”,这是团队在第一线摸爬滚打后得出的痛切结论。
现有的开源方案在面对深度底层优化、大规模集群的线性扩展以及复杂的GPU部署流程时,往往显得力不从心。
企业需要的不再是零散的代码库,而是能够稳定承载万亿次调用的工业级引擎。
为了攻克那些开源社区难以消化的“硬骨头”,必须引入严密的商业组织形式构建下一代引擎。
与此同时,为了在商业化的同时保证开源项目继续运行,Inferact设计了一套独特的反哺机制,利用商业资源继续滋养vLLM,确保这个曾经的副业项目能继续作为行业的基石繁荣生长。
伯克利博士携手清华特奖
Inferact的CEO由Simon Mo担任。
他曾就读于加州大学伯克利分校电气工程与计算机科学系(EECS),主攻机器学习系统设计方向。
在此之前,他是Anyscale的早期工程师,积累了将分布式系统科研成果转化为工业级产品的工程实践经验。
作为vLLM项目的原始维护者之一,他主要负责项目的工程化构建与社区运营。
![]()
另一位联合创始人是vLLM项目的发起人Woosuk Kwon。
他拥有加州大学伯克利分校计算机科学博士学位,师从Ion Stoica教授,研究重点聚焦于大语言模型的高效服务系统。
他在博士期间提出了Paged Attention算法,通过引入操作系统中分页内存管理的思想,解决了KV Cache显存碎片化问题,这一算法创新为vLLM在吞吐量性能上的提升提供了核心技术支撑。
![]()
团队的核心技术力量还包括清华特奖得主游凯超(Kaichao You)。
他曾在加州大学伯克利分校EECS系担任访问学者,主攻分布式深度学习系统。
作为vLLM的关键维护者,他主导了基于张量并行的分布式推理功能实现,并优化了与PyTorch原生生态的集成接口,使得vLLM能够支持多卡大规模模型推理并降低了开发者的迁移成本。
![]()
此外,核心团队与顾问团还集结了学术界与工业界的资深力量。
前Roblox高级机器学习工程师Roger Wang作为核心成员加入,为团队带来了生产级基础设施的实战经验;
加州大学伯克利分校教授Joseph Gonzalez以及Databricks联合创始人Ion Stoica教授则作为顾问深度参与其中,为公司提供技术愿景与商业路径的顶层指导。
参考链接:
[1]https://www.bloomberg.com/news/articles/2026-01-22/andreessen-backed-inferact-raises-150-million-in-seed-round
[2]https://x.com/a16z/status/2014394081452163231
文章来源:量子位。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.