当一家初创公司说能把"写SQL"变成"说人话",数据工程师的第一反应通常是翻白眼。但Kumo拿到的4000万美元B轮融资,以及Netflix、Pinterest这些客户的背书,让这件事变得值得认真看看。
一句话改 pipeline,这件事怎么做到的
![]()
Kumo的核心产品是个基础模型(foundation model),专门吃结构化数据——也就是企业数据库里那些表格。传统做法里,数据科学家要花几周甚至几个月做特征工程(feature engineering,即从原始数据中提取有用信息的过程)、调模型、搭 pipeline。Kumo的路径是:你用自然语言描述想要什么预测,模型自己搞定剩下的。
比如你想预测"哪些用户下个月会流失",不需要写几百行SQL去关联用户行为表、订单表、客服记录表。直接输入这句话,模型会自己理解表结构、找相关字段、生成特征、训练预测模型。
这背后的技术路线不是简单的"大模型套壳"。Kumo团队来自斯坦福、Google Brain,论文发在NeurIPS、ICML这些顶会上。他们干的是把图神经网络(graph neural network,一种处理关系型数据的深度学习模型)和语言模型做深度融合——让模型真正"读懂"数据库的表关系,而不是把表格当纯文本硬塞给GPT。
为什么偏偏是现在
数据科学有个老矛盾:业务方急着要预测,数据团队排期排到三个月后。Kumo切中的是这个时滞问题。
他们的客户案例里有个细节:某电商公司用Kumo做库存预测,原来需要6人周的工程活,现在变成几小时。不是模型精度提升了10倍——而是"从想法到能用"的周期从月变成了天。
这个价值主张在2024年特别能打。一方面企业都在砍预算,数据团队 headcount 冻结;另一方面业务压力一点没减,老板们更频繁地问"能不能预测一下这个"。Kumo卖的不是"更准",而是"更快"——让一个人干原来五个人的活。
结构化数据的AI,和ChatGPT不一样
很多人第一反应是:这不就是ChatGPT写SQL吗?差别在于容错率。
语言模型写SQL,错了就是错了,执行报错或者结果离谱,你得人工 debug。Kumo的模型输出的是端到端的预测 pipeline,包括特征怎么构造、模型怎么选、怎么验证。它针对的是"预测任务"这个完整闭环,而不是"生成一段代码"这个单点。
另一个关键区别是数据隐私。企业数据库里有用户手机号、交易金额,不可能直接发给OpenAI。Kumo的部署方式是本地或VPC(虚拟私有云),模型在客户环境里跑,数据不出境。这对金融、医疗、零售客户是硬门槛。
谁在用,用得怎么样
公开披露的客户包括Netflix、Pinterest、Lyft、DoorDash。这些公司的共性是:数据基础设施已经建得不错,但数据科学家永远不够用。
Netflix用Kumo做内容推荐相关的预测实验,Pinterest用在用户增长模型,Lyft用在供需预测。都不是核心生产系统一步到位,而是"让业务团队能自己跑更多实验"——把数据科学家的带宽释放出来,去做更复杂的建模。
Kumo自己公布的数据是:客户平均把预测模型的开发时间从4-6周缩短到1-2天。这个"4-6周"是硅谷大厂的基准,如果是中小公司数据团队不完善,原来可能根本做不起来。
竞争对手和潜在风险
这个赛道不是空的。Google的AutoML Tables、AWS的SageMaker Autopilot、Databricks的AutoML都在做类似的事。Kumo的差异化在于"自然语言交互"这层——别人是低代码,它是无代码。
风险也很明显。模型黑箱问题:业务方输入一句话,出来一个预测,中间怎么算的不知道。这在金融监管、医疗诊断场景会卡壳。Kumo的应对是提供可解释性报告,但"可解释"和"完全透明"是两回事。
另一个风险是数据质量。模型再强,垃圾进垃圾出。Kumo不解决数据清洗问题,它假设你的数仓已经建好了。这对很多公司是个假前提——他们买Kumo是想跳过数据工程,但Kumo说数据工程你得自己先搞定。
这件事真正的信号
Kumo的融资和落地,说明"AI for structured data"正在从学术概念变成可卖的产品。过去两年大模型的光环都在生成式AI——写文案、画图、写代码。但企业真正的数据资产在数据库里,结构化数据的AI化是更慢、更难、但可能更值钱的一条路。
对数据从业者来说,这不是"被替代"的警报,而是工具链的升级。就像Excel没干掉会计,而是让会计能处理更多账。Kumo这类工具的真正影响,可能是让"预测分析"从少数专家的特权,变成业务经理的常规操作。
如果预测模型的生产成本降到接近于零,企业的决策模式会变成什么样?哪些今天靠"经验拍脑袋"的事,明天会变成"模型算一算"——而这件事的边界,又会在哪里卡住?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.