网易首页 > 网易号 > 正文 申请入驻

从 SQL 到自然语言,下一代湖仓为何必须 AI 优先

0
分享至

作者|陈鹏,镜舟科技 技术副总裁

过去三十年,OLAP 引擎的发展核心始终围绕结构化数据的处理与分析,当然也取得了显著的进步,比如分布式架构、存算分离及 cloud native、查询性能大幅提升等。然而,随着大模型(LLM)技术的爆发,数据分析的范式正在发生根本性重构。行业预测显示,未来五年内,非结构化数据(文本、图像、音视频等)在企业数据资产中的占比将达到 80%。未来的数据形态将趋于多模态,分析需求将更加复杂,查询方式也将从单一的 SQL 转向自然语言与多模态混合检索。因此,我们需要在现代大数据分析平台基础上,全面拥抱 AI,构建下一代AI-First Lakehouse。

一、基础设施演进:异构融合的存储与计算层

1. 存储层统一:管理多模态数据

目前大数据体系与 AI 体系存在严重的物理与逻辑割裂。

大数据团队习惯维护基于 Hive、OLAP、Lakehouse 等大数据平台来处理分析结构化数据,也诞生出业界主流的存储格式如 Parquet、ORC 等,能很好的支持结构化数据分析需求。而AI 团队习惯在单机服务器或配备独立显卡的个人电脑(Laptop)上开发调试,数据以本地文件形式散落。

这种割裂导致数据无法统一存储,治理困难,且跨系统调用的性能极低,需先查数据库再调 AI 模型。但大数据时代的存储格式如 Parquet 的 Row Group 设计专为结构化数据优化,不再适配 AI 场景,AI 场景非结构化数据异构特性明显,同一批数据里,部分字段内容小,部分 embedding 后的字段会很大。

为此,可以考虑引入如 Lance 等专为 AI 设计的存储引擎,支持对文本、图像、视频等多模态数据的高效索引与存取。以实现统一管理分散在各处的非结构化数据,使得 Lakehouse 不仅是数据存储库,更是 AI 资产的统一底座。



2. CPU/GPU异构计算统一调度

传统 OLAP 依赖 CPU 进行聚合、排序与过滤,而 AI 负载(如 Embedding 生成、非结构化数据解析、模型推理)高度依赖 GPU 资源。

计算引擎需从单一的 CPU 架构向 CPU/GPU 异构架构演进。系统应具备智能调度能力,根据任务类型自动分配计算资源,实现结构化查询与非结构化推理的混合执行。

典型场景:直播电商实时分析

单场直播会上架数十至上百个商品,每个商品展示时长仅 1-2 分钟。系统需同时处理两类数据:

  • 结构化计算(CPU):五维四率数据(曝光进房率、商品曝光率、商品点击率、成交转化率)等实时指标;
  • 非结构化计算(GPU):主播语音讲解分析、主播商品展示视频分析、助播互动表现、用户弹幕评论分析

业务方需要将“点击率”与“主播当时说了什么/做了什么”进行关联分析,以判断推荐是否精准,以及多种因素对成单的影响。这要求计算引擎具备异构资源管理能力,能够灵活调度 CPU 处理统计指标,调度 GPU 处理特征提取与推理,实现多模态数据的实时融合计算。

二、内核能力构建:AI 原生的查询与 In-Database 推理

1. 原生向量检索,从外挂到内核的能力下沉

简单的语义检索已无法满足高精度的业务需求,且外挂式的向量库方案会导致数据冗余与延迟,向量能力已经是多模态处理的必备项(Must-have)。同时引擎内核需要原生支持混合检索,并具备混合召回能力,结合关键词匹配(通过倒排索引实现)与语义检索(通过向量检索实现),通过粗排与精排的组合策略,满足如“搜合同关键条款”、“电商以图搜图”、“在线教育以图搜题”等高精度业务需求。

更进一步,随着越来越多不同类型、不同领域、不同维度的数据摄入 Lakehouse,内嵌知识图谱搜索能力也变得越来越重要,以便高效快捷的挖掘数据之间的关系。

2. In-Database AI ,写入即处理,查询即分析

(1)写入时处理

传统架构中,非结构化数据的 ETL 依赖外部脚本或独立工具链,维护成本高且容易形成数据孤岛。下一代系统应将 AI 能力内置于写入路径,系统自动调用内核级的解析(Parse)、分块(Chunking)、向量化(Embedding),实现从原始非结构化文件到可查询数据资产的自动化转换,无需人工深度介入即可完成打标与关联。

(2)查询时推理

将 LLM 能力内嵌至数据库内核,实现“查询即分析”。用户无需将数据导出至外部模型处理,而是直接在 SQL 中调用 AI 函数。

还是以直播评论分析为例,系统应能直接通过 SQL 调用内置 AI 能力,对海量弹幕进行情感分析,如:

  • 自动过滤“扣 1”、“扣 2”等无意义评论;
  • 识别具有购买意向的负面/正面反馈,甚至触发内置 Chatbot 进行自动回复。

相比调用外部 API,内置推理可利用本地数据过滤机制,仅对筛选后的高价值数据进行推理,大幅降低延迟与成本,并提升吞吐量。



将 AI 能力贯穿写入和查询全流程,让数据处理成为数据库的内置本能。这种架构下,数据从接入到分析的每个环节都被 AI 增强,消解了传统“先存储、后处理”模式的滞后性,使数据在落盘时即具备智能检索和分析能力。

三、面向 Agent 架构适配:从确定性查询到探索式执行

随着 AI Agent 应用的普及,数据交互模式将从“确定性查询”转向“探索式执行”。Agent 具有多轮推理、自我修正及高并发的特点,这对底层系统提出了新要求:

1. 极致弹性与高并发

Agent 通过多轮推理、自我修正来完成任务,且存在 Multi-Agent 场景,这将导致会产生海量、突发性的查询请求。系统需要具备毫秒级的弹性伸缩能力,支持多路 Agent 并发协作,来实现计算资源的即用即取与成本隔离。

2. 高效智能元数据管理

Agent 会频繁探索数据的 Schema 信息以理解数据结构,系统需提供高性能元数据管理服务,快速响应 Schema 查询。同时在查询元数据时除了常规的库表结构信息外,还应包含丰富的语义数据。

另外,不同于精确的 SQL,Agent 生成的查询往往很模糊。执行引擎需要支持描述性约束信息(例如,Agent 指令包含“精度要求>80%”或“查询超时<2 秒”),可以根据约束动态调整策略,允许在精度与资源消耗之间做权衡,而非僵硬地执行全量扫描。

四、平台自治:AI 反哺系统的自我进化

在基础层、内核层、以及架构层升级后,还可以思考进一步利用 AI 技术反哺 Lakehouse 自身的鲁棒性与性能。

学习最佳实践:系统应自动学习内部海量日志中的 Best Practice,将其内化为引擎的管理能力。

智能故障排查:利用 AI 自动定位数据库运行中的隐性问题,替代人工排查。

智能物化视图(Auto-MV)加速洞察

目前的物化视图依赖业务方手动创建,门槛较高。未来系统将结合慢查询分析与数据量特征,自动识别性能瓶颈,同时,学习用户的查询行为,自动创建并维护物化视图,从底层透明地加速查询响应,无需用户感知。

流畅开发:避免复杂的UDF依赖

对于复杂的业务逻辑与非结构化数据处理,不应强行依赖传统的 UDF,而应通过上述的内核级 AI 能力与开放接口来解决,提供更流畅的开发体验。

结语

下一代 AI-first Lakehouse 的构建是一个系统性工程,需要从数据处理、存储引擎、计算架构、Agent 支持以及平台生态进行全方位升级。核心目标是打破结构化与非结构化数据的壁垒,将 AI 能力从应用层下沉至内核层,构建真正面向 AI 时代的新一代数据平台。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
蒋孝严带着儿子蒋万安去给他的奶奶上坟,蒋万安手里还拿着黄纸

蒋孝严带着儿子蒋万安去给他的奶奶上坟,蒋万安手里还拿着黄纸

大江
2026-01-08 14:50:15
独生女不愿接班,天津老板套现7.2亿,把家族产业卖给了安徽国资

独生女不愿接班,天津老板套现7.2亿,把家族产业卖给了安徽国资

素衣读史
2025-12-23 17:03:03
外交部:无论委内瑞拉政局如何变化,中方深化两国各领域务实合作意愿不会改变

外交部:无论委内瑞拉政局如何变化,中方深化两国各领域务实合作意愿不会改变

新京报政事儿
2026-01-09 15:32:35
降维打击?芬兰公司宣布固态电池进入量产,成本比普通锂电池还低

降维打击?芬兰公司宣布固态电池进入量产,成本比普通锂电池还低

小柱解说游戏
2026-01-07 02:12:43
纵览原创|东莞市卫健局回应“男子称被4家医院误诊癌症”:将进行调查核实;当事男子回应“不是博流量,愿接受任何公平公正的调查”

纵览原创|东莞市卫健局回应“男子称被4家医院误诊癌症”:将进行调查核实;当事男子回应“不是博流量,愿接受任何公平公正的调查”

纵览新闻
2026-01-09 17:44:03
“北京最难约的自助,69元任吃!”

“北京最难约的自助,69元任吃!”

北京吃货小分队
2026-01-08 11:47:31
“牡丹花下死,做鬼也风流”,这一次,74岁的张纪中彻底成了笑话

“牡丹花下死,做鬼也风流”,这一次,74岁的张纪中彻底成了笑话

洲洲影视娱评
2025-12-08 19:52:00
《家庭的觉醒》:一个家要往上走,最靠谱的20条建议

《家庭的觉醒》:一个家要往上走,最靠谱的20条建议

洞见
2026-01-08 21:27:06
天呢!烫码?没想到香烟买卖会垄断到如此程度,难怪这么暴利…

天呢!烫码?没想到香烟买卖会垄断到如此程度,难怪这么暴利…

慧翔百科
2026-01-07 09:07:26
梁静茹微博突设不可见,身材发福成导火索,自我疗愈能否重拾勇气

梁静茹微博突设不可见,身材发福成导火索,自我疗愈能否重拾勇气

明星爆料客
2026-01-09 17:18:19
刘晓庆担心的事发生了!意外摔倒、分不清人,75岁不服老不行了?

刘晓庆担心的事发生了!意外摔倒、分不清人,75岁不服老不行了?

楠楠自语
2025-12-03 15:57:03
亚运冠军举报训练基地负责人“索要奖金”续:云南体育局称“很快会有结论”

亚运冠军举报训练基地负责人“索要奖金”续:云南体育局称“很快会有结论”

澎湃新闻
2026-01-08 16:04:29
一光年有多远?为什么它会让科学家绝望,答案出乎你的意料

一光年有多远?为什么它会让科学家绝望,答案出乎你的意料

观察宇宙
2026-01-08 20:10:26
脆弱的头号种子:林诗栋险胜,是悬崖边的救赎还是光环下的裂痕?

脆弱的头号种子:林诗栋险胜,是悬崖边的救赎还是光环下的裂痕?

曹老师评球
2026-01-09 17:24:09
海港官宣冬窗首签!或连签4内援,刘祝润回归,官方:按计划推进

海港官宣冬窗首签!或连签4内援,刘祝润回归,官方:按计划推进

奥拜尔
2026-01-09 17:23:05
不可轻敌!武统台湾的难度远大于俄乌战争,毕竟我们比俄罗斯文明

不可轻敌!武统台湾的难度远大于俄乌战争,毕竟我们比俄罗斯文明

大道无形我有型
2025-09-01 15:02:03
胡明轩要交易?现身基地,曝胡明轩爸爸帮搬行李,谁注意杜锋表态

胡明轩要交易?现身基地,曝胡明轩爸爸帮搬行李,谁注意杜锋表态

乐聊球
2026-01-09 13:32:22
王石和田朴珺都挺尴尬的

王石和田朴珺都挺尴尬的

江湖人称艾掌门
2026-01-09 16:19:08
林强涉案989亿被抓!生活奢华超过中东富豪,超5万百姓血本无归

林强涉案989亿被抓!生活奢华超过中东富豪,超5万百姓血本无归

千言娱乐记
2025-12-27 20:07:06
山东一小学走标线列队入校,视频曝光后,全网吵翻了!

山东一小学走标线列队入校,视频曝光后,全网吵翻了!

眼光很亮
2026-01-09 01:11:52
2026-01-09 19:11:00
科技风行说
科技风行说
主要分享科技类文章
263文章数 1关注度
往期回顾 全部

科技要闻

市场偏爱MiniMax:开盘涨42%,市值超700亿

头条要闻

特朗普称美必须"拥有"整个格陵兰 英法德迅速统一战线

头条要闻

特朗普称美必须"拥有"整个格陵兰 英法德迅速统一战线

体育要闻

金元时代最后的外援,来中国8年了

娱乐要闻

关晓彤鹿晗风波后露面 不受影响状态佳

财经要闻

投资必看!瑞银李萌给出3大核心配置建议

汽车要闻

助跑三年的奇瑞 接下来是加速还是起跳?

态度原创

旅游
游戏
时尚
数码
艺术

旅游要闻

青春不设限,台儿庄古城有“饮”力!解锁年轻人的旅行新玩法

恶魔术有手就行?魔兽12.0术士三系重做曝光,将沦为新手友好职业

60+女性穿搭“高级感”秘诀:4个日常技巧,轻松美出优雅气质

数码要闻

RK推出大配列灯箱三模机械键盘K99,299元起

艺术要闻

Sean Yoro:街头艺术界的“冲浪高手”

无障碍浏览 进入关怀版