1. 嗨,各位朋友好,我是小玖,今天想和大家深入探讨一个正在重塑企业数字化进程的关键议题——数据分析底层架构的全面革新。
2. 回顾过去三十年,主流的数据分析模式始终围绕表格型结构化数据展开。从早期的分布式计算框架演进到如今广泛采用的存算分离架构,OLAP引擎在提升查询效率、支撑复杂分析方面发挥了重要作用,助力众多企业实现了初步的数据驱动转型。
![]()
3. 可如今形势已发生根本性转变,大模型技术的迅猛崛起彻底颠覆了传统范式,整个数据生态的运行逻辑正在被重新定义。
![]()
破局核心:打通数据与AI的割裂壁垒
4. 行业已有明确趋势指出,在未来五年内,非结构化数据如文本、图像、音频、视频等,将占据企业数据资产总量的八成以上。
5. 这一变化释放出强烈信号:企业所掌握的“数据金矿”正从规整的行列形式转向多元混杂的形态。传统的SQL语句已难以满足日益复杂的交互需求,取而代之的是通过自然语言提问获取洞察、利用图片搜索相关内容的新常态。
6. 小玖认为,这并非一次普通的技术迭代,而是数据分析方法论的根本跃迁。面对这场深刻变革,企业必须主动应对,否则极易在智能化浪潮中掉队。
![]()
7. 当前许多组织面临一个严峻现实:大数据团队与人工智能团队长期处于隔离状态,形成物理空间与系统逻辑上的双重断层。
8. 一边是依赖Hive、Lakehouse平台的大数据工程师,专注于Parquet、ORC等列式格式下的结构化处理;另一边则是AI研发人员,在配备GPU的工作站上调试模型,数据散落在本地磁盘或临时存储中。
![]()
9. 此类割裂直接导致数据治理举步维艰,跨平台调用性能低下。例如要完成一项融合数据库信息与AI识别结果的联合分析,往往需要先提取原始记录再单独调用模型服务,流程繁琐且响应迟缓。
10. 更深层的问题在于,传统为结构化场景优化的数据存储机制,完全无法承载AI任务对异构数据的高弹性要求。
11. 小玖观察到,AI应用中的非结构化输入具有极强的字段波动性——某些字段可能仅含几个字节,而经过embedding编码后的向量维度可达数千甚至上万。现有以固定Schema为核心的存储设计对此类动态负载毫无适应能力。
12. 破解之道在于打造统一的多模态数据底座,实现结构化与非结构化数据的一体化管理与高效调度。
![]()
![]()
能力升级:让AI成为数据平台的“内置本能”
13. 在实现数据融合之后,更关键的任务是将AI能力深度嵌入数据平台的核心执行路径之中。
14. 小玖强调,有两个核心技术方向亟需突破。其一是向量检索功能必须下沉至查询引擎内核层。当前常见的外挂式向量数据库方案不仅造成数据冗余,还引入额外延迟,难以支撑高并发、低时延的精准匹配场景。
15. 下一代平台应原生集成向量索引能力,并支持关键词匹配与语义理解相结合的混合召回机制,配合粗粒度筛选与细粒度排序的双阶段策略,有效服务于合同条款比对、电商平台以图搜商品等高精度业务场景。
![]()
16. 其二便是In-Database AI能力的构建,真正实现“写入即智能处理,查询即实时分析”的闭环体验。
17. 在传统架构下,非结构化数据的ETL流程高度依赖外部脚本驱动,维护复杂、容错率低,极易产生新的信息孤岛。
18. 新一代系统应当把AI处理模块融入数据摄入链路,在文件上传的同时自动完成内容解析、段落切分、特征提取及向量化转换,使原始文档无需人工干预即可转化为可检索、可分析的标准数据资产。
![]()
![]()
未来适配:从支撑确定性查询到应对探索式执行
19. 随着AI Agent技术的广泛应用,用户与数据系统的互动方式正由“明确指令型查询”转向“开放式探索式执行”,这对底层基础设施提出了更高要求。
20. 同时,智能元数据管理体系的重要性日益凸显。Agent在生成查询计划前需频繁访问Schema信息以理解数据上下文,这就要求平台具备快速响应元数据请求的能力。
![]()
21. 而且,元数据本身不能再局限于表名、字段类型等基础描述,还需包含丰富的语义标签、使用场景说明以及质量评分等辅助信息,帮助Agent准确解读数据含义。
22. 毕竟,由Agent发起的查询通常带有模糊性和不确定性,平台必须能理解诸如“置信度高于80%”、“优先返回近期更新的结果”这类描述性约束条件,才能精准还原意图并返回可靠答案。
23. 展望更远未来,数据平台还需具备自我优化与持续进化的能力。
24. 系统可根据历史慢查询日志与数据增长模式,自主判断并创建物化视图进行预计算,全程对用户透明,显著缩短后续类似请求的响应时间。
25. 此类自动化优化机制不仅能持续提升整体性能表现,还能大幅降低运维复杂度与开发门槛,让更多业务人员轻松参与数据分析过程。
![]()
![]()
26. 综上所述,构建下一代AI优先的Lakehouse体系是一项系统级工程,其本质在于打破结构化与非结构化数据之间的藩篱,推动AI能力从外围应用层逐步下沉至平台内核层。
27. 对企业而言,这场转型已不再是可选项,而是关乎生存与竞争力的战略必答题。
28. 谁能率先建成集多模态存储、内嵌AI处理、智能元数据与自适应优化于一体的智能数据中枢,谁就能在未来以数据为核心驱动力的竞争格局中抢占制高点。
29. 信源来源:InfoQ 2026-01-0 从 SQL 到自然语言,下一代 Lakehouse 为何必须「AI 优先」
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.