哈喽,大家好,今天小墨这篇评论,主要来分析下一代Lakehouse为何必走AI优先路,SQL时代要落幕了,数据分析圈正在经历一场颠覆性变革。
过去三十年,SQL主导的结构化数据处理模式撑起了行业发展,随着大模型技术爆发,这一格局正在被打破。
查询方式从精准SQL转向自然语言对话,传统Lakehouse早已难以适配。下一代Lakehouse,必须把AI放在核心位置,这不是选择而是必然。
![]()
现在很多企业都面临数据处理的两难困境。大数据团队守着Hive、传统Lakehouse等平台,用Parquet、ORC格式处理订单、交易等结构化数据,运转得还算顺畅。
![]()
这种割裂让业务推进举步维艰。比如直播电商场景中,业务方需要把商品点击率、成交转化率等结构化数据,和主播语音讲解、用户弹幕评论等非结构化数据关联分析,判断推荐是否精准。传统架构下,得先从数据库查结构化数据,再调用外部AI模型处理非结构化数据,跨系统调用延迟高、性能差,根本满足不了实时分析需求。
![]()
![]()
同时,其构建CPU/GPU异构计算架构,智能调度资源处理不同负载。结构化的云服务营收统计由CPU负责,非结构化的客户语音分析、合同条款提取等AI推理任务由GPU承接。
![]()
![]()
![]()
首先是统一多模态存储,这是基础。需要引入Lance等适配AI的存储引擎,打破结构化与非结构化数据的存储壁垒,让Lakehouse成为AI资产的统一底座,避免数据散落和冗余。
其次是In-Database AI,实现写入即处理、查询即分析。数据写入时,系统自动完成解析、分块、向量化转换,无需人工介入;查询时,用户不用导出数据到外部模型,直接在SQL中调用AI函数就能完成分析,比如过滤无意义评论、识别用户情感倾向。
最后是原生向量检索,把向量能力从外挂下沉到内核。结合关键词匹配与语义检索,满足合同关键条款搜索、以图搜图等高精度需求,同时内嵌知识图谱能力,挖掘数据间的隐藏关系。
![]()
从SQL到自然语言,数据分析的范式变革已不可逆转,AI优先不是下一代Lakehouse的加分项,而是必备项。只有全面拥抱AI,打破数据壁垒、强化核心能力,才能适配多模态时代的需求,释放数据的真正价值。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.