![]()
在生成式AI和Agentic AI席卷全球的2025年,数据基础设施正在经历一场“静悄悄的重构”。
在re:Invent现场,网易科技等与Mai-Lan Tomsen Bukovec展开深度对话。她是亚马逊云科技技术副总裁,掌舵数据与分析业务。
Mai-Lan的判断清晰直接。数据世界正在从“数据湖”走向“数据海”,而真正决定AI上限的,不再只是算力,而是能否以可负担的成本,让所有数据都被向量化、被理解、被使用。
她领导着以Amazon S3产品为主的全球技术和服务团队。资料显示,Amazon S3(Simple Storage Service)是亚马逊云科技提供的对象存储服务,用于在云端以几乎无限扩展的方式存储和访问各种数据,是全球应用最广泛的数据存储基础设施之一。
在对话开场,Mai-Lan 提及一个形象的比喻——“数据海”。她表示,索尼在今年大会上提出这个概念,是因为其业务早已深度建立在数据之上,从游戏到娱乐,所有业务都浸泡在数据里。
事实上,若要追溯传统数据存储的演进。最早是日志、图片、视频、PDF等非结构化数据,这也是最初的 Amazon S3典型场景。而大约五年前,表格数据快速增长,客户在对象存储之上开始构建数据湖仓一体架构,此时亚马逊云科技顺势推出 Amazon S3 Table,让其兼容 Iceberg 的各种分析引擎。在亚马逊云科技的体系中,Iceberg 已成为 S3数据湖的事实标准表格式,被广泛用于湖仓一体、实时分析和 AI 数据管道。
在Mai-Lan看来,这正是“数据湖扩展为数据海”的过程:各种结构化、半结构化与非结构化数据被统一沉淀在同一底层之上,并逐步被表结构和治理能力“重新组织”。
而真正把数据海洋推向新阶段的是向量化。
“向量是AI的语言。”Mai-Lan 强调。通过嵌入模型,无论源数据是表格、日志还是PDF,都可以被转化为向量。这个时候,机器不再只看文件名和标签,而是理解这段内容在语义上像什么。
据介绍,亚马逊云科技推出的Amazon S3向量存储,单个索引可以容纳2亿条向量;单一“向量桶”可以支撑数十万亿维度级别的向量数据;可以在百毫秒级响应时间内,完成语义检索和混合搜索;与专业向量数据库相比,成本最多可节省约90%。
Mai-Lan 用了一连串客户案例,解释这种变化的价值。
她告诉网易科技,宝马集团拥有约20PB 级别的数据链路,覆盖制造、工程、售后等多类数据。借助向量与 SQL 过滤结合的混合搜索,他们可以跨结构化表与文档,追问过去难以实现的问题,例如“找出上个月某车型在特定部件上的情况”。
再比如,社交与内容公司 mixi 希望为用户所有照片构建语义索引,让用户可以直接问:“帮我找出儿子和女儿一起的照片”,并进一步触发个性化打印推荐。这种场景过去几乎只能依赖人工打标签,如今通过向量可以在图像内容维度做相似性检索。
在 Mai-Lan 看来,这类案例背后的本质是,向量第一次让企业有能力,把“所有历史资产”而非“少数精选数据集”纳入 AI 视野。
然而,让数据“被看见”只是第一步,如何让大家“用得起”呢?
Mai-Lan 进一步介绍道,亚马逊云科技在Amazon S3上推行的智能分层(Intelligent-Tiering),本质上就是“自动化成本优化”,即,如果某类数据30天未被访问,自动下调价格;若90天未访问,进一步降价;客户无需手动迁移“冷数据”,只需把存储类设为智能分层即可。
她透露,自2019年起,这一机制已经为客户自动节省了超过60亿美元的存储成本。
而站在更长远的视角看,Mai-Lan认为,当数以百万计的Agents 7×24小时运行,真正的瓶颈不在模型,而在能否为它们提供一个低成本、可扩展、可长期记忆的超大规模数据层。这是“数据海的底座”,也是她和团队正在押注的方向。
(作者/定西)
本文来自网易科技报道,更多资讯和深度内容,关注我们。
