AlphaEarth为观察和理解地球提供新途径|向量|追踪|数据源|知识库|客户端节点

AlphaEarth为观察和理解地球提供新途径

分享至

Source image: Christopher F. Brown, Michal R. Kazmierski, Valeria J. Pasquarella, et al.

来源：IEEE电气电子工程师学会

Google DeepMind已推出AI模型AlphaEarth Foundations，该模型将地球视作一个动态的 “活数据集”，可追踪作物生长周期、海岸线变化、城市扩张、冰川融化等诸多地理与环境动态。AlphaEarth能整合各类分散的数据源 —— 从卫星图像、传感器数据到带地理标记的维基百科条目，将其构建成一个统一的数字表征体系。科学家可通过探索这一体系，发掘在全球范围内逐渐显现的各类规律与模式。

2017年至 2024年间，AlphaEarth每年会为地球表面每一个10米×10米的区域生成一个64维“嵌入向量”（embedding），该向量既包含区域的原始图像信息，也涵盖了底层数据中隐含的关联特征。“嵌入向量”是对某一区域关键特征的密集数值概括，能让不同位置的特征具备直接可比性。这种方法在保留精细空间与时间细节的同时，将数据存储需求降低了16倍。总体而言，该系统每年生成的 “嵌入向量” 总量超过1.4万亿个。

这套涵盖全年地表状况的详细动态快照，将在多个领域展现重要价值，包括行星分析、城市规划、生态系统追踪、野生动物保护以及野火风险管理等。

地球的数字嵌入向量

构建该模型的一个关键挑战在于处理杂乱无章、广泛分布的地理空间数据本身。传统卫星会捕捉大量信息丰富的图像和测量数据，但这些数据很难相互关联并进行高效分析。

AlphaEarth Foundations团队告诉IEEE Spectrum杂志，地球观测中的一个局限是数据本身存在固有的不规则性和稀疏性。与连续的视频流不同，卫星数据是一系列断断续续的快照集合，由于持续云层覆盖等因素，数据常常存在空白。

为确保模型性能稳定，其训练过程需要广泛且丰富的训练数据支持：研究团队从Google Earth Engine公共数据目录中获取了覆盖全球超500万个地点的图像样本，数据类型涵盖光学图像、雷达数据、气候模型、地形图、激光雷达数据、重力场强度数据以及地表温度测量数据等。此外，为进一步丰富数据集，团队还纳入了关于地标及其他地理特征的维基百科条目内容。

这种数据多样性不仅让模型生成的表征更细致，同时又能保持足够的普适性，使其在不同地区、不同科学任务中都具备应用价值。例如在厄瓜多尔，借助嵌入向量，分析人员能够穿透持续存在的云层，清晰识别出处于不同生长阶段的农田地块。

Google DeepMind高级研究工程师Chris Brown表示：“我们的目标是将这些数据整合为统一的数字表征，为科学家呈现地球演化过程中更完整、连贯的图景。为此，我们必须处理好以PB（拍字节）为单位的多源、多分辨率图像及其他地理空间数据集。”

该团队首先需要搭建数据处理管道与建模基础设施，确保其能够支撑PB级规模的数据运算。Brown指出：“我们一方面优先考虑兼顾地理空间数据的细微差异，比如投影方式、传感器的独特属性以及数据采集策略；另一方面也确保模型本身及其输出结果具备稳定性，能广泛适用于各类不同应用场景。”

Christopher F. Brown, Michal R. Kazmierski, Valeria J. Pasquarella, et al.

研究团队强调，AlphaEarth并非生成式模型，而是一个自监督学习框架，其设计目的是为现有数据中的规律模式提供简洁的总结。为减少训练偏差，团队采用了分层抽样的方法 —— 通过在数百万个地点的数据上训练模型，确保不同地理区域和生态系统的特征都能在训练过程中得到体现。

Google Earth Engine高级产品经理Emily Schechter表示，团队在多个时间段、多个任务场景下，将AlphaEarth与传统方法及其他AI绘图系统进行了基准测试，测试任务包括估算地表属性、追踪土地利用方式的长期变化等。谢克特指出，测试结果显示，即便在标记数据稀缺的情况下，AlphaEarth的性能也始终优于其他方案。

在7月底发布的一篇论文中，Google DeepMind报告称，与同类竞争方法相比，AlphaEarth的平均误差率低了23.9%（https://arxiv.org/html/2507.22291v1）。研究人员还指出，在不同数据集和任务中，“第二优基准方案” 的表现各不相同，这表明该领域此前的研究进展存在不稳定性；而反观AlphaEarth，即便在以往难度较高的绘图场景中，它也能实现稳定的性能提升。

该模型在数据分类方面也更为高效。当从Earth Engine中提取嵌入向量用于一组带标签的地点数据时，仅需为每个类别提供约150个样本，模型就能成功对87种作物类别及土地覆盖类型进行分类 —— 而这类任务通常需要数千个标签才能完成（https://medium.com/google-earth/ai-powered-pixels-introducing-googles-satellite-embedding-dataset-31744c1f4650）。在DeepMind探索的其他任务中，即便卫星覆盖不规律，AlphaEarth也能清晰呈现南极复杂的地形细节；同时，它还能捕捉到标准图像中未显示的加拿大农田细微变化。

Brown表示：“据我所知，就训练数据规模、模型上下文大小以及整合的数据模态而言，这是迄今为止同类研究中规模最大的一次尝试。这项技术拥有巨大的应用潜力，可在不同场景下以多种方式发挥作用…… 我们将继续与合作伙伴携手，探索让这项技术为人类创造最大价值的方法。”

地球科学的统一模型

尽管AlphaEarth Foundations与“数字孪生”（即现实环境的虚拟复制品）存在一定相似性，但它更偏向于作为一种“基础框架”，而非完整的数字孪生系统。通过将地球原始数据转化为灵活的公共数据格式，它能支持各类专业模型与分析工具在此基础上接入使用，无需每次都重新搭建数据处理管道。

该卫星嵌入向量数据集可通过Earth Engine Data Catalog获取，非商业用途可免费使用。过去一年，Google DeepMind已与全球超50家机构开展测试合作，目前已有多所大学及联合国粮食及农业组织（FAO）在使用该嵌入向量数据。

Google DeepMind; Google Earth Engine

Schechter还列举了相关应用案例，例如巴西非营利组织MapBiomas，该组织目前正利用该技术绘制亚马逊雨林的环境变化图谱；此外还有“全球生态系统图谱” 项目，该项目正借助这一技术将尚未分类的生态系统划分为灌丛、沙漠、湿地等不同类别。

除科研领域外，AlphaEarth Foundations还被整合到广泛使用的空间分析平台CARTO中，这使得保险公司、电信公司及其他用户都能便捷使用该模型 —— 他们可将嵌入向量数据接入自身现有工作流程，运行风险模型（例如识别环境特征与易发生野火区域相似的邮政编码区域），整个过程无需发起API请求，也无需额外存储数据（https://carto.com/blog/google-alphaearth-foundations-in-carto）。

阅读最新前沿科技趋势报告，请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“ 欧米伽未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.