Source image: Christopher F. Brown, Michal R. Kazmierski, Valeria J. Pasquarella, et al.
来源:IEEE电气电子工程师学会
Google DeepMind已推出AI模型AlphaEarth Foundations,该模型将地球视作一个动态的 “活数据集”,可追踪作物生长周期、海岸线变化、城市扩张、冰川融化等诸多地理与环境动态。AlphaEarth能整合各类分散的数据源 —— 从卫星图像、传感器数据到带地理标记的维基百科条目,将其构建成一个统一的数字表征体系。科学家可通过探索这一体系,发掘在全球范围内逐渐显现的各类规律与模式。
2017年至 2024年间,AlphaEarth每年会为地球表面每一个10米×10米的区域生成一个64维“嵌入向量”(embedding),该向量既包含区域的原始图像信息,也涵盖了底层数据中隐含的关联特征。“嵌入向量”是对某一区域关键特征的密集数值概括,能让不同位置的特征具备直接可比性。这种方法在保留精细空间与时间细节的同时,将数据存储需求降低了16倍。总体而言,该系统每年生成的 “嵌入向量” 总量超过1.4万亿个。
这套涵盖全年地表状况的详细动态快照,将在多个领域展现重要价值,包括行星分析、城市规划、生态系统追踪、野生动物保护以及野火风险管理等。
地球的数字嵌入向量
构建该模型的一个关键挑战在于处理杂乱无章、广泛分布的地理空间数据本身。传统卫星会捕捉大量信息丰富的图像和测量数据,但这些数据很难相互关联并进行高效分析。
AlphaEarth Foundations团队告诉IEEE Spectrum杂志,地球观测中的一个局限是数据本身存在固有的不规则性和稀疏性。与连续的视频流不同,卫星数据是一系列断断续续的快照集合,由于持续云层覆盖等因素,数据常常存在空白。
为确保模型性能稳定,其训练过程需要广泛且丰富的训练数据支持:研究团队从Google Earth Engine公共数据目录中获取了覆盖全球超500万个地点的图像样本,数据类型涵盖光学图像、雷达数据、气候模型、地形图、激光雷达数据、重力场强度数据以及地表温度测量数据等。此外,为进一步丰富数据集,团队还纳入了关于地标及其他地理特征的维基百科条目内容。
这种数据多样性不仅让模型生成的表征更细致,同时又能保持足够的普适性,使其在不同地区、不同科学任务中都具备应用价值。例如在厄瓜多尔,借助嵌入向量,分析人员能够穿透持续存在的云层,清晰识别出处于不同生长阶段的农田地块。
Google DeepMind高级研究工程师Chris Brown表示:“我们的目标是将这些数据整合为统一的数字表征,为科学家呈现地球演化过程中更完整、连贯的图景。为此,我们必须处理好以PB(拍字节)为单位的多源、多分辨率图像及其他地理空间数据集。”
该团队首先需要搭建数据处理管道与建模基础设施,确保其能够支撑PB级规模的数据运算。Brown指出:“我们一方面优先考虑兼顾地理空间数据的细微差异,比如投影方式、传感器的独特属性以及数据采集策略;另一方面也确保模型本身及其输出结果具备稳定性,能广泛适用于各类不同应用场景。”
Christopher F. Brown, Michal R. Kazmierski, Valeria J. Pasquarella, et al.
研究团队强调,AlphaEarth并非生成式模型,而是一个自监督学习框架,其设计目的是为现有数据中的规律模式提供简洁的总结。为减少训练偏差,团队采用了分层抽样的方法 —— 通过在数百万个地点的数据上训练模型,确保不同地理区域和生态系统的特征都能在训练过程中得到体现。
Google Earth Engine高级产品经理Emily Schechter表示,团队在多个时间段、多个任务场景下,将AlphaEarth与传统方法及其他AI绘图系统进行了基准测试,测试任务包括估算地表属性、追踪土地利用方式的长期变化等。谢克特指出,测试结果显示,即便在标记数据稀缺的情况下,AlphaEarth的性能也始终优于其他方案。
在7月底发布的一篇论文中,Google DeepMind报告称,与同类竞争方法相比,AlphaEarth的平均误差率低了23.9%(https://arxiv.org/html/2507.22291v1)。研究人员还指出,在不同数据集和任务中,“第二优基准方案” 的表现各不相同,这表明该领域此前的研究进展存在不稳定性;而反观AlphaEarth,即便在以往难度较高的绘图场景中,它也能实现稳定的性能提升。
该模型在数据分类方面也更为高效。当从Earth Engine中提取嵌入向量用于一组带标签的地点数据时,仅需为每个类别提供约150个样本,模型就能成功对87种作物类别及土地覆盖类型进行分类 —— 而这类任务通常需要数千个标签才能完成(https://medium.com/google-earth/ai-powered-pixels-introducing-googles-satellite-embedding-dataset-31744c1f4650)。在DeepMind探索的其他任务中,即便卫星覆盖不规律,AlphaEarth也能清晰呈现南极复杂的地形细节;同时,它还能捕捉到标准图像中未显示的加拿大农田细微变化。
Brown表示:“据我所知,就训练数据规模、模型上下文大小以及整合的数据模态而言,这是迄今为止同类研究中规模最大的一次尝试。这项技术拥有巨大的应用潜力,可在不同场景下以多种方式发挥作用…… 我们将继续与合作伙伴携手,探索让这项技术为人类创造最大价值的方法。”
地球科学的统一模型
尽管AlphaEarth Foundations与“数字孪生”(即现实环境的虚拟复制品)存在一定相似性,但它更偏向于作为一种“基础框架”,而非完整的数字孪生系统。通过将地球原始数据转化为灵活的公共数据格式,它能支持各类专业模型与分析工具在此基础上接入使用,无需每次都重新搭建数据处理管道。
该卫星嵌入向量数据集可通过Earth Engine Data Catalog获取,非商业用途可免费使用。过去一年,Google DeepMind已与全球超50家机构开展测试合作,目前已有多所大学及联合国粮食及农业组织(FAO)在使用该嵌入向量数据。
Google DeepMind; Google Earth Engine
Schechter还列举了相关应用案例,例如巴西非营利组织MapBiomas,该组织目前正利用该技术绘制亚马逊雨林的环境变化图谱;此外还有“全球生态系统图谱” 项目,该项目正借助这一技术将尚未分类的生态系统划分为灌丛、沙漠、湿地等不同类别。
除科研领域外,AlphaEarth Foundations还被整合到广泛使用的空间分析平台CARTO中,这使得保险公司、电信公司及其他用户都能便捷使用该模型 —— 他们可将嵌入向量数据接入自身现有工作流程,运行风险模型(例如识别环境特征与易发生野火区域相似的邮政编码区域),整个过程无需发起API请求,也无需额外存储数据(https://carto.com/blog/google-alphaearth-foundations-in-carto)。
阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”
https://wx.zsxq.com/group/454854145828
未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.