网易首页 > 网易号 > 正文 申请入驻

生成式AI破解地球密码:GeoGPT如何变革地学研究范式?

0
分享至

近年来,生成式 AI 在性能上实现了质的飞跃,但其在应用于科学研究方面仍面临挑战——科学问题的复杂程度远超 ChatGPT 等通用大模型的处理能力。

GeoGPT,一个为地球科学家量身定制的领域基础模型,于今年 4 月 27日正式面向全球开放使用。GeoGPT 受深时数字地球(DDE)国际大科学计划使命愿景启发,初始于云栖工程院,由之江实验室牵头,联合浙江深时数字地球国际研究中心等国内外 25 家机构、400 余名地学专家联合研发,为全球地学科研工作者提供新的工具和视角,推动地球科学研究范式变革。

目前,以开源基础模型为技术底座,GeoGPT 融合了深时地球数据与智能算法,具备文献解析与数据抽取、领域知识图谱构建、个性化知识助手、地质图识别与问答、科研创意生成等多项核心功能,并已实际应用于岩浆岩数据库构建与应用、古生物数据库构建与分类、地质图智能生成等多个专业场景。这不是简单的科研辅助工具,而是一场地学领域的研究范式的革命,有望推动科研范式从实际观察、实验驱动向计算密集、数据驱动和基于模型变革。

目前 GeoGPT 已正式开源上线,GeoGPT 的注册用户超过 4 万,覆盖 135个国家,其中国际用户比例超过 25%,获得了海外专家和学者的广泛认可。日前,GeoGPT 在瑞士日内瓦举办的 2025 年 AI for Good 全球峰会亮相并入选国际电信联盟(ITU)《人工智能向善创新实践案例集》(AI for Good Innovate for Impact uses cases),并获 ITU 颁发的优秀创新实践案例奖。

GeoGPT 支持国内外用户根据实际需求灵活选择基础模型架构,包括 Llama3、DeepSeek R1、Mixtral、Qwen2.5 以及之江实验室自主研发的 021 科学基础模型等。此外,研究团队自主研发了专门优化的推理模型 GeoGPT-R1-Preview,特别注重高效推理与落地部署能力。

之江实验室科学数据枢纽研究中心副主任陈红阳对 DeepTech 表示:“我们在开源模型基础上进行创新性解耦,既‘站在巨人的肩膀上’,又能够让 GeoGPT 兼具通用性与领域专业性。即便未来基础模型持续演进,GeoGPT 仍能保持快速迭代新版本的能力。”

特别值得注意的是,GeoGPT 所采用的方法论和技术框架具有可扩展性,可推广应用于天文学等其他学科领域。英国著名地质科学家 Mike Stephenson 教授对此评价道:“GeoGPT 为其他科学领域树立了标杆,它标志着地球科学率先构建了领域基础模型。”

破局者登场:GeoGPT 的“三维立体突破”

地球科学研究在应对气候变化、资源勘探和灾害防治等重大挑战中扮演着核心角色。然而,该领域的发展长期受困于三大核心挑战:数据多源异构且处理困难、海量长尾数据难以有效关联整合以及学科壁垒导致的知识融合障碍。突破这些瓶颈是推动地球科学智能化、协同化发展的关键。

为了有效地整合链接地学长尾数据,GeoGPT 团队通过知识图谱方法,从海量大模型数据训练库 Common Crawl 中提取地学相关内容,累积获取约 140B 的 token。另外,GeoGPT 在整个训练过程中尊重知识产权,筛选并只使用具有 CC BY 或 CC BY-NC 许可的公开获取论文,截至目前,模型已涵盖 15 家地学相关出版社、182 个出版物以及 28.8 万篇 OA 论文。

为确保数据质量,团队建立了一套严谨的数据生产流程,涵盖数据挖掘、PDF 解析、标注分析、质量筛选等关键环节,通过多维度优化最终产出大规模高质量专业语料。经对比验证,这些语料在专业性和质量指标上均显著优于 Fineweb、DCLM 等主流开源数据集。

研发团队还积极地与地学用户共建科研 Agent 和领域科研数据集,并鼓励科学家通过 GeoGPT 将工具与数据分享给全球用户,最大化实现地学长尾数据链接与共享。

在突破学科壁垒导致的知识融合障碍时,GeoGPT 以本体论为核心框架,引入知识图谱研究的新方法,通过人机协同的方式系统性地建设本体库、知识体系和知识图谱。同时专门开发了可视化、交互式的地学知识图谱构建与应用平台,旨在建立覆盖全面、权威可靠、语义统一的地学全领域知识图谱体系,实现专家知识(人-人)与机器理解(人-机)的双向对齐。

GeoGPT 的动态知识更新机制是其核心技术优势之一,该机制支持领域知识的实时更新与融合演进,不仅持续增强模型的专业能力,更为地学科研和产业应用提供了与时俱进的智能服务。

值得一提的是,系统在设计上特别注重保留不同学科方向对专业概念的差异化定义和内涵阐释,同时完整收录同一概念的所有学科别名,这一设计有效解决了长期困扰地学领域的概念歧义问题,为跨学科研究提供了可靠的知识基础。

从通用到专精,历经 7 次版本迭代

科学领域的模型是否具有通用性?为深入探究这一问题,之江实验室团队自 2023 年 7 月起着手研发 GeoGPT 地学领域 AI 模型,目前已成功完成 7 次重大版本迭代。

“回顾 GeoGPT 的发展历程,这其中既有技术上的决定,也有机制上的决定。团队在充分利用开源基础模型优势的基础上,创新性地构建了地学领域 AI 模型,并持续拓展其应用场景。”陈红阳表示。

在技术攻关方面,研究团队重点突破了以下关键难题:

针对灾难遗忘问题,团队通过系统性地尝试模型融合、模型架构扩展等方案,并结合多阶段渐进式训练策略与数据优化方法,最终实现了专业能力与通用性能的协同提升。

专业数据构建方面,团队开发了融合数据合成与增强技术的解决方案,通过模板微调与领域定向微调(结合强化学习)的双轨策略,不仅提升了模型推理能力,还建立了专业指令合成方法体系,最终构建了高质量的地学问答数据集和地学 RAG 受限数据集。

文档处理技术方面,团队重点优化了文档分割与切片算法。通过研发动态表格解析算法,结合布局特征识别与语义连贯性分析,实现了表格的智能重组与标题关联。同时开发的自适应切片策略,可根据文本密度和图表分布动态调整处理粒度,显著提升了文献解析的准确性。

数据抽取技术上,团队创新性地提出了“需求拆解-分层处理”框架。针对单一模型处理复杂需求时的性能局限,该框架将抽取任务分解为对象识别、属性提取、关系构建等子模块。此前需要一周完成的数据抽取任务,现在用 GeoGPT 不到 1 天就能高质量完成。值得注意的是,GeoGPT 在保持与顶尖商业软件相当解析精度的同时,将推理成本降低了 80%。

强化领域专业推理能力,团队通过系统分析地学教材、专著和科研成果,提炼专家解决问题的思维模式,并借助指令微调与强化学习技术将这些专业思维链注入 GeoGPT,使其逐步具备接近地学专家的复杂问题推理能力。

从开源到推动地学科研范式变革

基于 GeoGPT,之江实验室已与全球地学领域科学家展开深度合作,推动该技术在多个专业场景的实际应用。

其中,与中国地质科学院地质研究所研究员王涛教授团队的合作最具代表性,双方共同构建了从科学问题的提出、数据采集处理、插值计算分析、可视化呈现到研究图件的生成的全链条智能化科研工作流,显著提升了岩浆岩时空物源演化、深部物质演变、大陆地壳生长等方面研究效率。在这一过程中,GeoGPT 作为核心智能中枢发挥了关键的“科研流程串联者”作用。

GeoGPT 希望未来能够将科研全流程各环节的产出——包括科学假设、处理后的数据、可视化呈现的内容等有机融合,自动生成结构完整、论证严谨的研究报告,以帮助科研工作者实现更高质量的科研工作。

陈红阳说道:“这一目标的实现需要多项关键技术的协同创新,包括自然语言理解、科研需求解析、大数据处理与分析等技术的深度融合,只有通过系统化的技术集成,才能真正实现科研全流程的无缝衔接和智能化。”

另一个典型应用案例是,与美国普渡大学 James Ogg 教授团队合作,共同攻克了全球权威巨著《无脊椎动物专著》(Treatise on Invertebrate Paleontology)的数据化难题。这部涵盖 50 卷、10 万化石属的“数据金矿”,因纸质载体限制和复杂数据结构长期无法被有效利用。研究团队创新性地提出了“AI 批量抽取+专家验证+模型迭代”的协同技术路线:GeoGPT 团队负责研发核心的自动化数据抽取引擎,实现了化石属名、地质年代、生物地理分布等关键信息的结构化转换;Ogg 教授团队则主导数据标准制定、结果验证及可交互数据库(treatise.geolex.org)的构建。

通过这种产学研深度融合的模式,团队仅用 4 个月便完成了 3 卷数千化石属的精准提取,时间成本降低 75%。Ogg 教授高度评价这一成果:“GeoGPT 突破了 Treatise 的数据化瓶颈,将过去视为‘不可能’的化石大数据工程变为现实。”基于当前成果,团队正规划将技术拓展至生物演化树等更高维度的图表数据挖掘领域,进一步推动古生物学研究的数字化转型。

“我们的科学合作案例摸索出来的经验表明:AI+地学,不仅是技术上的融合,更是体制机制的创新融合。地学专家与计算机领域专家需要坐到一起深入交流,融合成一个团队,对齐话语体系,才能更深入地理解关键问题。只有当学科边界被 AI 重新定义为协作界面时,才能催生出具有学科穿透力的领域基础模型。”陈红阳说道。

当前,生成式 AI 技术正在全球科研领域引发革命性变革,GeoGPT 有望从两个维度推动地球科学研究范式变革:

在研究效率层面,GeoGPT 通过集成化的智能能力显著提升文献研读、数据提取与处理、知识库构建及科研写作等环节的效率与质量;在研究创新层面,系统凭借其强大的逻辑推理与知识关联能力,可辅助科研人员提出创新性假设,并进行系统性科学验证,从而拓展人类对地球系统的认知边界。

从大模型技术发展趋势来看,地球系统模拟被视为解决诸多关键科学问题的“金钥匙”,但核心挑战在于如何从多维度、多尺度的海量观测数据中抽取出系统运行的基本原理。只有当这些原理模型既符合现实观测又具备足够的完备性时,才能真正建立起可靠的地球系统模拟。

当前,地球系统模拟的发展呈现双轨并进态势:一方面,全球地学科学家通过大气物理、地质化学等特定领域的机理研究,持续完善地球系统的原理模型,这一自下而上的路径依赖持续的理论突破;另一方面,之江实验室开创性地采用 GeoGPT 多模态架构,通过融合地震、勘探等跨尺度传感器数据,构建数据驱动的实时分析系统。尽管 GeoGPT 展现出了显著的增强潜力,但要实现与传统原理模型的无缝协同,仍需攻克多源数据融合、物理规则嵌入等关键技术瓶颈。

参考资料:

国内站:

https://geogpt.zero2x.org.cn

国际站:

https://geogpt.zero2x.org

开源链接:

https://github.com/GeoGPT-Research-Project

https://huggingface.co/GeoGPT-Research-Project https://modelscope.cn/profile/GeoGPT

GeoGPT 用户手册:

https://zjlab-geogpt.yuque.com/hxsbwb/kw6ett/im86f1mpe25b1gca#ev5MP

岩浆岩数据库 OnePetrology

https://dde.igeodata.org/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
小毛打酱油 浙江双煞快废了!于金永该让位姚浩洋 依木兰眼神太狠

小毛打酱油 浙江双煞快废了!于金永该让位姚浩洋 依木兰眼神太狠

刀锋体育
2026-03-26 10:43:52
巴拿马籍船在华被查44艘,滞留暴涨3倍,船东日亏数十万

巴拿马籍船在华被查44艘,滞留暴涨3倍,船东日亏数十万

观察者海风
2026-03-25 23:03:11
张雪峰离世!北京苏州房产不在名下,1400名员工等安抚,好友停工

张雪峰离世!北京苏州房产不在名下,1400名员工等安抚,好友停工

大中国
2026-03-26 13:30:16
张雪峰猝死事件发酵!网传内蒙一公司老板开会,出资全员急救培训

张雪峰猝死事件发酵!网传内蒙一公司老板开会,出资全员急救培训

火山詩话
2026-03-26 10:42:17
巴西记者:等到有扑克牌世界杯的时候,内马尔就能入选巴西队

巴西记者:等到有扑克牌世界杯的时候,内马尔就能入选巴西队

懂球帝
2026-03-26 12:27:11
杨瀚森带不动CBA队友,混音输给马刺,数据显示中国新星不用背锅

杨瀚森带不动CBA队友,混音输给马刺,数据显示中国新星不用背锅

姜大叔侃球
2026-03-26 10:42:36
巴斯夫(广东)一体化基地全面投产,黄坤明等中外嘉宾共同启动

巴斯夫(广东)一体化基地全面投产,黄坤明等中外嘉宾共同启动

广东发布
2026-03-26 10:57:43
北京今日傍晚北风渐起,周末有弱降水

北京今日傍晚北风渐起,周末有弱降水

北青网-北京青年报
2026-03-26 13:27:04
女孩当小姐,一晚要提供4到5次上门服务,被亲人点到不赴约

女孩当小姐,一晚要提供4到5次上门服务,被亲人点到不赴约

情感艺术家
2026-02-26 10:48:00
美军第82空降师3000人出兵,危急时刻,伊朗特种兵亮剑56冲和FPV

美军第82空降师3000人出兵,危急时刻,伊朗特种兵亮剑56冲和FPV

军机Talk
2026-03-25 17:17:57
美军发布战果,摧毁中国产战机,伊朗空军损失殆尽

美军发布战果,摧毁中国产战机,伊朗空军损失殆尽

爱吃醋的猫咪
2026-03-22 22:29:08
老师穿短裙蕾丝袜上课,学生连头都不敢抬!老师穿衣底线到底在哪

老师穿短裙蕾丝袜上课,学生连头都不敢抬!老师穿衣底线到底在哪

小羽叨叨叨
2026-03-26 13:24:34
清算终于开始了!一个要求,震动东京:中国要求日本限期内归还

清算终于开始了!一个要求,震动东京:中国要求日本限期内归还

壹知眠羊
2026-01-28 22:03:28
冯巩在人民日报撰文

冯巩在人民日报撰文

草莓解说体育
2026-03-26 14:13:16
逃难的林冲杀了收留他的王伦,这样的人进不了任何人的圈子

逃难的林冲杀了收留他的王伦,这样的人进不了任何人的圈子

凉湫瑾言
2026-03-23 13:29:51
戏都没演明白还当评委,自己都没拿过奖,坐在评审团位置不心虚吗

戏都没演明白还当评委,自己都没拿过奖,坐在评审团位置不心虚吗

娱乐圈笔娱君
2026-03-25 10:46:06
养生|大便后你用几张纸?用纸量判断你的身体情况

养生|大便后你用几张纸?用纸量判断你的身体情况

A活着
2026-03-24 19:25:23
贾马尔-穆雷生涯第4次单场得分50+,掘金队史仅次于约基奇

贾马尔-穆雷生涯第4次单场得分50+,掘金队史仅次于约基奇

懂球帝
2026-03-26 13:21:12
首次全流程展示!国产无人机蜂群作战系统震撼亮相

首次全流程展示!国产无人机蜂群作战系统震撼亮相

环球网资讯
2026-03-25 14:26:17
第81轮反击来了!飞弹直击以军集结地

第81轮反击来了!飞弹直击以军集结地

星火聊天下
2026-03-26 07:27:33
2026-03-26 14:52:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16487文章数 514797关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
亲子
时尚
艺术
军事航空

教育要闻

高考地理中的花海经济

亲子要闻

躺平的孩子意外觉醒了,在父母学会当“乌龟”!

2026年了,最好看的还是“这件针织”!

艺术要闻

哪一座桥不是风景?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版