老数据里挖新矿：科学家用AI复活被遗忘的实验|综述|论文

老数据里挖新矿：科学家用AI复活被遗忘的实验

2026-05-23 02:26:38　来源: 理性之光啊

北京举报

分享至

你有没有想过，那些躺在旧论文里的图表和表格，可能藏着下一个重大发现的钥匙？不是开玩笑——日本东北大学的一群研究人员正在干这件事。他们把几十年前的实验数据翻出来，用人工智能重新"读"了一遍，结果真的挖出了新东西。

这事听起来有点像考古，但挖的不是青铜器，是科学结论。

信息太多，反而看不见

现代科学研究有个尴尬的困境：数据爆炸，但洞察力稀缺。

东北大学先进材料研究机构（WPI-AIMR）的杰出教授李昊（Hao Li）说得很直白："现代科学产生的信息量压倒性地大，研究人员越来越难以从成千上万项研究中看到更大的图景。"

这话什么意思？打个比方：你走进一个图书馆，里面有几百万本书，每本书都讲了一个小小的真理。但没人知道这些真理拼起来是什么图案。你站在书堆里，反而更迷茫了。

化学和材料科学领域尤其如此。一个催化剂实验、一种固态电解质配方、一套氢储存方案——这些研究散落在不同年代、不同期刊、不同国家的论文里。它们彼此之间可能有关联，但人类的大脑和传统的文献检索工具，很难把这种跨时空的联系串起来。

AI当侦探，旧案新破

李昊团队的做法是：让AI去读这些旧论文，把数据结构化，再找隐藏模式。

他们在《Chemical Communications》期刊上发表的综述文章里，举了三个具体例子。

第一个例子是催化研究。

催化是化学工业的支柱，但设计新催化剂 traditionally 是个试错游戏——合成、测试、失败、调整、再试。数据驱动的方法改变了这个节奏：从旧实验里提取的规律，不仅能揭示新现象，还能暴露现有理论模型的盲区。结果是，材料设计和筛选的速度被大大加快。

简单说，以前是靠直觉和运气碰，现在是让算法先筛一遍，告诉你"这几条路可能走得通"。

第二个例子是固态电解质。

这是电池技术的核心战场。全固态电池被寄予厚望，但找到合适的电解质材料一直是个难题。AI在这里扮演的角色是"深度理解助手"——它帮助研究人员看清材料背后的物理机制，同时支持新电解质材料的发现。

注意这里的措辞：是"支持发现"，不是"自动发现"。AI提供的是线索和洞察，最终的判断和验证还是要靠人。

第三个例子最有未来感：氢储存。

研究团队展示了一条完整的链条：从旧数据出发，提炼成结构化知识，最终走向"自主材料设计"。数据驱动的方法正在重塑氢储存系统的发现和优化流程。

"自主设计"这个词听起来很科幻，但目前的现实是：AI可以提出候选方案，缩小搜索空间，但实验室里的合成和测试仍然是瓶颈。人机协作，而不是机器取代人，才是当下的真相。

数据库和AI代理：下一代科研的基础设施

这篇综述特别强调了两样东西的重要性：数据库建设，以及AI代理（AI agents）。

数据库好理解——把散落的旧数据整理成机器能读的格式，这是基础工程。但"AI代理"是什么？

你可以把它想象成一个不知疲倦的研究助理。它能自动检索文献、提取数据、识别模式、甚至提出假设。更重要的是，它能连接不同的知识节点：从旧实验数据，到理论模拟，再到实验验证，形成一个闭环的数字材料生态系统。

李昊描述了一个愿景：在这个生态系统里，材料发现会变得更快、更互联、 increasingly 由数字驱动。

注意这里的措辞是"envision"（设想），不是"已经实现"。这是科学家的诚实——他们在描述一个正在成型的未来，而不是已经落地的现实。

旧知识的新看法

这篇综述的核心论点，李昊总结得很清楚：

"科学发现不再仅仅由创造新数据驱动。不再依赖缓慢的试错方法，下一个突破可能来自用AI以全新的方式看待旧知识。"

这句话值得停下来想一想。

科学界有个默认的叙事：进步=新实验=新数据=新发现。但这个研究提示了另一种可能：进步也可以来自对已有知识的重新组织和新视角。那些被遗忘在旧论文里的图表，那些因为格式陈旧而难以检索的数据集，可能比我们想象的更有价值。

这不是说新实验不重要了。而是说，在新实验和旧数据之间，存在一个被低估的中间地带。AI的作用，是把这个地带照亮。

一切旧的，都能变成新的

研究人员在文章结尾写道：材料发现的未来，可能不仅取决于生成新数据，"而是取决于从数十年的现有知识中发掘隐藏洞察——这表明，在科学中，一切旧的都能再次变新"。

这句话有点诗意，但背后的逻辑很硬。

科学史上有不少"重新发现"的先例。孟德尔的遗传定律被忽视了几十年，直到被重新发现才改变生物学。板块构造理论的前身——大陆漂移说——也被冷落了半个世纪。这些不是旧数据被AI挖掘的案例，但它们说明同一个道理：知识的价值有时候取决于观看的视角，而不是知识本身的新旧。

今天的区别是，我们有了工具可以系统地、大规模地执行这种"视角转换"。AI不会疲倦，不会受学科壁垒的限制，不会被旧论文的排版格式吓退。它可以同时"阅读"成千上万篇论文，找出人类研究者难以察觉的跨领域联系。

但还有些问题没答案

说到这里，应该泼一点冷水。

这篇综述描绘了一个令人兴奋的图景，但它也留下了一些悬而未决的问题。

比如，旧数据的质量参差不齐。几十年前的实验条件、测量标准、报告规范，都和今天不同。AI在挖掘模式的时候，怎么区分"真正的科学规律"和"实验误差造成的假象"？

再比如，知识产权和学术伦理。如果AI从旧论文里"读"出了新发现，这个发现的功劳算谁的？原始实验者？AI开发者？还是使用AI的研究团队？

还有更实际的：数据库建设需要巨大的投入，谁来出钱？谁来维护？不同实验室、不同国家之间的数据壁垒，怎么打破？

这些问题，综述里没有给出答案。也许答案本身也需要时间，需要更多"旧数据的新挖掘"才能浮现。

一个可以想想的尾巴

读完整篇综述，我想到一个有点荒诞的画面：未来的某个博士生，坐在电脑前，让AI代理去扫描20年前的某篇冷门论文。AI突然弹出提示："注意：图3的异常数据点，结合2023年发表的某篇理论计算，可能暗示一种未被识别的材料相变。"

博士生揉揉眼睛，去实验室验证。三个月后，一篇新论文发表，引用了那篇20年前的旧作。

原作者可能早已退休，不知道自己的数据被重新激活。但科学的链条，就这样悄悄接上了。

这不是科幻。按照李昊团队的说法，这种场景正在催化、电池材料、氢储存等领域变成现实。程度不同，但方向明确。

所以，下次你看到一篇"过时"的科学论文，也许可以多停留几秒。那些被遗忘的图表，那些无人问津的数据点，可能在等待一个AI侦探，把它们从沉睡中唤醒。

毕竟，在科学里，一切旧的，都能再次变新——只要你懂得怎么问问题。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

汽车要闻

手机 / 数码

房产 / 家居

老数据里挖新矿：科学家用AI复活被遗忘的实验

韬定律：全球在卷纳米数 华为换了一把尺子

258亩荠菜地遭数百人哄抢造成损失约70万 种植户发声

258亩荠菜地遭数百人哄抢造成损失约70万 种植户发声

这群老阿姨，是最硬核的马刺球迷

小S晒归宁宴旧照，大S穿吊带裙扎丸子头

ST岩石退市背后：A股“炒壳”时代终结

极狐问道V9今日将正式上市 搭载华为雪鸮增程系统

态度原创

用剪纸的方式，打开江苏扬州

非洲Q1排名：传音持续称王，小米第三，荣耀第四

暑期入境游订单涨超两成 这个夏天外国人不再满足于“到此一游”

特朗普称要和赖清德谈军售 国台办回应

韬定律：全球在卷纳米数华为换了一把尺子

258亩荠菜地遭数百人哄抢造成损失约70万种植户发声

258亩荠菜地遭数百人哄抢造成损失约70万种植户发声

极狐问道V9今日将正式上市搭载华为雪鸮增程系统

暑期入境游订单涨超两成这个夏天外国人不再满足于“到此一游”

特朗普称要和赖清德谈军售国台办回应