网易首页 > 网易号 > 正文 申请入驻

科研数据不再碎片化!一张可计算图,连起整个科研世界

0
分享至


新智元报道

编辑:LRST

【新智元导读】UIUC研究团队打造ResearchArcade,将ArXiv论文、OpenReview评审、图表代码等碎片数据连接成动态知识图谱。模型可直接学习引用关系、修改轨迹与审稿互动,让AI更好辅助科研写作、修订与预测,为下一代科研智能体奠定统一数据基础。

在学术科研的过程中,研究者需要面对形态各异的数据来源:我们从ArXiv获取最新论文以追踪学术前沿,从 OpenReview 的开放评审中学习 Rebuttal 的技巧……

随着科研人员越来越多地借助机器学习(如LLM、GNN等)来辅助各类研究任务,一个关键问题随之浮现:

「我们是否能建立一个统一的数据接口,来支持不同学术任务中机器学习模型的开发?」

解决这一问题,将为Specialized Research Agents的发展奠定基础,促进auto- research的实现,也让我们更进一步地迈向让AGI真正理解科研与知识的奥秘的新阶段。

近日,伊利诺伊大学厄巴纳–香槟分校(UIUC) Jiaxuan You教授团队发布了新作,提出了基于图结构的统一科研数据接口,收集并处理了形式各异的科研数据,以辅助不同机器学习模型在各种科研任务上的训练,展望利用AI高效辅助科研的未来。


论文链接:https://arxiv.org/pdf/2511.22036

研究动机

痛点一:数据分散在多个平台,科研语义被割裂

研究一篇文章时,我们常常:

  • 在ArXiv找相关论文(内容、图表、引用)

  • 在OpenReview看审稿意见、看rebuttal、看版本修改

  • 在GitHub或附录里找代码、找实验细节

  • 在DBLP/Google Scholar看作者与引用网络

平台和平台之间缺少统一的结构化连接。模型拿到的往往只是一段段拼接好的,很难对平台间的跨源关系做建模。

痛点二:图表/段落/引用这些「高价值结构」,长期被当作噪声处理

论文里最有信息密度的内容,经常不是摘要,而是:方法流程图、实验表格、ablation与结果对比、对于前人工作的引用。

但传统数据集与基准常常把这些「结构」压扁成纯文本,导致模型无法接触到「论文内部的组织逻辑」。

痛点三:科研是「演化过程」,但我们常把它当成「静态快照」

科研不是一次性写完的。尤其在顶会投稿场景里,论文会经历:reviewer评论、rebuttal、revision(多轮修改)

这些是「科研互动」和「论文进化」的核心信号,但在很多数据里它们要么缺失,要么只是散落文本。

ResearchArcade

将科研世界模拟成一张动态图

研究人员提出的ResearchArcade是一个基于图结构的数据接口,连接了多个学术数据源,统一了学术任务定义,并支持广泛的机器学习模型的训练。

ResearchArcade利用多表格格式以图的结构去组织来自不同来源的数据,包括ArXiv的学术语料库和OpenReview的同行评审,也储存多模态信息(如图形和表格)。

同时ResearchArcade还保留了论文自身前后修改的版本信息以及不同论文的发表时间,支持论文修订以及更广泛的研究趋势的研究。更重要地,表格管理数据的方式便于图的动态扩展,一个新的数据个体的加入和在对应表格中加一行是一样的,ResearchArcade支持每日的不断添加ArXiv上更新的文章。


具体而言,ResearchArcade有四个核心特征:

  • Multi-source:它把 ArXiv 与 OpenReview 关联在一起

  • Multimodality:它不只处理文字,还处理图片和表格

  • Heterogeneity:它用图结构保存异质的关系

  • Dynamic:它把时间与版本变化也存进来

它把数据组织成表格的形式,其中包括节点表(比如 paper/author/paragraph/figure/table/review/revision),和边表(比如 authorship、citation、paragraph-to-figure/table、review-to-revision 等),使得数据库到异构图的转换更加直接。

除此之外,我们还支持SQL,CSV,JSON格式的数据导入导出,这样既可以把它当作结构化数据库来使用,支持LLM的训练,也可以无缝转成异构图来训练 GNN 这样的图模型。

学术任务怎么统一定义?

「两步范式」很关键


ResearchArcade用两步把各式学术任务统一成同一个范式,便于任务的定义以及数据的调用:

  • Identify Target Entity(找目标实体):你要预测/生成的东西对应图里的哪个节点或边?

  • Retrieve Neighborhood(取邻域子图):围绕目标实体,取多跳邻域,形成一个任务输入子图

这件事看起来简单,但它直接解决了「每个科研任务都要重写数据管线」的经典问题。

以后你想加新任务,不需要推倒重来,只要

  • 换一个target(比如 review节点、revision节点、citation边)

  • 换一种neighborhood(取哪些关系、多大hops)

  • 换一种输出形式(分类/排序/生成)

任务就能在同一张图上跑起来。

规模与覆盖面

对于ArXiv部分,ResearchArcade收集了66,918篇ArXiv论文,跨11个科学领域,并进一步拆到更细粒度:

包含569,501个section、8,014,095个paragraph、876,636张figure、324,648个table,并且捕捉它们之间的连接关系 。

同时它支持持续爬取更新(可以按周/按日更新),保证数据实时更新,反应最新科研热点 。

对于OpenReview部分,它收集了OpenReview上来自ICLR, NeurIPS, ICML, and EMNLP来自189,038位作者的 57,278篇投稿,以及884,875 条review与 54,467次rebuttal/revision过程中的修改记录。除此之外,ResearchArcade把OpenReview投稿与对应的ArXiv论文按标题匹配相连接,最终有25,969篇(约45.34%)成功对齐 。

ResearchArcade到底能做什么?

ResearchArcade在论文里定义并实验了六个任务,覆盖预测与生成两大范式:


1)引用预测(Citation Prediction)

给定某段 paragraph 以及论文内部结构与已引用信息,让模型预测:这段话最应该引用哪篇论文。

2)段落生成(Paragraph Generation)

给定上下文段落、引用的图表、引用的文献等,让模型补全缺失段落内容。

3)修改定位(Revision Retrieval)

给定 reviewer 评论与原论文段落,让模型找出:哪些段落会被改、改在哪里。

4)修改生成(Revision Generation)

给定原段落 + reviewer 意见,让模型生成一个更好的 revised 段落。

5)录用预测(Acceptance Prediction)

把历史年份论文与其结构/模态信息作为训练信号,预测未来年份论文是否会被 accept。

6)Rebuttal生成(Rebuttal Generation)

给定 reviewer 评论、论文相关段落以及图表信息,让模型生成 rebuttal 回复。

同时,ResearchArcade 在论文中还列了一些「未来可扩展的新任务」,比如 idea generation、experiment planning、abstract writing、review generation 等(即覆盖科研流程更多阶段)(文中对「学术任务统一定义」的论证与扩展思路与此一致)。


如果把它放到「科研智能体」的语境里,你可以想象一个更完整的闭环:

读:快速理解论文结构(段落/图表/引用)

写:在结构约束下生成段落、补齐实验描述

改:把 reviewer 意见映射到具体修改点,生成 revision

回:生成 rebuttal,并引用论文内部证据与图表支持

荐:对引用、相关工作、对比基线给出结构化推荐

图结构真的有用吗?

有,而且是「稳定收益」


结论一:小模型训练后能逼近大模型,说明数据接口的质量很关键

论文里提到,在revision generation / rebuttal generation上,经过训练的小模型(如 Qwen3-0.6B)性能显著提升,并能接近更大模型表现,侧面验证了 ResearchArcade 的数据与任务定义是「可学习」的 。

结论二:它确实能建模「动态演化」,但趋势预测仍然难

revision retrieval / revision generation 展示了论文内演化建模的能力;而 acceptance prediction 最好 accuracy 也只有0.55,几乎接近随机,说明「预测科研趋势」本身就很难 。

结论三:图结构带来稳定增益,多跳邻域有时能明显提升

论文直接对比了「图模型 vs 非图模型」,在 revision retrieval 上观察到显著提升(文中给出 67% 的增益量级),在 acceptance prediction 上也有一定改善;并且多跳邻域(比如从 1-hop 扩到 3-hop)能让 acceptance prediction 的表现上升到 0.55,说明高阶上下文很重要 。

结语

ResearchArcade 试图做的不是再造一个「更大的数据集」,而是把科研过程中那些原本被分割、被压扁、被静态化的信息,重新组织成可连接、可追溯、可扩展的「计算对象」。

一旦数据接口具备了这种统一的结构表达,科研任务就不必各自为政:引用、写作、修改、回复、预测乃至更复杂的科研规划,都可以在同一套范式里被定义、被训练、被比较,也就为 Specialized Research Agents 的规模化演进,auto- research的系统化落地,以至于最终能够理解科研学术奥秘的AGI提供了更稳的地基。

科研世界的Arcade(游乐场)已经搭好,接下来就看我们能在这张图上玩出多少新东西了。

参考资料:

https://arxiv.org/pdf/2511.22036

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
CCTV5直播巴萨vs皇马:巴萨不败就夺冠 皇马内讧难阻死敌卫冕

CCTV5直播巴萨vs皇马:巴萨不败就夺冠 皇马内讧难阻死敌卫冕

智道足球
2026-05-10 10:50:48
7分5板2助!又一个塔克诞生,哈登说得对,阿特金森该让他首发了

7分5板2助!又一个塔克诞生,哈登说得对,阿特金森该让他首发了

画夕
2026-05-10 20:52:11
茶叶是血糖的“加速器”?医生忠告:不想血糖升高,少喝4种茶

茶叶是血糖的“加速器”?医生忠告:不想血糖升高,少喝4种茶

阿莱美食汇
2026-05-10 19:59:18
男人过了60岁,永远不要在女人面前,说这5句话

男人过了60岁,永远不要在女人面前,说这5句话

风起见你
2026-05-11 01:01:37
贺希宁:重回四强来之不易,三年前被浙江绝杀成就了今天的我们

贺希宁:重回四强来之不易,三年前被浙江绝杀成就了今天的我们

懂球帝
2026-05-10 23:29:40
消失的美嘉生私生子了

消失的美嘉生私生子了

毒舌扒姨太
2026-05-10 22:36:37
马云:王中军是我见过中国最懒的CEO

马云:王中军是我见过中国最懒的CEO

时事娱闻杂记
2026-05-09 19:45:15
有出息的孩子,童年都有信号:出现这3种表现说明父母养对了

有出息的孩子,童年都有信号:出现这3种表现说明父母养对了

木言观
2026-05-04 07:08:52
巴尔韦德:“他们在荒谬的情况下进球了”

巴尔韦德:“他们在荒谬的情况下进球了”

绿茵情报局
2026-05-11 01:22:37
阿尔特塔确认本·怀特伤退:情况不乐观

阿尔特塔确认本·怀特伤退:情况不乐观

绿茵狂热者
2026-05-11 04:01:33
斯洛特下课倒计时?罗马诺最新爆料,利物浦锁定传奇主帅

斯洛特下课倒计时?罗马诺最新爆料,利物浦锁定传奇主帅

澜归序
2026-05-11 03:02:04
乌克兰击沉里海舰队导弹舰!摧毁全俄最大的两座炼油厂

乌克兰击沉里海舰队导弹舰!摧毁全俄最大的两座炼油厂

项鹏飞
2026-05-08 19:30:06
“你要收费我就卸载”,全网最离不开的AI不装了,口碑大反转

“你要收费我就卸载”,全网最离不开的AI不装了,口碑大反转

果壳
2026-05-09 12:33:57
190元白嫖榴莲被刑拘后,女子再迎三大噩耗,恐将变刑事审判

190元白嫖榴莲被刑拘后,女子再迎三大噩耗,恐将变刑事审判

北纬的咖啡豆
2026-05-10 09:37:00
一旦装上心脏支架,还能活多少年?医生不再隐瞒,说出了实话

一旦装上心脏支架,还能活多少年?医生不再隐瞒,说出了实话

医学原创故事会
2026-05-01 23:20:56
云南一交管大队队长被举报在KTV违规饮酒与女子举止亲密,本人称喝的茶水,女子突然靠近我下意识推了她;官方:初步调查举报不实

云南一交管大队队长被举报在KTV违规饮酒与女子举止亲密,本人称喝的茶水,女子突然靠近我下意识推了她;官方:初步调查举报不实

大象新闻
2026-05-10 08:42:28
两分半钟全部售完!广州楼市“日光盘”出现

两分半钟全部售完!广州楼市“日光盘”出现

爱看剧的阿峰
2026-05-10 13:46:54
撒贝宁一家现身重庆!蹲地上给女儿拍照超宠爱,妻子李白长腿吸睛

撒贝宁一家现身重庆!蹲地上给女儿拍照超宠爱,妻子李白长腿吸睛

青梅侃史啊
2026-05-10 07:41:59
宝马新车提回家 引擎盖现一窝猫 4S店:检测洗车未发现 愿提供检查与关怀补偿

宝马新车提回家 引擎盖现一窝猫 4S店:检测洗车未发现 愿提供检查与关怀补偿

快科技
2026-05-09 20:16:11
算命先生坦言:头上有两个旋的孩子,多半是这种命,很准

算命先生坦言:头上有两个旋的孩子,多半是这种命,很准

青青会讲故事
2025-10-23 16:45:08
2026-05-11 04:48:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15178文章数 66858关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

特朗普看完伊朗回应发帖:不喜欢 完全不可接受

头条要闻

特朗普看完伊朗回应发帖:不喜欢 完全不可接受

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

赵露思老实人豁出去了 没舞蹈天赋硬跳

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

旅游
时尚
本地
数码
公开课

旅游要闻

北京“二绿地区”郊野公园焕新升级

真爱大牌|| 用了4年都不舍得换,终于把小贵的价格也磨下来了

本地新闻

用苏绣的方式,打开江西婺源

数码要闻

你昂贵的DDR5内存可能是假货:穿着三星的马甲 心里却是SK海力士

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版