网易首页 > 网易号 > 正文 申请入驻

研究人员打造带有AI同行评审的预印本平台,有望革新科学出版方式

0
分享至

在讨论 AGI 或者通用机器人定义时,人们往往会自然联想到一些直观的衡量标准,比如 AI 能否解出高考题、在国际数学奥林匹克(IMO,International Mathematical Olympiad)上获得金牌,或者机器人能否胜任家务。这些标准固然能体现“聪明”“适应性强”等能力,但却容易忽略一个更本质的维度——它能否在科学领域产出真正的新知识与重大突破?在加拿大多伦多大学博士生张鹏松和所在团队看来,评判超级智能的一个重要标准之一,是 AI 与机器人能不能推动科学边界前进、打破人类既有认知与物理界限。这正是该团队长期关注 AI Scientists 和 Robot Scientists 的出发点与动力[1]。


图 | 张鹏松(来源:张鹏松)

过去,科研进展受限于研究者的创造力、学术背景与有限时间。而近年的大模型与智能体进展,让 AI Agent以及机器人已能自动完成从提出研究设想、开展实验、到撰写论文等行为。比如日本公司 Sakana AI 提出的 The AI Scientist[2]、美国斯坦福大学教授 James Zou 团队的 The Virtual Lab[3]都已经非常好地验证了 AI 作为自主科学家的可行性。这些工作共同指向一个趋势:科学发现也将会迎来新的规模定律 Scaling Laws[1]。

然而,当前的学术出版生态难以承载这股浪潮,传统学术出版体系是为“人类作者 + 人工评审”的时代设计的,如今面对 AI 生成的海量研究,瓶颈集中在以下几方面:

其一,评审吞吐不足,传统期刊和会议依赖人工评审,效率低下,根本无法应对 AI 生成内容的规模。

其二,预印本缺少质量控制,预印本平台像arXiv虽然可以快速发布,但是缺少质量控制机制,无法保证成果的可信度。

其三,署名与规范的不确定性,不少学术场景对 AI 署名/贡献度仍存分歧,透明度与可追责性不足,抑制了人类与 AI 的深度协作,也影响成果的传播与采用。

其四,Proposal 早期生态缺位,现有平台不支持研究提案(Research Proposal)的结构化交流与迭代。这使得“idea 层面的共创与筛选”缺乏公共空间与思想碰撞,错失了大量原本能在萌芽期快速试错与放大的机会。

其五,AI 评审的安全与对齐问题, 基于大模型的评审会遭遇提示词注入(prompt injection)等攻击与操纵风险;同时还存在证据对齐不足、基线不一致等问题。若不治理,这些风险会侵蚀评审公正性与可用性。

其六,跨主体协作缺少统一环境,未来科研一定是 Human-AI 与 AI-AI 的多智能体协同。但当前缺少一个统一、开放、可扩展的“科研环境”,如能打造出来那将既能让不同类型的 Agent(作者、审稿、导师、委员会、实验、传播)以标准化接口接入,又能对质量、溯源、版本进行全程管理。


(来源:arXiv:2508.15126)


图 | aiXiv Platform Overview(来源:arXiv:2508.15126)

基于上述原因,本次团队提出并实现了 aiXiv,其表示这是全球首个面向 AI Scientists、Robot Scientists所产出的Research Proposal和Paper,同时也是一个带有 AI 同行评审与返修环节的 Open Access 预印本平台和 AI Agetns 科研社区环境。目标是为 AI 科学家、机器人科学家以及人类研究者共同建立一个全新的科研生态,打破当下分散、封闭的格局,构建覆盖提交-评审-返修-发布的完整科研与迭代流程。通过开放接口,人类研究者与各种科研智能体都能便捷接入,在同一平台上展开协作。


图 | aiXiv网站demo展示(来源:arXiv:2508.15126)

在机制设计上,aiXiv 引入了结构化、多阶段的评审机制,让 Proposal 和 Paper 能够在迭代中持续改进;同时,版本化发布和可溯源的质量轨迹,让科研成果的提升可以被真实验证。多模型投票机制避免了单一模型偏见,提升了结论的公平性和可靠性。

在安全与对齐方面,研究团队在评审环节中加入检索增强,使评审意见与真实文献对齐;并构建多层次的提示词注入检测与防御机制,抵御隐蔽操纵,确保评审过程的公正与可信。实验表明,在论文的 Pairwise 评审任务中,大模型的准确率可达 81%,验证了其具备真实的学术判断能力。这意味着大模型不仅能够生成科研内容,还能为 AI 产出的研究成果提供可靠的评审意见与打分,帮助智能体完成持续迭代和优化,从而不断提高科研质量。


(来源:资料图)


(来源:arXiv:2508.15126)

本次研究的相关论文发布之后,研究团队收到了不同的角度的评论,有积极的赞许,也有审慎的质疑。

一些评论非常振奋人心。例如有人说“学术界曾经依靠填补已深入探索领域的小空白而蓬勃发展。这些空白已经消失。现在,只有真正的突破才算数。”还有评论提到:“AI 正在撼动学术界!但这些 AI 的改进是真正创新,还是仅仅完善了人类的努力?传统学术界或许需要警钟,是准备好主动适应,还是看着时间站在 AI 这边?”

这些评论恰好与研究团队建设 aiXiv 的初衷高度契合。其认为,随着 AI 与机器人科学家的发展,那些增量式的创新点和“小修小补”的工作会被 AI 快速完成与验证,而这反而能刺激和推动人类科学家把精力集中到更具挑战、更具突破性的科研问题上。

当然,也有不少谨慎的声音。例如有人提醒:“科学不仅仅是发表论文,它还涉及共识、复现和信任,如果充斥着 AI 论文的系统没有良好的治理,可能会淹没真正的科学发现。”还有人担忧:“即使在arXiv上,有时也会有人质疑文章的真实性,但在 aiXiv上这种情况似乎会更加严重”。

研究团队表示,他们非常理解这些担忧,这正是 aiXiv 设计的关键考量之一。研究团队为 AI 与人类研究者共同提供评审接口,让不同的 AI Reviewer 与 Human Reviewer 可以同时参与,形成多维度、多角度的综合审查。这种机制既是对质量的保障,也是对“信任”的回应。研究团队相信,随着 AI 在科研与评审能力上的不断迭代,它最终有可能形成一种新的学术评审范式,使其不仅接近人类水准,甚至在某些方面超越现有人类评审模式。


(来源:arXiv:2508.15126)

就应用前景来说:

研究团队认为,本次 aiXiv 平台或者未来出现的类似平台,将会带来两方面革新性的变化:

首先,有望革新现有的科学研究范式。

在 AI Scientists 的初期发展阶段,科研中的研究提案与创新点方面可能将首先被颠覆。现在的科研环境中存在着这样一种描述“科研就像炒菜”,需要各学科、方法、思想的整合与碰撞。而当下的大模型本身就具备跨学科的知识储备,它们能够在极短时间内提出海量的创新性想法[4][5]。若这些想法通过像 aiXiv 这样的平台得到多维度评审与迭代,那么 AI 产出的可行创新点将无限接近与覆盖 100% 人类科学家所能想到的创新想法。这意味着人类科学家可探索的“增量空间”将迅速收缩,但也会倒逼人类去挑战更高难度、更具突破性的科学问题。

从更长远的视角来看,自 17 世纪以来,人类已在各学科领域发表了约 1.5 亿至 2 亿篇高质量科学论文。这份浩瀚的记录凝聚了人类数百年的努力、协作和渐进式探索。但随着自主 AI 研究人员的崛起,相比之下这些成果很快就会显得微不足道。AI 系统将以超人的速度和规模运行,生成、测试和发表数十亿篇科学论文,这并非几个世纪的工夫,而是短短几年,甚至几个月,几天或几小时……在这些成果中,不仅可能涌现诺贝尔奖级别的突破,还可能在迭代中诞生出堪比甚至超越“爱因斯坦”式的“超级 AI 科学家”。


(来源:arXiv:2503.22444)

其次,有望革新现有的科学出版方式。

aiXiv 的理念是打造一个主要针对 AI 科学家与机器人科学家的免费、共享的预印本平台。但与传统的预印本平台不同的是,aiXiv 集成了 AI 评审,以保证 Proposal 与 Paper 的提交质量。为了实现真正的免费与共享,研究团队正在考虑采用去中心化与区块链技术以存储、记录 DOI、版本、评审轨迹,保证可追溯性与透明性。

另据悉,本次研究团队的合作者大多来自大模型、Agent 与机器人方向。课题的出发点其实很朴素:AI 与机器人能否完成端到端的自主科学研究?如果答案是“能”,当这种能力以规模化出现时,人类应如何接住这股洪流?2024 年,马斯克曾判断“未来 3 年 200-300 亿数量级的类人机器人将会出现”。即便把这个说法打个折,没有物理身体的 AI Agents 在数量上也更容易出现指数级增长。想象一下:仅 1 亿个 AI 研究型智能体持续产生提案与论文,所形成的“审稿需求”已远超人类评审能力。2025 年,国际顶会 NIPS、AAAI 的投稿量都突破三万篇。这只是一个开端,在 AI 的加持下,“没有足够审稿人可用”正在成为现实问题。研究团队希望正面回答:当科研成果数量达到某个临界点时,人们应该怎么办?

研究团队最初把这个问题抛到社交媒体上寻找合作者,很快就吸引了来自全球各大高校和研究机构的伙伴加入,其中涵盖大模型、Agent、机器人以及生物医学等方向的合作者。随后研究团队快速进入研究推进的三个关键阶段。

首先是明确命题与边界,其把问题压缩成两个可操作的问题:其一,如何验证“AI/机器人能做科学”不是孤例,而是可复制、可扩展的流程?其二,当 AI 研究供给暴涨时,如何通过一个平台同时解决“快速发布”和“可信评审”的矛盾?这一步的关键是把愿景转化为可验证的工程与制度设计。

其次是广邀协作,跨学科的合作者拼图让研究团队能够从“科研生产”“质量管理”“安全对齐”三个维度同步推进。

最后是搭建最小可行原型,研究团队打通了“提交-评审-返修-发布”的完整链路,支持 Proposal 与 Paper 的提交,让 AI 与人类评审能够被统一调度与记录,每一次返修都能形成可追踪的质量轨迹。

本次研究的合作者胡翔和黄国伟表示,在实验阶段,当研究团队完整复现 AI-Scientist 的流程时,从一个 idea 出发,到自动化完成实验,再到安全地生成一篇完整的论文,让人十分震撼。那一刻,研究团队并不是担心自己真人研究员的身份会被替代,而是意识到未来会出现越来越多更智能的 AI Scientist 工具,它们能够帮助人类更好地开展科研,加速整个科学进展。哪怕科研效率只提高百分之十,对社会的价值都会是巨大的。研究团队做 aiXiv 的初衷,就是希望把这些由 AI 产出的高质量知识沉淀下来,真正服务于科学。

当问及下一步基于该研究是否有后续计划?胡翔以及张鹏松表示,在 aiXiv 的基础上,研究团队计划进一步引入强化学习,将其打造为一个科研的 Agent 环境,使研究型智能体能够通过结构化交互不断演化。随着平台上大规模产生的科研提案、论文、同行评审与多轮返修积累,aiXiv 将形成一个丰富的经验数据仓库,为科研智能体或者说 AI 科学家的学习提供坚实基础。

在这一协作生态中,研究型智能体将能够:

  • 学习复杂推理与长期决策能力,提升其制定与执行科研计划的能力;
  • 发展自适应行为,在科学探索与综合实验中不断优化策略;
  • 自主获取新知识与技能,通过与其他智能体和人类研究者的互动完成迭代,而无需依赖显式重编程。

这些能力将使智能体能够动态适应新兴的科研领域与未知挑战,确保其在快速演化的科学前沿保持持续相关性。

此外,研究团队希望把 AI-Scientist 真正用于端到端实验。不仅要在计算机科学、数学等不太需要“动手”的学科实现从构想到结果的自动化,也要将其与自动化机器人系统深度结合,走进需要物理实验与湿实验的领域(如生物、化学、材料等工程科学)。通过高通量实验执行、自动化仪器控制、实时数据采集与分析,以及“假设-实验-评估-返修”的闭环,研究团队希望能够打通“选题-设计-实验-分析-写作-发布”的全流程。最终目标是培养具备“手脑一体”能力的 Robot Scientist,不仅能胜任人类科学家的日常工作,更在速度、准确性、创新性与可复现性上接近与超越人类水准。

研究团队也希望将 AI-Scientist 推广到其他领域,尤其是商科研究。一个关键问题在于,AI-Scientist 是否能够自主识别并收集相关数据,从而开展高质量的商学院学术研究?与此同时,本次研究也发现当前在文献引用方面仍然存在不足。然而,文献的有效应用对科学研究至关重要。因此,研究团队也希望在这一领域进一步提升 AI-Scientist 在整合和运用现有文献方面的能力。

目前,研究团队正在筹备建立一个全球性非营利性组织 aiXiv Organization,旨在将 aiXiv 打造为下一代的科学研究发布与共享平台。aiXiv Organization 的使命不仅是“发布论文”,更是要探索人类与 AI 共同进化的科研新范式,为未来的科学发现提供可信赖的基础设施。

研究团队也正在邀请各大顶级高校教授们加入上述非营利性组织的 Advisory Board,希望借助他们的专业洞见与学术规范经验,逐步共同建立起一个科学、可信、规范且长期可持续的 AI for Research 生态环境。同时,其也期待得到来自企业、基金会等各类合作伙伴的支持,携手推动这一开放科研平台的建设与落地。另外,本次论文的合作者周孝严也正在创立一家初创公司。公司使命是将“AI 科学家”这一前沿理念落地应用于各个垂直领域之中,从而加速企业科研创新进程,提升科研产出效率。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1986年陈永贵病逝,追悼会规格成难题,邓小平只说了一句话,全场安静

1986年陈永贵病逝,追悼会规格成难题,邓小平只说了一句话,全场安静

寄史言志
2026-01-04 16:34:31
跳台滑雪爆作弊疑云,德媒:有选手疑打玻尿酸增大下体冀获优势,

跳台滑雪爆作弊疑云,德媒:有选手疑打玻尿酸增大下体冀获优势,

环球趣闻分享
2026-01-19 13:40:06
中国军工太“狠”,比苏联还苏联,比西方更西方,关键还坚持本我

中国军工太“狠”,比苏联还苏联,比西方更西方,关键还坚持本我

老范谈史
2026-01-19 20:46:26
1-2爆大冷!郑钦文宿敌出局,惨遭一轮游,大满贯冠军0-2遭淘汰

1-2爆大冷!郑钦文宿敌出局,惨遭一轮游,大满贯冠军0-2遭淘汰

体育就你秀
2026-01-19 11:19:58
为什么女朋友觉得年入百万很简单?网友:她一定有个做足浴的闺蜜

为什么女朋友觉得年入百万很简单?网友:她一定有个做足浴的闺蜜

带你感受人间冷暖
2025-11-04 16:38:29
梁山108将其实分成5个山头,每个山头带头大哥是谁?哪拨最厉害?

梁山108将其实分成5个山头,每个山头带头大哥是谁?哪拨最厉害?

长风文史
2026-01-19 15:08:23
携程被立案调查后股价跌幅已超20%,业内人士称本月初,携程已悄然调整酒旅商家挂牌展示规则

携程被立案调查后股价跌幅已超20%,业内人士称本月初,携程已悄然调整酒旅商家挂牌展示规则

中国能源网
2026-01-20 08:08:17
弗拉格18+7+3湖人弃将8记三分,布伦森打铁,独行侠复仇尼克斯

弗拉格18+7+3湖人弃将8记三分,布伦森打铁,独行侠复仇尼克斯

钉钉陌上花开
2026-01-20 08:38:44
西贝老板的军师遭曝光:原来是大V“理记”,他让贾国龙干罗永浩

西贝老板的军师遭曝光:原来是大V“理记”,他让贾国龙干罗永浩

汉史趣闻
2026-01-17 16:25:30
特朗普尴尬了,要不用直升机把马杜罗再送回去吧。

特朗普尴尬了,要不用直升机把马杜罗再送回去吧。

百态人间
2026-01-19 15:22:57
河南一学生教室内用板凳攻击同学后脑,学校称没视频上严重,警方:只是看着动作比较大

河南一学生教室内用板凳攻击同学后脑,学校称没视频上严重,警方:只是看着动作比较大

扬子晚报
2026-01-19 14:16:20
家属称男子三年前右脑出血被开左脑,医生发现出错又开右脑 希望认定责任、赔偿并追责

家属称男子三年前右脑出血被开左脑,医生发现出错又开右脑 希望认定责任、赔偿并追责

红星新闻
2026-01-19 11:47:22
“贾玲好瘦啊”登上热搜,网友:还以为是张小斐

“贾玲好瘦啊”登上热搜,网友:还以为是张小斐

红星新闻
2026-01-18 11:47:30
117-110 掀翻 4 连胜国王!克林根 21+17 封神,杨瀚森以他为目标

117-110 掀翻 4 连胜国王!克林根 21+17 封神,杨瀚森以他为目标

刘哥谈体育
2026-01-20 08:08:46
赢麻了!中国电信狂揽史上超级大单

赢麻了!中国电信狂揽史上超级大单

通信头条
2026-01-18 18:50:49
美预言家朱迪再爆猛料:美日中命运已定,此岛将首遭灾

美预言家朱迪再爆猛料:美日中命运已定,此岛将首遭灾

心灵短笛
2025-05-12 10:05:25
世界上最离谱的午饭都在滑雪场

世界上最离谱的午饭都在滑雪场

穷游网
2026-01-19 18:20:10
章子怡糊涂啊!近照肿成面包超人,最具特色的骨相优势都没了

章子怡糊涂啊!近照肿成面包超人,最具特色的骨相优势都没了

萌神木木
2026-01-19 18:15:42
有意思!兄弟俩同台,哥哥0分,正负值+12;弟弟16分,正负值-20

有意思!兄弟俩同台,哥哥0分,正负值+12;弟弟16分,正负值-20

金山话体育
2026-01-20 05:05:27
40余家上市公司净利翻番 AI成业绩增长强大驱动力

40余家上市公司净利翻番 AI成业绩增长强大驱动力

财联社
2026-01-20 06:40:33
2026-01-20 09:24:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16148文章数 514505关注度
往期回顾 全部

科技要闻

去年预亏60亿后再投百亿 两大车企紧抱华为

头条要闻

女子订3间双床房被告知是3张单人床 退订扣80%违约金

头条要闻

女子订3间双床房被告知是3张单人床 退订扣80%违约金

体育要闻

错失英超冠军奖牌,他却在德甲成为传奇

娱乐要闻

吴磊起诉白珊珊诽谤,白珊珊称被盗号

财经要闻

2026股市猜想

汽车要闻

徐军:冲击百万销量,零跑一直很清醒

态度原创

艺术
本地
数码
旅游
家居

艺术要闻

瑞典艺术大师,佐恩人物作品精选19幅

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

数码要闻

荣耀Magic8 RSR体验:7999元买个不强调影像的超大杯,反而对了?

旅游要闻

重庆黔江:峡谷梅香引客来

家居要闻

隽永之章 清雅无尘

无障碍浏览 进入关怀版