研究人员打造带有AI同行评审的预印本平台，有望革新科学出版方式|学术|论文

分享至

在讨论 AGI 或者通用机器人定义时，人们往往会自然联想到一些直观的衡量标准，比如 AI 能否解出高考题、在国际数学奥林匹克（IMO，International Mathematical Olympiad）上获得金牌，或者机器人能否胜任家务。这些标准固然能体现“聪明”“适应性强”等能力，但却容易忽略一个更本质的维度——它能否在科学领域产出真正的新知识与重大突破？在加拿大多伦多大学博士生张鹏松和所在团队看来，评判超级智能的一个重要标准之一，是 AI 与机器人能不能推动科学边界前进、打破人类既有认知与物理界限。这正是该团队长期关注 AI Scientists 和 Robot Scientists 的出发点与动力[1]。

过去，科研进展受限于研究者的创造力、学术背景与有限时间。而近年的大模型与智能体进展，让 AI Agent以及机器人已能自动完成从提出研究设想、开展实验、到撰写论文等行为。比如日本公司 Sakana AI 提出的 The AI Scientist[2]、美国斯坦福大学教授 James Zou 团队的 The Virtual Lab[3]都已经非常好地验证了 AI 作为自主科学家的可行性。这些工作共同指向一个趋势：科学发现也将会迎来新的规模定律 Scaling Laws[1]。

然而，当前的学术出版生态难以承载这股浪潮，传统学术出版体系是为“人类作者 + 人工评审”的时代设计的，如今面对 AI 生成的海量研究，瓶颈集中在以下几方面：

其一，评审吞吐不足，传统期刊和会议依赖人工评审，效率低下，根本无法应对 AI 生成内容的规模。

其二，预印本缺少质量控制，预印本平台像arXiv虽然可以快速发布，但是缺少质量控制机制，无法保证成果的可信度。

其三，署名与规范的不确定性，不少学术场景对 AI 署名/贡献度仍存分歧，透明度与可追责性不足，抑制了人类与 AI 的深度协作，也影响成果的传播与采用。

其四，Proposal 早期生态缺位，现有平台不支持研究提案（Research Proposal）的结构化交流与迭代。这使得“idea 层面的共创与筛选”缺乏公共空间与思想碰撞，错失了大量原本能在萌芽期快速试错与放大的机会。

其五，AI 评审的安全与对齐问题, 基于大模型的评审会遭遇提示词注入（prompt injection）等攻击与操纵风险；同时还存在证据对齐不足、基线不一致等问题。若不治理，这些风险会侵蚀评审公正性与可用性。

其六，跨主体协作缺少统一环境，未来科研一定是 Human-AI 与 AI-AI 的多智能体协同。但当前缺少一个统一、开放、可扩展的“科研环境”，如能打造出来那将既能让不同类型的 Agent（作者、审稿、导师、委员会、实验、传播）以标准化接口接入，又能对质量、溯源、版本进行全程管理。

基于上述原因，本次团队提出并实现了 aiXiv，其表示这是全球首个面向 AI Scientists、Robot Scientists所产出的Research Proposal和Paper，同时也是一个带有 AI 同行评审与返修环节的 Open Access 预印本平台和 AI Agetns 科研社区环境。目标是为 AI 科学家、机器人科学家以及人类研究者共同建立一个全新的科研生态，打破当下分散、封闭的格局，构建覆盖提交-评审-返修-发布的完整科研与迭代流程。通过开放接口，人类研究者与各种科研智能体都能便捷接入，在同一平台上展开协作。

在机制设计上，aiXiv 引入了结构化、多阶段的评审机制，让 Proposal 和 Paper 能够在迭代中持续改进；同时，版本化发布和可溯源的质量轨迹，让科研成果的提升可以被真实验证。多模型投票机制避免了单一模型偏见，提升了结论的公平性和可靠性。

在安全与对齐方面，研究团队在评审环节中加入检索增强，使评审意见与真实文献对齐；并构建多层次的提示词注入检测与防御机制，抵御隐蔽操纵，确保评审过程的公正与可信。实验表明，在论文的 Pairwise 评审任务中，大模型的准确率可达 81%，验证了其具备真实的学术判断能力。这意味着大模型不仅能够生成科研内容，还能为 AI 产出的研究成果提供可靠的评审意见与打分，帮助智能体完成持续迭代和优化，从而不断提高科研质量。

本次研究的相关论文发布之后，研究团队收到了不同的角度的评论，有积极的赞许，也有审慎的质疑。

一些评论非常振奋人心。例如有人说“学术界曾经依靠填补已深入探索领域的小空白而蓬勃发展。这些空白已经消失。现在，只有真正的突破才算数。”还有评论提到：“AI 正在撼动学术界！但这些 AI 的改进是真正创新，还是仅仅完善了人类的努力？传统学术界或许需要警钟，是准备好主动适应，还是看着时间站在 AI 这边？”

这些评论恰好与研究团队建设 aiXiv 的初衷高度契合。其认为，随着 AI 与机器人科学家的发展，那些增量式的创新点和“小修小补”的工作会被 AI 快速完成与验证，而这反而能刺激和推动人类科学家把精力集中到更具挑战、更具突破性的科研问题上。

当然，也有不少谨慎的声音。例如有人提醒：“科学不仅仅是发表论文，它还涉及共识、复现和信任，如果充斥着 AI 论文的系统没有良好的治理，可能会淹没真正的科学发现。”还有人担忧：“即使在arXiv上，有时也会有人质疑文章的真实性，但在 aiXiv上这种情况似乎会更加严重”。

研究团队表示，他们非常理解这些担忧，这正是 aiXiv 设计的关键考量之一。研究团队为 AI 与人类研究者共同提供评审接口，让不同的 AI Reviewer 与 Human Reviewer 可以同时参与，形成多维度、多角度的综合审查。这种机制既是对质量的保障，也是对“信任”的回应。研究团队相信，随着 AI 在科研与评审能力上的不断迭代，它最终有可能形成一种新的学术评审范式，使其不仅接近人类水准，甚至在某些方面超越现有人类评审模式。

就应用前景来说：

研究团队认为，本次 aiXiv 平台或者未来出现的类似平台，将会带来两方面革新性的变化：

首先，有望革新现有的科学研究范式。

在 AI Scientists 的初期发展阶段，科研中的研究提案与创新点方面可能将首先被颠覆。现在的科研环境中存在着这样一种描述“科研就像炒菜”，需要各学科、方法、思想的整合与碰撞。而当下的大模型本身就具备跨学科的知识储备，它们能够在极短时间内提出海量的创新性想法[4][5]。若这些想法通过像 aiXiv 这样的平台得到多维度评审与迭代，那么 AI 产出的可行创新点将无限接近与覆盖 100% 人类科学家所能想到的创新想法。这意味着人类科学家可探索的“增量空间”将迅速收缩，但也会倒逼人类去挑战更高难度、更具突破性的科学问题。

从更长远的视角来看，自 17 世纪以来，人类已在各学科领域发表了约 1.5 亿至 2 亿篇高质量科学论文。这份浩瀚的记录凝聚了人类数百年的努力、协作和渐进式探索。但随着自主 AI 研究人员的崛起，相比之下这些成果很快就会显得微不足道。AI 系统将以超人的速度和规模运行，生成、测试和发表数十亿篇科学论文，这并非几个世纪的工夫，而是短短几年，甚至几个月，几天或几小时……在这些成果中，不仅可能涌现诺贝尔奖级别的突破，还可能在迭代中诞生出堪比甚至超越“爱因斯坦”式的“超级 AI 科学家”。

其次，有望革新现有的科学出版方式。

aiXiv 的理念是打造一个主要针对 AI 科学家与机器人科学家的免费、共享的预印本平台。但与传统的预印本平台不同的是，aiXiv 集成了 AI 评审，以保证 Proposal 与 Paper 的提交质量。为了实现真正的免费与共享，研究团队正在考虑采用去中心化与区块链技术以存储、记录 DOI、版本、评审轨迹，保证可追溯性与透明性。

另据悉，本次研究团队的合作者大多来自大模型、Agent 与机器人方向。课题的出发点其实很朴素：AI 与机器人能否完成端到端的自主科学研究？如果答案是“能”，当这种能力以规模化出现时，人类应如何接住这股洪流？2024 年，马斯克曾判断“未来 3 年 200-300 亿数量级的类人机器人将会出现”。即便把这个说法打个折，没有物理身体的 AI Agents 在数量上也更容易出现指数级增长。想象一下：仅 1 亿个 AI 研究型智能体持续产生提案与论文，所形成的“审稿需求”已远超人类评审能力。2025 年，国际顶会 NIPS、AAAI 的投稿量都突破三万篇。这只是一个开端，在 AI 的加持下，“没有足够审稿人可用”正在成为现实问题。研究团队希望正面回答：当科研成果数量达到某个临界点时，人们应该怎么办？

研究团队最初把这个问题抛到社交媒体上寻找合作者，很快就吸引了来自全球各大高校和研究机构的伙伴加入，其中涵盖大模型、Agent、机器人以及生物医学等方向的合作者。随后研究团队快速进入研究推进的三个关键阶段。

首先是明确命题与边界，其把问题压缩成两个可操作的问题：其一，如何验证“AI/机器人能做科学”不是孤例，而是可复制、可扩展的流程？其二，当 AI 研究供给暴涨时，如何通过一个平台同时解决“快速发布”和“可信评审”的矛盾？这一步的关键是把愿景转化为可验证的工程与制度设计。

其次是广邀协作，跨学科的合作者拼图让研究团队能够从“科研生产”“质量管理”“安全对齐”三个维度同步推进。

最后是搭建最小可行原型，研究团队打通了“提交-评审-返修-发布”的完整链路，支持 Proposal 与 Paper 的提交，让 AI 与人类评审能够被统一调度与记录，每一次返修都能形成可追踪的质量轨迹。

本次研究的合作者胡翔和黄国伟表示，在实验阶段，当研究团队完整复现 AI-Scientist 的流程时，从一个 idea 出发，到自动化完成实验，再到安全地生成一篇完整的论文，让人十分震撼。那一刻，研究团队并不是担心自己真人研究员的身份会被替代，而是意识到未来会出现越来越多更智能的 AI Scientist 工具，它们能够帮助人类更好地开展科研，加速整个科学进展。哪怕科研效率只提高百分之十，对社会的价值都会是巨大的。研究团队做 aiXiv 的初衷，就是希望把这些由 AI 产出的高质量知识沉淀下来，真正服务于科学。

当问及下一步基于该研究是否有后续计划？胡翔以及张鹏松表示，在 aiXiv 的基础上，研究团队计划进一步引入强化学习，将其打造为一个科研的 Agent 环境，使研究型智能体能够通过结构化交互不断演化。随着平台上大规模产生的科研提案、论文、同行评审与多轮返修积累，aiXiv 将形成一个丰富的经验数据仓库，为科研智能体或者说 AI 科学家的学习提供坚实基础。

在这一协作生态中，研究型智能体将能够：

学习复杂推理与长期决策能力，提升其制定与执行科研计划的能力；
发展自适应行为，在科学探索与综合实验中不断优化策略；
自主获取新知识与技能，通过与其他智能体和人类研究者的互动完成迭代，而无需依赖显式重编程。

这些能力将使智能体能够动态适应新兴的科研领域与未知挑战，确保其在快速演化的科学前沿保持持续相关性。

此外，研究团队希望把 AI-Scientist 真正用于端到端实验。不仅要在计算机科学、数学等不太需要“动手”的学科实现从构想到结果的自动化，也要将其与自动化机器人系统深度结合，走进需要物理实验与湿实验的领域（如生物、化学、材料等工程科学）。通过高通量实验执行、自动化仪器控制、实时数据采集与分析，以及“假设-实验-评估-返修”的闭环，研究团队希望能够打通“选题-设计-实验-分析-写作-发布”的全流程。最终目标是培养具备“手脑一体”能力的 Robot Scientist，不仅能胜任人类科学家的日常工作，更在速度、准确性、创新性与可复现性上接近与超越人类水准。

研究团队也希望将 AI-Scientist 推广到其他领域，尤其是商科研究。一个关键问题在于，AI-Scientist 是否能够自主识别并收集相关数据，从而开展高质量的商学院学术研究？与此同时，本次研究也发现当前在文献引用方面仍然存在不足。然而，文献的有效应用对科学研究至关重要。因此，研究团队也希望在这一领域进一步提升 AI-Scientist 在整合和运用现有文献方面的能力。

目前，研究团队正在筹备建立一个全球性非营利性组织 aiXiv Organization，旨在将 aiXiv 打造为下一代的科学研究发布与共享平台。aiXiv Organization 的使命不仅是“发布论文”，更是要探索人类与 AI 共同进化的科研新范式，为未来的科学发现提供可信赖的基础设施。

研究团队也正在邀请各大顶级高校教授们加入上述非营利性组织的 Advisory Board，希望借助他们的专业洞见与学术规范经验，逐步共同建立起一个科学、可信、规范且长期可持续的 AI for Research 生态环境。同时，其也期待得到来自企业、基金会等各类合作伙伴的支持，携手推动这一开放科研平台的建设与落地。另外，本次论文的合作者周孝严也正在创立一家初创公司。公司使命是将“AI 科学家”这一前沿理念落地应用于各个垂直领域之中，从而加速企业科研创新进程，提升科研产出效率。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.