告别科研“七步马拉松”，一个AI智能体正在改写知识生产方式|学术|翻译|实验|论文|ai智能体

分享至

如果把科研流程整体交给智能体执行，会发生什么？

科研这件事，长期被浪漫化了。

它并不是一个统一的动作，而是一条被拆分得很细的流水线。检索、筛选、阅读、整理、假设、实验、验证，再回到写作与发表——这七个环节几乎构成了所有学术工作的基本路径。

问题在于，这条路径的每一个环节，都在消耗时间，但并不都在创造价值。

文献检索往往意味着在成千上万篇论文中筛选出几十篇真正相关的内容。阅读阶段需要逐篇理解方法与结论，再在脑中建立一个尚不稳定的认知结构。真正到问题定义时，研究者才开始进入“创造”的部分，而这往往已经消耗掉了大量时间。

这些环节，本质上都属于“确定性劳动”，它们可以被拆解、被描述、被重复执行，但依然依赖人工完成。这就形成了一种典型的错配：最宝贵的认知资源，被大量消耗在最容易被替代的部分。

过去十年，AI确实进入了科研，但更多停留在边缘。它帮人更快地找论文、更顺畅地翻译文本、甚至能写出一篇结构完整的综述，但这些能力并没有改变科研的基本形态。科研仍然是一场“七步马拉松”，只是跑得稍微快了一点。

一个更激进的命题摆到了台面上：如果把科研流程整体交给智能体执行，会发生什么？

近期刚刚升级的AI学术智能体切问学术（即WisPaper中文版）给出了一种新可能。把确定性的劳动交给算力，把不确定的灵感还给人。这句话的背后，是一整套关于科研生产方式的重新分配。

AI不生产论文，但加速进程

传统科研过程中，七步走的科研马拉松，需要人在不同环节之间反复切换与衔接。

切问学术的出现，并不意味着它可以直接生产论文。它更多是嵌入到科研的推进过程中，成为一种贯穿式能力。给定一个研究任务，系统可以从文献检索出发，完成阅读、分析与信息结构化，在此基础上识别潜在问题，进一步进入实验设计与执行，最终输出结果与报告。

AI在科研中的角色，也因此发生变化。过去的AI更像“助手”，它在旁边提供建议，或者帮你完成某一部分工作。这些工作多是局部性的，比如翻译一篇论文，总结一段内容，或者补全一段代码，研究者需要不断接管流程，在不同任务之间来回切换，维持整体推进。

无法避免的机器幻觉，又让这部分工作需要被复审，以此来规避可能出现的学术欺诈、造假风险。切问学术作为AI智能体的定位，更接近“执行者”，它可以在没有持续人工介入的情况下，自主完成一部分内容。这意味着，科研流程第一次出现“被托管”的可能。

用一个更直观的类比，它有点像自动驾驶。在自动驾驶体系中，人类负责设定目标，系统负责路径与执行。

同样的逻辑正在引入科研之后，类似的分工正在出现。研究者定义问题，切问学术作为智能体负责推进过程。

科研流程的变化，从这里开始显现。

首先是流程的归属被重新划分。原本需要人逐步完成的任务，被整合为一段可以被系统整体接管的过程。检索、阅读、整理这些原本高度依赖人工的环节，不再需要逐一介入，而是在同一套逻辑中被连续处理。

其次，科研的工作方式从串行过程转向并行结构。在此类AI智能体介入后，科研不再只能沿着单一路径推进。多个假设可以被同时展开，多个方向可以并行验证。一个研究者的工作方式，从完成一个问题，转向管理一组问题。

当流程本身开始被重新组织，科研的节奏也随之改变。

100倍速引擎，科研第一次出现“代差”

从产品能力上来说，切问学术做的第一件事，是把传统科研路径的链条“解耦”。在传统路径里，每一个环节之间都存在等待与切换成本。而切问学术带来的，是指数级别的效率提升。

这种变化是具体的。据其公开资料显示，对比传统人工，切问学术的AI4S模式，在文献检索方面预估提效10至100倍，原本需要数周完成的文献筛选，被压缩到分钟级；论文阅读20倍提升，需要数月完成的阅读与整理，被压缩到小时级的结构化提取；问题识别可以在全域数据中被系统性扫描与定位，50倍速锁定。这样的效率飞升，几乎可以说重塑科研生命周期。

与此同时，切问学术的提效，建立在有效且可靠的基础上。就其公布数据来看，切问学术的文献搜索准确率达到93.78%，而主流模型大致停留在70%左右；文档版式解析、公式解析与表格解析准确率均在90%以上，整体高于行业水平。

这些能力并不直接产生结论，却决定了信息以什么形态进入后续处理。变量关系、实验结构、数据分布被提前拆解，阅读从逐篇处理转为结构化接收。

尤其是切问学术在测试中的综述一致性达到了22.26%，并且引用真实性接近99.8%。前者决定了不同来源的信息是否能够被纳入同一套逻辑框架，后者则真正在杜绝生成式模型机器幻觉方面迈出了一大步。

也正是在这样的基础之上，其嵌入科研流程的价值，才有成立的空间。

本次升级中的一大亮点，在于实验等环节的深入。上传一篇论文，系统自动完成阅读与理解，拆解核心任务与算法逻辑；在此基础上，解析实验方法，生成可执行的实验方案；随后自动搭建计算环境，包括算力配置与依赖项；生成代码并执行实验流程，最终输出结果与完整实验报告。

整个过程，不需要人工逐步介入。切问学术可以基于已有文献或系统识别出的研究空白，自动生成实验路径，并且自主匹配或寻找数据，完成环境搭建，执行实验并输出结果。

传统科研流程中的“认知”与“执行”是分离的。理解可以被加速，但验证仍然依赖人。而现在原本需要人反复切换、反复试错的一整段，被整体提速。科研流程，从“人驱动”变成“智能驱动”。

在这个意义上，它或许代表着科研效率的代际更替。

而这一切，并不是通用大模型就可以实现的。比如说学习能力，传统大模型或许擅长考试，但是对于从未见过的新知识，存在学习障碍。在CL-bench测试中，大模型们需要理解一套完全陌生的规则，并在上下文中立即应用。大多数模型在这一环节失效，平均成功率只有17.2%。

科研场景恰恰依赖这种能力，每一个问题，都是新的。当模型可以在上下文中快速建立规则理解，它才具备进入科研流程的基础。

也正因此，切问学术针对如何在真实环境中推进任务有针对性优化。其进行的AgentGym-RL的训练方式，是更接近真实科研的环境，模型需要在网页操作、实验流程等任务中不断调整路径。执行不能依赖预设答案，而是在反馈中不断修正。

就相关论文文献显示，一个仅有70亿参数的小模型（Llama-3.1-8B），经过AgentGym-RL训练后，在多个场景中达到了与GPT-4o、Claude 3.5-Sonnet相当甚至更好的表现。

同时，在训练过程中其针对推理、代码等关键能力相关的Token赋予更高权重，让能力提升与训练指标对齐。

但即便具备在真实环境中推进任务的能力，这件事依然没有那么简单。模型要真正进入科研流程，还要解决一个更隐蔽的问题，训练本身的稳定性。

RLHF几乎是所有大模型对齐能力的核心路径。但这套方法有一个共识性的难点：PPO训练极不稳定。这也是为什么，很多模型在短任务中表现良好，一旦进入复杂流程，就开始出现不可控偏移。

切问学术通过PPO-max通过更细粒度的约束与奖励机制，让训练过程保持稳定，不再依赖运气。

稳定之后，是执行。调用工具、编写代码、处理环境依赖，这些环节本身就充满不确定性。传统模型在这一部分往往依赖模板，或者停留在“生成代码”的层面，一旦进入真实执行环境，就会出现偏差。

科研环境里，信息本身并不总是一致的。不同论文之间可能存在结论冲突，数据来源也可能带来偏差。模型如果只是简单整合，很容易在多源信息中失真。

而切问学术在面对“已有记忆”与“当前输入”不一致时，会在内部形成两条处理路径，最终根据不同信号强度做出选择。这让模型在复杂文献环境中具备基本的判断能力，而不是被动接受信息。

当这些能力聚合，变化就不再是局部的提升。它更代表着，科研的生产方式，正在发生一次真正的范式转变。

当科研回归到“人”，加速突破的临界点

在这场变化里，被改变的并不只是效率。

科研的工作方式，开始从亲自完成每一步，转向在关键节点做判断。当执行被系统接管，研究者不再需要反复进入那些确定性的流程，而是逐渐退出具体操作，转而站在更上层的位置去理解问题、选择路径、审视结果。

这种变化看起来微妙，也在悄悄重写科研的角色分工。那些最聪明的大脑，不再需要在流程中奔跑。从更接近执行者的角色，转向架构者或者说领导者。

同时，另一道隐形门槛也在消失。在很多领域，idea和结果之间隔着代码、算力与实验环境。这部分需求一旦被切问学术一类的智能体解决，科研的进入门槛会被重新定义。

结果是，科研竞争开始前移。从谁能做出来，变成谁能更早看到问题，回归到了定义问题的“人”。一些原本受限于技术条件的研究者，也可以更直接参与到问题本身。

科研的本质，是知识生产。当知识生产的周期被压缩，影响的是整个技术体系的节奏。除了时间成本下降之外，知识库更新频率也在同步加速。比如新材料、靶向药、清洁能源这些受到验证成本限制的领域，验证一旦被压缩，路径筛选会明显加快，错误方向更早被淘汰，可行路径更快浮现。

这意味着，研究会在更高密度的试探中不断逼近答案。原本需要多年才能积累的试错过程，被压缩到更短周期内反复发生。

技术突破的出现方式，也随之发生变化，从依赖个体经验的偶然发现，转向在高频验证中逐步收敛。

当这种节奏持续叠加，一个更接近临界点的状态开始出现。科研开始进入一种新的分工结构：AI负责推进已知路径，把确定性的部分持续压缩；而人则停留在未知区域，去判断哪些问题值得被继续追问。

封面来源｜视觉中国

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.