研究团队发明了一套AI评审系统，让深度研究报告评测变得精准！|维度|可靠性|ai评审系统

分享至

这项由无穷实验室（Shanda Group）与南洋理工大学联合开展的研究于2025年发表，研究团队开发了一套名为DeepResearchEval的自动化评测框架。有兴趣深入了解的读者可以通过arXiv:2601.09688v1查询完整论文。

在我们生活的这个信息时代，AI助手已经能帮我们做很多事情了——写邮件、翻译文档、回答问题。但是现在，AI又学会了一个新本领：写研究报告。就像一个超级助手，它能在网上搜索大量资料，分析各种信息，然后写出一份详细的研究报告。听起来很厉害对吧？

不过，这里有个问题。当AI写出一份几万字的研究报告时，我们怎么知道这份报告质量如何呢？是否准确可靠？是否遗漏了重要信息？这就像你请了一个新厨师做了一桌菜，但你怎么判断这些菜做得好不好呢？

传统的方法就像请一群美食专家来品尝每一道菜，然后给出评价。但这样做有几个明显的问题：首先，请专家很贵，而且很费时间；其次，每个专家的口味不同，评判标准也不一样；最后，如果菜里有些食材专家没尝出来，或者有些调料的真假难辨，专家也可能判断不准。

研究团队意识到，现有的AI研究报告评测方法存在三个主要困难。第一个困难就像餐厅只能依靠少数几个固定的美食评论家来评判所有菜品一样，成本高昂且效率低下。第二个困难好比用同一套标准去评判川菜和粤菜，显然不够合理，因为不同类型的研究报告应该有不同的评判标准。第三个困难则像是评论家只关注菜品的摆盘和味道，却忽略了食材是否新鲜、是否安全，同样，现有方法只检查报告中有引用来源的内容是否正确，却忽略了那些没有标注来源的事实陈述。

为了解决这些问题，研究团队开发了一套全新的自动化评测系统DeepResearchEval。这套系统就像是为餐厅配备了一个超级智能的品鉴机器人，它不仅能自动生成各种类型的"菜品"（研究任务），还能针对每道"菜"的特点制定专门的评判标准，甚至能自己去验证食材的真假。

一、智能任务生成器：会"出题"的AI老师

传统的研究报告评测就像学校考试，老师需要花费大量时间来出题，而且题目往往比较固定。研究团队设计的第一个创新就是开发了一个会自动"出题"的AI系统。

这个系统的工作原理很有趣。首先，它会创造出各种各样的"人物角色"，就像编剧为电影设计角色一样。比如说，系统可能会创造一个在大型制药公司工作的政策分析师，这个分析师需要了解最新的药品监管政策变化；或者创造一个专门研究清洁能源的工程师，他需要分析不同国家的太阳能发电技术发展趋势。

系统总共设计了十个不同的研究领域，包括交通运输、政治、金融商业、历史、软件开发、工业、体育健身、健康、科学技术，以及教育就业。在每个领域中，系统都会创造出五个不同背景的角色，每个角色都有自己独特的专业背景、工作经历和研究需求。

有了这些角色之后，系统就开始为每个角色量身定制研究任务。这些任务必须满足几个条件：需要多轮网络搜索才能完成，需要整合来自不同来源的信息，需要进行深入的分析和比较，而且必须有具体的时间要求和明确的交付成果。

比如说，系统可能会给那个制药公司的政策分析师安排这样一个任务：分析2024年1月到2025年8月期间，美国、欧盟和中国在半导体出口管制方面的政策变化，以及中国的反制措施如何影响了工业物联网硬件供应链、价格变化和供应商集中度，最后还要提供定量的情景分析、供应商风险排名和缓解措施路线图。

这样的任务显然不是简单的问答就能解决的，需要AI助手像一个真正的研究员一样，去搜索大量资料，分析各种数据，最后综合得出结论。

为了确保生成的任务质量足够高，系统还设置了两道"过滤器"。第一道过滤器叫"任务资格筛选器"，它会检查这个任务是否真的需要最新信息、是否需要多个来源的证据、是否需要多层次的深入调研，以及是否与角色的专业背景匹配。只有通过这些检验的任务才能进入下一轮。

第二道过滤器叫"搜索必要性筛选器"，它会让另一个AI助手仅凭已有的知识来尝试完成这个任务，然后评估完成的质量如何。如果发现这个任务仅凭现有知识就能很好地完成，那就说明这个任务对于测试AI的网络搜索和信息整合能力来说太简单了，需要被筛除。

经过这两道过滤后，系统从最初生成的200个候选任务中保留了155个高质量任务。为了验证这套自动生成系统的效果，研究团队还邀请了七位拥有博士学位的领域专家来评估这些任务。结果显示，80%的任务被至少四位专家认为是合格的深度研究任务，这证明了自动生成系统的可靠性。

最终，研究团队从这155个任务中精心挑选出100个最优质的任务作为评测基准。这些任务涵盖了不同的研究领域，具有不同的复杂度和挑战性，能够全面测试AI系统的深度研究能力。

二、智能评分系统：因材施教的评判标准

如果说任务生成器是一个会"出题"的老师，那么智能评分系统就是一个会"因材施教"的阅卷老师。传统的评测方法就像用同一张标准答案来批改所有不同类型的试卷，显然不够合理。研究团队开发的智能评分系统则能够针对每一份报告的特点，制定专门的评判标准。

这个评分系统的工作原理就像一个经验丰富的老师。当它拿到一份研究报告时，首先会仔细阅读研究任务的要求，然后思考：这份报告应该从哪些角度来评判？每个角度应该占多少分？具体应该看哪些细节指标？

系统首先设定了四个通用的评判维度，就像评判任何一篇文章都要看的基本要素一样。第一个维度是"覆盖性"，看报告是否全面覆盖了任务要求的各个方面，信息是否充分详实。第二个维度是"洞察力"，评估报告的分析是否深入，是否有独到的见解和逻辑性强的推理。第三个维度是"指令遵循"，检查报告是否准确按照任务要求的格式、结构和具体要求来完成。第四个维度是"清晰度"，评判报告的语言是否流畅，结构是否清晰，是否容易理解。

但是，智能评分系统的真正创新在于它能够为每个具体任务生成专门的评判维度。就像评判一道川菜和一道粤菜需要不同的标准一样，不同类型的研究报告也需要不同的评判重点。

比如说，对于前面提到的那个关于半导体政策分析的任务，系统可能会生成三个特殊的评判维度。第一个叫"政策实用性"，专门评估报告中提出的政策建议是否具有现实可操作性，是否考虑了美国、欧盟和中国不同的政治、经济和文化背景。第二个叫"比较综合性"，评估报告在跨地区分析方面的质量，看它是否能够有效整合不同地区的政策框架和安全数据，形成连贯统一的分析，而不是简单地并列不同地区的总结。第三个叫"指标实用性"，评估报告提出的安全指标质量如何，这些指标是否真正具有可比性、可测量性，并且能够在美国、欧盟和中国这些不同的数据收集体系中实际应用。

系统不仅会生成这些特殊维度，还会为每个维度分配权重，决定它们在最终评分中的重要性。对于政策分析类的任务，"政策实用性"可能会被赋予较高的权重，因为政策建议的可操作性是这类报告成功与否的关键。而对于技术分析类的任务，技术准确性和创新性可能会获得更高的权重。

更进一步，系统还会为每个评判维度制定具体的评分细则。就像一个详细的评分量表，明确规定在每个维度下应该关注哪些具体方面，每个方面应该如何打分。比如在"洞察力"维度下，系统可能会设定这样的细则：分析的原创性占40%的权重，逻辑推理的严密性占35%的权重，结论的价值和实用性占25%的权重。

这样的评分系统能够确保每份报告都得到公平而准确的评判。它不会因为报告类型不同而给出不合理的分数，也不会忽略某种类型报告的特殊优势。这就像是给每道菜都配备了最合适的评判专家，川菜有川菜专家来评，粤菜有粤菜专家来评，每个专家都用最合适的标准来判断。

三、事实核查机器人：真假难辨的"侦探"

在研究报告的评测中，有一个特别重要但也特别困难的方面，就是验证报告中陈述的事实是否准确。这就像是在品尝一道菜时，不仅要看味道如何，还要确认食材是否新鲜、是否安全。传统的方法就像只检查菜单上标注了来源的食材，却忽略了那些没有标注的配菜和调料。

研究团队开发的事实核查系统就像一个专业的"食品安全侦探"，它不仅会检查所有标注了来源的内容，还会主动搜寻和验证那些没有标注来源的事实陈述。

这个事实核查系统的工作过程颇为有趣。首先，它会把一份长达几万字的研究报告分成若干个小段落，就像把一本厚书拆分成一页页来仔细审查。然后，对于每个段落，它会像一个经验丰富的侦探一样，仔细寻找其中可以核实的事实陈述，比如具体的数字、新闻事件、日期、地点或人物等。

找到这些可核实的陈述后，系统就开始了它的"侦探工作"。它会主动在网上搜索相关信息，查找权威来源，收集证据。这个过程不是简单的关键词搜索，而是像真正的调查员一样，会从多个角度、多个来源来验证同一个事实。

比如说，如果报告中提到"DeepSeek V3模型的训练使用了大约560万美元，耗费了2788百万小时的H800 GPU时间"，事实核查系统就会去搜索DeepSeek V3的相关论文和官方发布信息。通过搜索，它发现原始论文中提到的是"2.788百万小时"而不是"2788百万小时"，这是一个三个数量级的错误。系统会详细记录这个发现，解释为什么这个陈述是错误的，并提供正确的信息来源。

在完成调查后，系统会给每个事实陈述打上三种标签之一。"正确"标签表示这个陈述得到了可靠公开信息的支持。"错误"标签表示这个陈述与可靠来源的信息相矛盾。"未知"标签表示缺乏足够的相关信息来验证这个陈述，或者包含一些正确的细节但其他部分无法验证。

这种三分法的设计很巧妙，因为它明确区分了"无法验证"和"明确错误"两种情况。在现实世界中，有些信息可能确实难以找到权威来源来验证，这并不意味着它们一定是错误的。通过使用"未知"标签，系统避免了简单的二元判断，提供了更准确的评估。

系统的最终输出是一个详细的JSON格式报告，其中包含每个被检查陈述的验证结果、支持或反驳的证据来源、具体的证据摘录，以及详细的推理过程解释。这就像侦探在结案时提供的详细调查报告，不仅告诉你结论是什么，还详细说明了是如何得出这个结论的。

最后，系统会计算一个"准确率"指标，即正确陈述在所有陈述中的比例。这为报告的整体可信度提供了一个量化的评估标准。通过这种方式，读者不仅能知道报告的分析质量如何，还能了解报告中的事实陈述有多少是可靠的。

四、实战测试：九大AI系统的终极对决

为了验证这套评测系统的有效性，研究团队组织了一场规模空前的AI系统对决。他们邀请了九个目前市面上最先进的深度研究AI系统来参加这场"考试"，包括一些大家熟悉的名字，比如OpenAI的深度研究系统、谷歌的Gemini深度研究系统，以及一些专门的研究型AI助手。

这场对决的规模相当庞大。每个AI系统都需要完成相同的100个研究任务，总共产生了900份研究报告。这些报告的长度差别很大，有些只有几千字，有些则长达几万字。研究团队用他们开发的评测系统对每一份报告都进行了详细的质量评估和事实核查。

测试结果揭示了一些非常有趣的发现。在报告质量方面，Gemini-2.5-Pro深度研究系统表现最为出色，获得了8.51分（满分10分）的高分，在覆盖性、洞察力和指令遵循等各个维度都表现优异。这就像是一个全面发展的优秀学生，不管是文科还是理科都能考出好成绩。

紧随其后的是Claude-Sonnet-4.5深度研究系统，得分7.53分。这个系统的特点是各个维度都比较均衡，没有明显的短板。OpenAI深度研究系统得分7.28分，同样表现出了较为均衡的能力。

有趣的是，研究团队发现了一个普遍现象：所有AI系统在任务特定评判维度上的表现都明显低于通用维度。这个发现很有启发性，说明现在的AI系统虽然能够完成基本的信息搜集和整理工作，但在满足特定任务的专业要求方面还有很大改进空间。就像一个学生能写出通顺的文章，但要写出符合特定学科要求的专业论文还有困难。

在事实准确性方面，测试结果同样引人深思。Manus系统表现最佳，82.3%的事实陈述被验证为正确，错误率很低。Gemini深度研究系统和DeepSeek系统也表现良好，准确率都超过了76%。这些结果表明，顶尖的AI系统已经能够在大部分情况下提供可靠的事实信息，但仍然存在一定比例的错误或无法验证的内容。

特别值得注意的是，研究团队发现错误陈述相对较少，更常见的问题是"未知"类陈述，即那些缺乏充分证据支持的声明。这说明AI系统的主要问题不是故意编造虚假信息，而是有时会提出一些难以验证或支撑不足的观点。

另一个有趣的发现是，不同系统在报告长度上有很大差异。Gemini-2.5-Pro和Doubao系统倾向于生成非常详细的报告，平均长度达到数万字，而DeepSeek系统则采用了更为简洁的策略。这种差异反映了不同设计理念：有些系统优先考虑信息的全面性，有些则更注重信息的精炼度。

测试还发现了质量和准确性之间可能存在的权衡关系。一些生成较长报告、包含更多信息的系统，虽然在覆盖性方面得分较高，但在事实准确性方面可能面临更大挑战。这提醒我们，在追求信息全面性的同时，也需要关注信息的可靠性。

五、系统可靠性验证：多重检验保证公正

为了确保这套评测系统本身的可靠性和公正性，研究团队进行了多重验证测试，就像对一台新的测量仪器进行校准一样。

首先，他们测试了评分系统的一致性。研究团队让不同的AI评判员对同样的报告进行评分，发现评分结果高度一致。即使使用不同的AI模型作为评判员，排名结果也基本保持不变，这说明评测标准是客观可靠的，而不是依赖于特定评判员的主观倾向。

其次，他们验证了评分的稳定性。同一个评测系统在不同时间对同样报告进行评分，结果几乎完全一致，分数的标准差非常小。这证明了系统的稳定性，不会因为随机因素而给出差别很大的评分。

最重要的是，研究团队还进行了人工验证。他们邀请了多位专业人士对事实核查系统的结果进行人工审核。结果显示，AI事实核查系统与人类专家的判断一致率达到73%，这是一个相当不错的成绩。

更有意思的是，在那些AI系统和人类专家判断不一致的案例中，研究团队又请了其他专家进行重新评判。结果发现，在70%的不一致案例中，AI系统的判断实际上是正确的，而人类专家的判断有误。这主要是因为AI系统能够进行更加全面和深入的信息搜索，有时能找到人类专家遗漏的关键证据。

这个结果很有启发意义。它不仅验证了AI事实核查系统的可靠性，也说明了AI在某些方面确实能够超越人类的能力，特别是在需要大量信息搜集和交叉验证的任务中。

通过这些多重验证，研究团队证明了他们开发的评测系统是可靠、公正、稳定的。这为这套系统的实际应用奠定了坚实的基础。

六、影响与展望：改变AI评测的游戏规则

这项研究的意义远远超出了技术层面的创新。它实际上为整个AI研究评估领域建立了一个新的标准和范式。

从实际应用角度来看，这套评测系统解决了一个日益紧迫的现实问题。随着AI系统越来越多地被用于生成长篇研究报告、市场分析、政策建议等重要文档，如何快速而准确地评估这些文档的质量变得至关重要。传统的人工评估方法成本高昂、效率低下，而这套自动化评测系统提供了一个可扩展的解决方案。

对于企业和组织来说，这意味着他们可以更好地评估和选择AI工具。不同的AI系统在不同类型的任务上可能有不同的表现，通过这种系统性的评测，用户可以根据自己的具体需求选择最合适的AI助手。

从研究角度来看，这套评测系统为AI研究人员提供了一个标准化的测试平台。就像计算机性能测试中的基准测试一样，这套系统可以帮助研究人员客观地比较不同AI系统的能力，识别改进方向。

更重要的是，这项研究揭示了当前AI系统的一些普遍局限性。比如，所有测试的AI系统在任务特定要求方面都表现不佳，这提示了一个重要的改进方向：AI系统需要更好地理解和适应不同类型任务的特殊要求。

事实核查方面的发现也很有价值。虽然顶尖AI系统的事实准确率已经相当不错，但仍然存在15-40%的错误或无法验证的内容。这提醒我们，在将AI生成的报告用于重要决策之前，仍然需要适当的人工审核。

研究团队也坦诚地指出了他们系统的局限性。目前这套系统主要针对英文内容设计，在多语言环境下的表现还有待验证。同时，运行这套评测系统需要大量的计算资源和API调用费用，这可能限制了它的普及应用。

展望未来，这套评测系统有很大的扩展潜力。研究团队设计的任务自动生成机制意味着这可以成为一个"活的"基准测试，随时生成新的测试任务来评估AI系统的能力。这对于快速发展的AI技术来说特别重要，因为静态的测试集很容易变得过时。

此外，这套系统的设计理念也可以应用到其他类型的AI评测中。无论是创意写作、技术文档，还是其他专业领域的内容生成，都可以采用类似的"任务特定评测维度"和"主动事实核查"的方法。

归根结底，这项研究代表了AI评测技术的一个重要进步。它不仅提供了一套实用的工具，更重要的是提出了一种新的评测理念：评测应该是动态的、适应性的、全面的。这种理念将推动整个AI评测领域向更加科学、更加实用的方向发展。

说到底，随着AI系统变得越来越强大，我们也需要越来越智能的方法来评估和理解它们的能力。这项研究就是朝这个方向迈出的重要一步，它不仅告诉我们现在的AI系统能做什么、做得如何，更重要的是为未来AI系统的改进指明了方向。对于普通用户来说，这意味着未来我们将能够更加信任和有效地使用AI助手来帮助我们完成复杂的研究和分析工作。

Q&A

Q1：DeepResearchEval系统是什么？

A：DeepResearchEval是由无穷实验室和南洋理工大学联合开发的AI研究报告自动化评测框架。它能够自动生成研究任务，然后对AI系统生成的深度研究报告进行质量评估和事实核查，就像一个智能的评判系统。

Q2：这套评测系统和传统评测方法有什么区别？

A：传统方法依靠人工专家评测，成本高且标准固定。DeepResearchEval能自动生成个性化的评测任务，针对每个任务制定专门的评判标准，还能主动搜索网络验证报告中的所有事实陈述，不仅仅是有引用的内容。

Q3：测试结果显示哪个AI系统表现最好？

A：在报告质量方面，Gemini-2.5-Pro深度研究系统表现最佳，得分8.51分；在事实准确性方面，Manus系统表现最好，82.3%的陈述被验证为正确。不过不同系统各有特点，用户可根据具体需求选择。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.