网易首页 > 网易号 > 正文 申请入驻

字节跳动突破:AI实现学术论文自动评分

0
分享至


在学术研究越来越依赖人工智能助手的今天,一个关键问题摆在我们面前:当AI帮我们写研究报告时,我们怎么知道它写得好不好?这就像请了个新保姆照顾孩子,我们总得有办法检查她的工作质量吧。

这项由字节跳动BandAI团队的李明昊、曾颖、程志豪、马聪和贾凯等研究者完成的突破性工作,发表于2025年8月的arXiv预印本平台,论文编号arXiv:2508.15804v1,为我们提供了一个全新的解决方案。感兴趣的读者可以通过https://github.com/ByteDance-BandAI/ReportBench 访问完整的研究代码和数据。

研究团队发现,目前市面上的AI研究助手,比如OpenAI的Deep Research和谷歌的Gemini Deep Research,虽然能在几分钟内完成原本需要几天甚至几周才能完成的文献调研工作,但我们却缺乏有效的方法来评估这些AI生成报告的质量。这种情况就像汽车工厂有了超高速的生产线,却没有配套的质检流程一样危险。

为了解决这个问题,研究团队开发了一套名为"ReportBench"的评估系统。这套系统的巧妙之处在于,它不依赖人工专家的主观判断,而是利用已经发表在arXiv上的高质量学术综述论文作为"标准答案"。这些论文都经过了同行评议,代表了该领域的权威观点,就像请最优秀的老师来出标准化考试题目一样可靠。

整个评估过程分为两个核心部分。首先是检查AI助手引用的参考文献质量。研究团队会对比AI生成报告中的引用文献与专家撰写的综述论文中的引用文献,看看重合度有多高。这就像检查学生写作业时参考的书籍是否足够权威和全面。其次是验证报告中每个具体陈述的准确性。对于有引用的陈述,系统会核实原始文献是否真的支持这个观点;对于没有引用的陈述,系统会通过网络搜索来验证其真实性。

在具体实施过程中,研究团队设计了一个非常巧妙的"逆向工程"方法。他们从arXiv数据库中筛选出678篇2020年以后发表的高质量综述论文,然后让AI系统分析这些论文的标题、摘要和发表时间,自动生成相应的研究提示词。这个过程就像根据一道完美的菜品反推出制作食谱一样。为了增加多样性,他们还设计了三种不同详细程度的提示词:简单的句子级别提示、详细的段落级别提示,以及包含具体要求的详尽提示。

评估结果揭示了当前AI研究助手的真实水平。OpenAI的Deep Research在引用准确性方面表现最佳,平均每份报告引用约10篇文献,其中38.5%与专家选择的参考文献重合。相比之下,Gemini Deep Research虽然引用了更多文献(平均32篇),但准确性只有14.5%。这种差异就像一个学生引用了很多资料但大部分不太相关,另一个学生引用较少但每个都很精准。

更有趣的是,研究团队还测试了一些基础AI模型在配备搜索工具后的表现。结果显示,Claude-4 Sonnet在基础模型中表现最为均衡,引用准确率达到33.7%,同时保持了较高的事实准确性。这说明并非所有AI助手都需要复杂的专门训练才能胜任研究工作。

在内容质量评估方面,研究发现了一个令人担忧的现象:许多AI系统存在"陈述幻觉"和"引用幻觉"两大问题。陈述幻觉是指AI声称某位学者提出了某个观点,但实际上这位学者并未在相关论文中提出过这个观点。引用幻觉则更加严重,AI会编造出根本不存在的论文链接。这就像学生在作业中引用了一本根本不存在的书籍一样。

研究团队通过大量实例分析发现,即使是最先进的AI系统,在处理复杂学术概念时仍然容易出错。比如,OpenAI Deep Research在分析某篇关于强化学习的论文时,错误地将Kulkarni等人的贡献归因到了另一篇完全不同的论文中。这种错误虽然看似细微,但在学术研究中可能产生误导性影响。

为了构建更加公平和全面的评估体系,研究团队还开发了一套自动化的事实核查流程。对于有引用的陈述,系统会自动抓取原始网页内容,提取相关段落,然后使用语义匹配技术判断陈述是否得到原文支持。对于没有引用的陈述,系统采用多个联网AI模型投票的机制来验证其准确性。这种方法既保证了评估的客观性,又提高了处理效率。

从应用角度来看,这项研究为AI研究助手的改进指明了方向。当前的AI系统在生成报告时往往存在"过度引用"的问题,即引用了大量文献但相关性不高。未来的改进方向应该是提高引用的精准度而非数量。此外,加强对特定领域知识的训练,减少事实性错误,也是亟需解决的问题。

研究团队还发现,专门的研究助手产品确实比基础AI模型表现更好,这表明针对性的优化和训练是有效的。OpenAI Deep Research和Gemini Deep Research相比各自的基础模型都有显著改进,特别是在报告结构化、引用对齐度和事实准确性方面。

值得注意的是,这套评估系统本身也在不断完善中。研究团队承认,当前的数据主要来源于STEM领域的论文,对其他学科的适用性还有待验证。同时,由于版权考虑,他们只使用了具有宽松授权许可的论文,这在一定程度上限制了数据的多样性。

总的来说,ReportBench为我们提供了第一个系统性评估AI研究助手的标准化工具。这就像为快速发展的AI助手行业建立了第一套"质量检测标准"。虽然当前的AI系统还存在各种问题,但有了这样的评估基准,我们就能更好地追踪进步、发现问题并推动改进。

这项研究的意义远不止于技术层面。在AI技术快速渗透到学术研究各个环节的背景下,建立可信的评估机制关系到学术诚信和知识传播的质量。就像食品需要安全检测、药品需要疗效验证一样,AI生成的学术内容也需要严格的质量保障。

研究团队已经将完整的代码、数据集和评估脚本开源发布,这意味着全球的研究者都可以使用这套工具来评估和改进自己的AI系统。这种开放共享的做法将大大加速整个领域的发展进程,让我们更快地迈向真正可靠、可信的AI研究助手时代。

对于普通用户而言,这项研究提醒我们在使用AI研究助手时要保持谨慎态度。虽然这些工具能够大大提高工作效率,但我们仍需要对其输出进行必要的核实和验证。毕竟,在追求效率的同时,准确性和可靠性始终是学术研究不可妥协的底线。

Q&A

Q1:ReportBench评估系统是什么?它如何工作?

A:ReportBench是字节跳动团队开发的AI研究助手评估系统。它使用已发表的高质量学术综述论文作为标准答案,通过对比AI生成报告的引用文献质量和验证具体陈述的准确性来评估AI助手的表现,就像给AI助手设计了一套标准化考试。

Q2:OpenAI和谷歌的AI研究助手表现如何?

A:OpenAI Deep Research在引用准确性方面更好,38.5%的引用与专家选择重合,平均引用10篇文献。Gemini Deep Research引用更多(平均32篇),但准确性只有14.5%。两者都存在陈述幻觉和引用幻觉问题,需要用户谨慎使用。

Q3:普通人使用AI研究助手时应该注意什么?

A:要保持谨慎态度并进行必要核实。AI助手容易出现"过度引用"(引用很多但相关性不高)和编造不存在的论文链接等问题。使用时应该重点检查关键引用的真实性,对没有引用支持的重要陈述进行独立验证。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
联合国官宣全球进入“水破产”时代,中国人为什么感觉“水自由”

联合国官宣全球进入“水破产”时代,中国人为什么感觉“水自由”

李砍柴
2026-01-31 17:09:35
为什么欧美人不炒菜,只有中国有?美国教授:中国活在原始时代

为什么欧美人不炒菜,只有中国有?美国教授:中国活在原始时代

以茶带书
2026-01-14 21:54:28
Here we go!罗马诺:先租后买,罗马将签下拜仁前锋萨拉戈萨

Here we go!罗马诺:先租后买,罗马将签下拜仁前锋萨拉戈萨

懂球帝
2026-02-02 02:02:29
“新国标”就是自毁长城

“新国标”就是自毁长城

多村来信
2025-12-06 12:21:07
突发!伊朗多地发生爆炸,已致超20人死伤,以色列:与我们无关!特朗普发出“最后通牒”,伊方:已掌握敌方作战计划,将适时发动打击

突发!伊朗多地发生爆炸,已致超20人死伤,以色列:与我们无关!特朗普发出“最后通牒”,伊方:已掌握敌方作战计划,将适时发动打击

每日经济新闻
2026-02-01 00:54:06
香烟热度榜!烟民贡献万亿税收,年度销冠竟是这个品牌…

香烟热度榜!烟民贡献万亿税收,年度销冠竟是这个品牌…

慧翔百科
2025-12-24 09:14:14
欠中国的钱,委内瑞拉不还了?美财长:中国已无法继续获得委石油

欠中国的钱,委内瑞拉不还了?美财长:中国已无法继续获得委石油

boss外传
2026-01-26 14:00:03
台军通知台湾民众:开战后,见到穿军服的,一定要先逃命

台军通知台湾民众:开战后,见到穿军服的,一定要先逃命

青烟小先生
2026-01-31 21:43:51
马面女孩吴小燕:毛巾蒙面13年,手术取出2公斤异物后过得怎样了

马面女孩吴小燕:毛巾蒙面13年,手术取出2公斤异物后过得怎样了

小熊侃史
2025-12-25 11:27:42
记者:转会失败让罗马尼奥利错失600万年薪,球员对此很愤怒

记者:转会失败让罗马尼奥利错失600万年薪,球员对此很愤怒

懂球帝
2026-02-01 07:44:07
老家村里,发生了一件不堪入耳的事情

老家村里,发生了一件不堪入耳的事情

豫见老家河南
2026-01-30 07:06:14
三方交易!亨特和施罗德互换东家

三方交易!亨特和施罗德互换东家

体坛周报
2026-02-01 14:33:14
多家银行已停止提供贷款!科技巨头被曝或裁员3万人

多家银行已停止提供贷款!科技巨头被曝或裁员3万人

新浪财经
2026-02-01 13:44:41
2013年,潘玮柏35万收购篮网0.067%股份,如今升值多少?

2013年,潘玮柏35万收购篮网0.067%股份,如今升值多少?

天光破云来
2026-01-17 03:39:55
一位退休教师的两年邻里噩梦:花12.5万装修梦想花园,却被邻居强行“切走”1米多!

一位退休教师的两年邻里噩梦:花12.5万装修梦想花园,却被邻居强行“切走”1米多!

英国那些事儿
2026-02-01 22:58:29
长得太美被导演占为己有,4年后生下大明星儿子,17岁就成男一号

长得太美被导演占为己有,4年后生下大明星儿子,17岁就成男一号

泠泠说史
2026-01-17 18:56:18
我们的大脑,为什么要封存3岁前的记忆?

我们的大脑,为什么要封存3岁前的记忆?

中科院物理所
2025-12-07 14:24:58
天呢!一个德国人非议中国教育是对人性的摧残…

天呢!一个德国人非议中国教育是对人性的摧残…

慧翔百科
2026-01-26 11:45:53
广东一初中生背影火了,网友怒赞!

广东一初中生背影火了,网友怒赞!

深圳晚报
2026-01-31 23:00:48
有性生活的注意!男人感染HPV后,身体有2个表现,教你一眼看出来

有性生活的注意!男人感染HPV后,身体有2个表现,教你一眼看出来

健康科普365
2025-12-15 09:50:47
2026-02-02 02:43:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7081文章数 548关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

亲子
家居
教育
游戏
军事航空

亲子要闻

兰姐带玥儿看北京新学校,玥儿一待俩小时,筱梅的话终于有人信了

家居要闻

蓝调空舍 自由与个性

教育要闻

鼓楼、玄武、建邺、秦淮多区教育局发布提醒!

末期癌症玩家圆梦《毁灭战士》!id公开致敬

军事要闻

伊朗民众:伊朗不会屈服于美国霸权

无障碍浏览 进入关怀版