网易首页 > 网易号 > 正文 申请入驻

7B小模型写好学术论文,新框架告别AI引用幻觉

0
分享至

ScholarCopilot团队 投稿
量子位 | 公众号 QbitAI

学术写作通常需要花费大量精力查询文献引用,而以ChatGPT、GPT-4等为代表的通用大语言模型(LLM)虽然能够生成流畅文本,但经常出现“引用幻觉”(Citation Hallucination),即模型凭空捏造文献引用。这种现象严重影响了学术论文的可信度与专业性。

现在,加拿大滑铁卢大学与卡内基梅隆大学的华人研究团队,提出了一种名为 ScholarCopilot 的智能学术写作大模型框架,专门针对学术场景,致力于精准地生成带有准确引用的学术文本。

ScholarCopilot与传统方法的区别

传统的检索增强生成(Retrieval-Augmented Generation, RAG)方法采用“先检索、再生成”的静态流程,这种方式存在以下问题:

  • 检索与生成过程相互独立,容易导致意图不匹配;
  • 无法根据上下文需求动态调整引用策略,影响引用准确性。

针对这些局限性,ScholarCopilot提出了一种“边生成、边检索”的动态机制:

  • 在生成文本时,模型动态地判断何时需要引用文献,并生成一个特殊的检索信号([RET]);
  • 随后实时检索学术数据库中的相关文献,将检索到的内容融入后续生成过程;
  • 通过联合优化生成任务和检索任务,提升引用的准确度与相关性。

简单来说,ScholarCopilot的写作方式更接近人类真实的写作习惯:平时正常撰写论文内容,当需要引用文献时再主动检索相关文献的BibTeX信息插入引用,随后继续撰写下文。同时,模型在撰写后续内容时,也会参考已插入的引用文献,确保生成的文本与引用内容紧密相关。

ScholarCopilot的性能表现

研究团队以阿里云近期发布的Qwen-2.5-7B模型为基础,使用了50万篇arXiv论文进行训练,并在多个维度上进行了性能评估:

引用检索准确性(Top-1 accuracy)达到40.1%,显著超过现有的检索模型:

  • E5-Mistral-7B-Instruct(15.0%)
  • BM25(9.8%)

论文生成质量方面(包括相关性、连贯性、学术严谨性、完整性和创新性),综合得分为16.2(满分25),高于参数量更大的Qwen-2.5-72B-Instruct模型(15.8)和Qwen-2.5-7B-Instruct模型(13.9)。

在一项由10位拥有平均4.2年学术写作经验的学生(5名博士、4名硕士、1名本科生)参与的真人评测中:

  • ScholarCopilot在引用质量上的用户偏好率达到100%;
  • 整体实用性偏好率超过70%。

ScholarCopilot的不足与未来方向

尽管取得了显著进步,ScholarCopilot仍存在一些局限性。通过上述用户调研,受访者提出了以下几点改进建议:

  • 内容生成更全面:
  • 模型在生成内容的丰富性与信息全面性方面仍需进一步提升;
  • 创新性不足:
  • 目前模型在生成创新性想法和研究问题方面表现一般,还有较大改进空间。

此外,受访者还建议未来版本可考虑:

  • 与主流学术写作平台(如Overleaf)进行更紧密的整合;
  • 支持分章节独立生成和任意光标位置的文本预测功能。

研究团队表示,这些反馈意见为后续开发提供了明确的改进方向。

后续展望

ScholarCopilot研究团队希望通过不断优化模型性能、扩展检索数据库和改进用户交互体验,让研究人员在学术写作中能更专注于研究本身,而非繁琐的文献检索与引用管理。

当前相关论文、代码与模型已经公开发布,感兴趣的读者可自行了解详细信息,进一步体验与评估该模型的实际表现:

论文链接:https://arxiv.org/pdf/2504.00824
项目网站:https://tiger-ai-lab.github.io/ScholarCopilot/
演示视频:https://www.youtube.com/watch?v=QlY7S52sWDA

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1979年中共高层大变动,有人提议汪东兴当领导,陈云:没人会答应

1979年中共高层大变动,有人提议汪东兴当领导,陈云:没人会答应

冰语历史
2026-02-01 23:23:30
深度 | 一边兵临城下,一边喊话谈判:特朗普到底想怎么搞伊朗?

深度 | 一边兵临城下,一边喊话谈判:特朗普到底想怎么搞伊朗?

上观新闻
2026-02-01 21:19:06
俞敏洪:陈行甲已到新东方报到

俞敏洪:陈行甲已到新东方报到

澎湃新闻
2026-02-02 18:06:08
程潜的夫人有多美?这是1938年留影,她19岁,浓眉大眼,气质不凡

程潜的夫人有多美?这是1938年留影,她19岁,浓眉大眼,气质不凡

史之铭
2026-01-30 16:35:49
“后悔来清华参观,自取其辱”,母亲带娃游清华,被食堂气到失控

“后悔来清华参观,自取其辱”,母亲带娃游清华,被食堂气到失控

诗意世界
2025-11-30 11:04:47
国际乒联终身主席怒了!樊振东打不打奥运会?应该我们自己说了算

国际乒联终身主席怒了!樊振东打不打奥运会?应该我们自己说了算

梦史
2026-01-19 14:16:23
婚变传闻后,罗晋传出好消息,他让唐嫣和整个娱乐圈都“沉默”了

婚变传闻后,罗晋传出好消息,他让唐嫣和整个娱乐圈都“沉默”了

动物奇奇怪怪
2026-02-02 08:06:01
2026年春节红包大变!别再给200和500,聪明人都改包这3数

2026年春节红包大变!别再给200和500,聪明人都改包这3数

牛锅巴小钒
2026-02-01 19:55:50
去了一次上海和平饭店,我才明白什么叫“贫穷限制了想象”!

去了一次上海和平饭店,我才明白什么叫“贫穷限制了想象”!

诗意世界
2025-11-05 22:33:13
吴君如很早就说过了,陈妍希私下就是这样穿

吴君如很早就说过了,陈妍希私下就是这样穿

八星人
2026-01-21 15:14:26
反腐快讯:滁州、蚌埠、芜湖3人同日被查!

反腐快讯:滁州、蚌埠、芜湖3人同日被查!

凤凰网安徽
2026-02-02 16:30:42
终于是时候了!2026老旧小区加梯新规,1楼6楼都支持,不用再吵了

终于是时候了!2026老旧小区加梯新规,1楼6楼都支持,不用再吵了

老特有话说
2026-01-30 23:03:43
女排爆大冷!卫冕冠军轰然倒下,上海零封,京苏惨败,天津逆转

女排爆大冷!卫冕冠军轰然倒下,上海零封,京苏惨败,天津逆转

观察鉴娱
2026-02-02 09:53:26
他是横扫大唐名将的傲世奇才,四朝天子无计可施,却倒在女皇脚下

他是横扫大唐名将的傲世奇才,四朝天子无计可施,却倒在女皇脚下

文史达观
2026-01-31 16:36:25
菲方恩将仇报!中国使馆摊牌:只要马科斯下令,外交官集体走人

菲方恩将仇报!中国使馆摊牌:只要马科斯下令,外交官集体走人

兵器海陆空视频
2026-02-02 08:12:07
1351:1096!国民党投票结果出炉,郑丽文成大赢家,一队人马抵京

1351:1096!国民党投票结果出炉,郑丽文成大赢家,一队人马抵京

蛙斯基娱乐中
2026-02-02 15:54:55
春运开启,南京高速公路已现返乡大车流

春运开启,南京高速公路已现返乡大车流

现代快报
2026-02-02 19:42:08
父亲工龄48年,退休金每月才880元,我找去社保局,工作人员却愣了:他15年前就是高级工程师,特殊津贴每月16480

父亲工龄48年,退休金每月才880元,我找去社保局,工作人员却愣了:他15年前就是高级工程师,特殊津贴每月16480

起飞做故事
2026-01-28 18:56:29
韩国股市大跌触发熔断机制

韩国股市大跌触发熔断机制

第一财经资讯
2026-02-02 15:09:30
官方:罗马尼亚国脚、前武汉三镇外援斯坦丘正式加盟大连英博

官方:罗马尼亚国脚、前武汉三镇外援斯坦丘正式加盟大连英博

懂球帝
2026-02-02 10:13:16
2026-02-02 20:15:00
量子位 incentive-icons
量子位
追踪人工智能动态
12099文章数 176369关注度
往期回顾 全部

科技要闻

阿里筑墙,腾讯寄生,字节偷家

头条要闻

捧红王菲、那英的袁惟仁走了 曾被陶晶莹公开调侃

头条要闻

捧红王菲、那英的袁惟仁走了 曾被陶晶莹公开调侃

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

57岁音乐人袁惟仁去世,家属发文悼念

财经要闻

金银暴跌 全球股市遭遇“黑色星期一”

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

时尚
本地
数码
健康
公开课

普通人衣服没必要买太多,准备好这些单品,简单实用又耐看

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

数码要闻

华为Mate 90屏幕黑科技曝光,国产材料+新OLED

耳石症分类型,症状大不同

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版