网易首页 > 网易号 > 正文 申请入驻

Paper太难太生涩,AI“一句话摘要”工具让学术更简单

0
分享至

摘要在一篇文章中有着至关重要的作用,它浓缩了整篇文章的精华,可以让你快速了解该篇文章的研究背景、研究意义和研究亮点,进而决定了你是否会点开这篇文章仔细阅读。


如果摘要太长或者逻辑混乱,就会失去它让人快速浏览的意义,很有可能让人忽略掉一篇正文内容还不错的文章。那么,是否可以在摘要的基础上进一步提炼,用一句话概括文章?


答案是:AI 可以做到。


近日,一款科学搜索引擎在其官网上就推出了这样一款 AI 软件——TLDR,即“太长了,没有读”(too long,didn’t read)的意思,该软件可以自动生成研究论文的一句话总结这款软件的开发者认为,这样可以帮助研究人员更快地浏览论文,减少阅读摘要的时间。

图 | TLDR在科学搜索引擎“Semantic Scholar”上 (来源:Nature)

TLDR 经常被用于网上关于科学论文的非正式讨论(比如,Twitter 或 Reddit)。


本周,这款软件在华盛顿州西雅图的非营利性艾伦人工智能研究所(AI2)创建的搜索引擎 Semantic Scholar 的搜索结果中开始上线使用。目前,该软件只为 Semantic Scholar 所覆盖的 1000 万篇计算机科学论文生成一句话摘要。


AI2 管理 Semantic Scholar 小组的 Dan Weld 表示,他们目前正在优化 TLDR,预计一个月左右的时间后,TLDR 将陆续涵盖其他学科领域的论文。

图 | TLDR 与普通总结的对比 (来源:Semantic Scholar)

初步测试表明,该工具可以帮助读者比查看标题和摘要的方式更快地整理搜索结果,特别是在手机上。

图 | TLDR 在手机上的效果(来源:Nature)

介绍该软件的预印本于 4 月 1 日首次发表在 arXiv 预印本服务器上,并在 11 月举行的自然语言处理会议上经过同行评审后被接收发表。研究人员免费提供了他们的代码,以及一个测试 demo(https://scitldr.apps.allenai.org/),任何人都可以尝试使用。

图 | 生成 TLDR 的测试 (来源:SCITDLR)

如何训练 TLDR?


TLDR 本质上就是对科学论文的一种新的总结。Weld 创建 TLDR 软件的灵感一部分来自于他的同事,其在 Twitter 上分享标记文章的活泼句子。与其他语言生成软件一样,该软件是利用深度神经网络,通过进行大量的训练而生成。

图 | TLDR 的介绍 (来源:arxiv)

为了训练 TLDR,研究人员准备了 SCITLDR,这是一个多目标数据集,包含5411篇TLDR,覆盖计算机科学领域的 3229 篇科学论文。


其中,训练集包含 1992 篇论文,每篇论文都有一个“黄金”TLDR,也就是最佳 TLDR。开发集和测试集分别包含 619 篇和 618 篇论文,分别有 1452 个和 1967 个 TLDR。


通常情况下,总结数据集会假设一个给定文档只有一个黄金总结,而 SCITLDR 与大多数现有的总结数据集不同。正如早期的摘要评估工作所证明的那样,人类撰写的摘要具有可变性。


将每篇论文只考虑一个黄金 TLDR 作为自动评估的基础,可能会导致系统质量评估不准确,因为可能出现在 TLDR 中的内容可能具有很大的可变性。此外,为每份文件提供多个黄金摘要,可以进行更深入的分析和彻底的评估。


为了解决这个问题,SCITLDR 包含了从作者角度撰写的 TLDR("TLDR-Auth")和从同行评审者角度撰写的 TLDR("TLDR-PR")。


TLDR-Auth 可在各种在线平台上获得。在公开的科学评审平台 OpenReview.org 上,作者提交其论文的 TLDR,为审稿人和其他感兴趣的学者总结主要内容。学者们也会在Twitter 和 Reddit 等社交媒体平台上分享 TLDR。


TLDR-PR 是将同行评审员已经仔细检查了源论文后写的评论中的总结重写成 TLDR。为了完成这项任务,研究人员从华盛顿大学招募了 28 名计算机科学专业的本科生,他们有自我报告的阅读科学论文的经验。在接受一个小时的一对一写作训练并筛选后完成 TLDR 的写作工作。

图 | TLDR-Auth 和 TLDR-PR的对比(来源:arxiv)

图 | TLDR-Auth 和 TLDR-PR的对比(来源:arxiv)

TLDR-Auth 和 TLDR-PR 即使包含相同的信息内容,也会有很大的差异。总的来说,TLDR-PR 总结的更为抽象。

引入 CATTS 对 TLDR 进行优化


CATTS(Controlled Abstraction for TLDRs with Title Scaffolding),这是一种简单而有效的学习生成 TLDR 的方法,它可以在以上介绍的数据集训练的基础上进行补充训练。该方法解决了两个主要挑战:(1) 训练数据的大小是有限的;(2) 为了编写高质量的黄金 TLDR,需要领域知识。

为了解决这些挑战,研究人员提出使用科学论文的标题作为额外的生成目标。由于标题通常包含有关论文的关键信息,假设训练模型生成标题将允许它学习如何定位论文中的突出信息,这些信息对生成 TLDR 也很有用。

通过多任务学习纳入辅助脚手架任务之前已经研究过,用于改进跨度标注和文本分类 。与多任务学习类似,在带有控制代码注释的异质数据上进行训练已经被证明可以改善自回归语言模型中的控制生成。

为了让标题生成完成辅助 TLDR 生成的任务,研究人员提出用标题生成数据集洗牌 SCITLDR,然后分别用控制代码 <|TLDR|> 和 <|TITLE|> 附加每个源。这使得模型的参数可以学习生成 TLDR 和标题。在生成时,适当的控制代码被附加到源中。此外,上采样特定任务可以被视为应用特定任务的权重,类似于多任务学习设置中的权重损失。

图 | CATTS引入可视化(来源:arxiv)

对 TLDR 未来的期待


"我预测,在不久的将来,这种工具将成为学术搜索的标准功能。事实上,考虑到科研人员实际的需求,我很惊讶等了这么长时间才看到它的实际应用。" 西雅图华盛顿大学的信息科学家杰文 - 韦斯特(Jevin West)说,他应《自然》杂志的要求测试了该工具。"虽然它并不完美,但它绝对是朝着正确方向迈出的重要一步。" 他说。

Weld 指出,TLDR 软件并不是唯一的科学总结工具:自 2018 年以来,网站 Paper Digest 也一直提供论文摘要,但它似乎是从文本中提取关键句子,而不是生成新句子。

TLDR 可以从论文的摘要、引言和结论中生成一句话。它的摘要往往是根据文章文本中的关键短语建立起来的,所以它的受众人群是已经了解论文行话的专业的科研人员。对于普通人来说,阅读起来依旧存在一些难度。但 Weld 表示,该团队正在努力为非专家受众提供更为简单易懂的升级版产品。

研究人员还计划将该技术授权给出版商,并将其服务扩展到提供个性化的研究简报,总结某个领域的关键论文。"我们只是到了人工智能可以以人们可以接受的水平生成新颖的摘要的阶段,"Weld 说。

参考资料:

https://www.nature.com/articles/d41586-020-03277-2?utm
https://www.semanticscholar.org/search?q=computer&sort=relevance
https://arxiv.org/pdf/2004.15011.pdf
https://github.com/allenai/scitldr/tree/master/SciTLDR-Data
https://scitldr.apps.allenai.org/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
狂输29分大爆冷!CBA冷门夜:北京队主场翻车,最新排名又变了!

狂输29分大爆冷!CBA冷门夜:北京队主场翻车,最新排名又变了!

大秦壁虎白话体育
2026-01-17 01:55:05
局势恶化!48小时内,美国连下两道撤离令,中国战略命脉或遭锁定

局势恶化!48小时内,美国连下两道撤离令,中国战略命脉或遭锁定

知鉴明史
2026-01-15 19:01:32
国乒女队损失惨重!WTT多哈球星赛已有8人出局:单打16强仅剩2席

国乒女队损失惨重!WTT多哈球星赛已有8人出局:单打16强仅剩2席

郝小小看体育
2026-01-17 04:48:47
黄友政逆转险胜户上隼辅,蒯曼女双惜败大藤沙月,薛飞险胜陈垣宇

黄友政逆转险胜户上隼辅,蒯曼女双惜败大藤沙月,薛飞险胜陈垣宇

子水体娱
2026-01-17 01:17:48
冬窗花费破亿!曼城下一个引援目标曝光 曼联也想买他

冬窗花费破亿!曼城下一个引援目标曝光 曼联也想买他

球事百科吖
2026-01-17 05:10:30
决战乌兹别克前,U23国足先迎来一个坏消息,取胜希望大大降低

决战乌兹别克前,U23国足先迎来一个坏消息,取胜希望大大降低

零度眼看球
2026-01-16 17:33:23
万一打仗,大连人该往哪躲?这份“保命”指南请收好!

万一打仗,大连人该往哪躲?这份“保命”指南请收好!

妙知
2026-01-16 14:36:35
本该发给媳妇的信息,却发到了工作群,后续让人没想到……

本该发给媳妇的信息,却发到了工作群,后续让人没想到……

环球网资讯
2026-01-15 14:50:09
外租赫罗纳!巴萨33岁队长确认离队 本赛季仅登场1次

外租赫罗纳!巴萨33岁队长确认离队 本赛季仅登场1次

球事百科吖
2026-01-17 05:10:43
委内瑞拉防长:美国袭击致委方47名官兵身亡

委内瑞拉防长:美国袭击致委方47名官兵身亡

澎湃新闻
2026-01-17 03:10:04
刘翔回应“移民”传闻,热搜第一

刘翔回应“移民”传闻,热搜第一

南方都市报
2026-01-16 22:07:57
夫妻性生活的“黄金时长”是多少?别再被电影骗了!

夫妻性生活的“黄金时长”是多少?别再被电影骗了!

精彩分享快乐
2025-11-29 00:00:03
他从朝鲜载誉归却无职务,授衔获任海南军区司令,当场怀疑听错任命

他从朝鲜载誉归却无职务,授衔获任海南军区司令,当场怀疑听错任命

磊子讲史
2026-01-14 14:24:39
特朗普疯了,美军再次不宣而战,20架战机投下近百炸弹,死伤不明

特朗普疯了,美军再次不宣而战,20架战机投下近百炸弹,死伤不明

瞳哥视界
2026-01-12 22:05:56
-7℃!湖北大部中到大雪,还有暴雪!武汉连下两天雪

-7℃!湖北大部中到大雪,还有暴雪!武汉连下两天雪

极目新闻
2026-01-16 19:44:10
一针见血?名宿为国足19岁神童喊冤:他能拿球组织,被教练用废了

一针见血?名宿为国足19岁神童喊冤:他能拿球组织,被教练用废了

国足风云
2026-01-16 13:56:41
越扒越有,被人民网点名后,闫学晶又被曝身份造假,成名史太精彩

越扒越有,被人民网点名后,闫学晶又被曝身份造假,成名史太精彩

奇思妙想草叶君
2026-01-14 21:18:53
邯郸女子赤裸惨死家中,死后频繁约人上门,警方打开床板后傻眼

邯郸女子赤裸惨死家中,死后频繁约人上门,警方打开床板后傻眼

碎碎纪实
2026-01-16 15:33:38
特朗普提名的驻冰岛大使笑称该岛将成美国第52个州引众怒 冰岛有什么让美国看上了?

特朗普提名的驻冰岛大使笑称该岛将成美国第52个州引众怒 冰岛有什么让美国看上了?

红星新闻
2026-01-16 13:10:25
刘强东没想到,离过年不到2月,章泽天走上了和田朴珺一样的路

刘强东没想到,离过年不到2月,章泽天走上了和田朴珺一样的路

查尔菲的笔记
2026-01-14 21:39:35
2026-01-17 05:36:49
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1429文章数 5081关注度
往期回顾 全部

教育要闻

二次函数关联变量应用题第2讲,一个视频学会!

头条要闻

罗永浩、贾国龙微博账号均被禁言

头条要闻

罗永浩、贾国龙微博账号均被禁言

体育要闻

全队身价=登贝莱,他们凭什么领跑法甲?

娱乐要闻

李湘翻车,早就有迹可循!

财经要闻

清流|酒店商家在携程和美团之间沦为炮灰

科技要闻

贾国龙与罗永浩被禁言,微博CEO回应

汽车要闻

方程豹品牌销量突破30万辆 2026年还将推出轿跑系列

态度原创

时尚
游戏
手机
家居
本地

今年冬天最时髦保暖的4组搭配,照着穿美出新高度!

十三年后,《逆战:未来》想为所有逆行者们找回青春"/> 主站 商城 论坛 自运营 登录 注册 十三年后,《逆战:未来》想为所有逆行者们找回青春 廉颇 2...

手机要闻

真我Power再曝,6.78英寸曲面屏、万级大电池

家居要闻

岁月柔情 现代品质轻奢

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

无障碍浏览 进入关怀版