网易首页 > 网易号 > 正文 申请入驻

大模型总结摘要靠谱吗?比人类写的流畅,用GPT-4幻觉还少

0
分享至

机器之心报道

编辑:陈萍

以后文本摘要总结任务,可以放心交给大模型了。

文本摘要,作为自然语言生成(NLG)中的一项任务,主要用来将一大段长文本压缩为简短的摘要,例如新闻文章、源代码和跨语言文本等多种内容都能用到。

随着大模型(LLM)的出现,传统的在特定数据集上进行微调的方法已经不在适用。

我们不禁会问,LLM 在生成摘要方面效果到底如何?

为了回答这一问题,来自北京大学的研究者在论文《 Summarization is (Almost) Dead 》中进行了深入的探讨。他们使用人类生成的评估数据集评估了 LLM 在各种摘要任务(单条新闻、多条新闻、对话、源代码和跨语言摘要)上的表现。

在对 LLM 生成的摘要、人工撰写的摘要和微调模型生成的摘要进行定量和定性的比较后发现,由 LLM 生成的摘要明显受到人类评估者的青睐。

接着该研究在对过去 3 年发表在 ACL、EMNLP、NAACL 和 COLING 上的 100 篇与摘要方法相关的论文进行抽样和检查后,他们发现大约 70% 的论文的主要贡献是提出了一种总结摘要方法并在标准数据集上验证了其有效性。因此,本文表示「摘要(几乎)已死( Summarization is (Almost) Dead )」。

尽管如此,研究者表示该领域仍然存在挑战,例如需要更高质量的参考数据集、改进评估方法等还需要解决。

论文地址:https://arxiv.org/pdf/2309.09558.pdf

方法及结果

该研究使用最新的数据来构建数据集,每个数据集由 50 个样本组成。

例如在执行单条新闻、多条新闻和对话摘要任务时,本文采用的方法模拟了 CNN/DailyMail 、Multi-News 使用的数据集构建方法。对于跨语言摘要任务,其策略与 Zhu 等人提出的方法一致。关于代码摘要任务,本文采用 Bahrami 等人提出的方法。

数据集构建完成之后,接下来就是方法了。具体来说,针对单条新闻任务本文采用 BART 和 T5 ;多条新闻任务采用 Pegasus 和 BART;T5 和 BART 用于对话任务;跨语言任务使用 MT5 和 MBART ;源代码任务使用 Codet5 。

实验中,该研究聘请人类评估员来比较不同摘要的整体质量。结果如图 1 所示,LLM 生成的摘要在所有任务中始终优于人工生成的摘要和微调模型生成的摘要。

这就提出了一个问题:为什么 LLM 能够胜过人类撰写的摘要,而传统上人们认为这些摘要是完美无缺的。此外,经过初步的观察表明,LLM 生成的摘要表现出高度的流畅性和连贯性。

本文进一步招募注释者来识别人类和 LLM 生成摘要句子中的幻觉问题,结果如表 1 所示,与 GPT-4 生成的摘要相比,人工书写的摘要表现出相同或更高数量的幻觉。在多条新闻和代码摘要等特定任务中,人工编写的摘要表现出明显较差的事实一致性。

人工撰写的摘要和 GPT-4 生成摘要中出现幻觉的比例,如表 2 所示:

本文还发现人工编写的参考摘要存在这样一个问题,即缺乏流畅性。如图 2 (a) 所示,人工编写的参考摘要有时存在信息不完整的缺陷。并且在图 2 (b) 中,一些由人工编写的参考摘要会出现幻觉。

本文还发现微调模型生成的摘要往往具有固定且严格的长度,而 LLM 能够根据输入信息调整输出长度。此外,当输入包含多个主题时,微调模型生成的摘要对主题的覆盖率较低,如图 3 所示,而 LLM 在生成摘要时能够捕获所有主题:

由图 4 可得,人类对大模型的偏好分数超过 50%,表明人们对其摘要有强烈的偏好,并凸显了 LLM 在文本摘要方面的能力:

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
斯伟江:谁能熬过指定居所监视居住?

斯伟江:谁能熬过指定居所监视居住?

景来律师
2024-07-26 10:19:34
何猷君宣布公司美股上市,身家暴涨5亿,狂亲奚梦瑶发文告慰赌王

何猷君宣布公司美股上市,身家暴涨5亿,狂亲奚梦瑶发文告慰赌王

开开森森
2024-07-27 07:57:53
詹姆斯亮相奥运开幕式:淋雨举旗连创历史纪录 杜兰特表情太抢镜

詹姆斯亮相奥运开幕式:淋雨举旗连创历史纪录 杜兰特表情太抢镜

追球者
2024-07-27 04:28:06
史密斯+4个首轮!勇士遭突发事件,火箭加入竞争,誓要抢23+8超巨

史密斯+4个首轮!勇士遭突发事件,火箭加入竞争,誓要抢23+8超巨

巴叔GO聊体育
2024-07-27 10:06:49
首府大楼被炸,200名高官团灭,导弹炸沉港口,全城一片火海

首府大楼被炸,200名高官团灭,导弹炸沉港口,全城一片火海

忆丹倾城
2024-07-27 06:30:02
北京女子尾骨受伤请病假,却在非洲跳跃照,遭公司愤怒开除!

北京女子尾骨受伤请病假,却在非洲跳跃照,遭公司愤怒开除!

新动察
2024-07-26 09:30:30
县委书记性侵女下属的大瓜,真相果然不简单!

县委书记性侵女下属的大瓜,真相果然不简单!

仕道
2024-07-26 15:41:03
“女网红高铁上穿蕾丝内衣、泡玉足”???你没事吧...

“女网红高铁上穿蕾丝内衣、泡玉足”???你没事吧...

莫问先生
2024-07-26 17:58:35
人民币,重磅消息!瑞银:各国央行正计划进一步加强欧元和人民币的地位

人民币,重磅消息!瑞银:各国央行正计划进一步加强欧元和人民币的地位

每日经济新闻
2024-07-26 17:04:04
洛阳多人购买商铺出租,正常运营6年没收到租金,开发商已破产

洛阳多人购买商铺出租,正常运营6年没收到租金,开发商已破产

极目新闻
2024-07-26 22:43:26
美男篮入住酒店曝光 600年历史豪华五星级 住没空调奥运村不可能

美男篮入住酒店曝光 600年历史豪华五星级 住没空调奥运村不可能

厝边人侃体育
2024-07-26 12:36:03
太残酷!20岁奥运冠军被全红婵淘汰,无缘征战巴黎,承认巅峰已过

太残酷!20岁奥运冠军被全红婵淘汰,无缘征战巴黎,承认巅峰已过

林小湜体育频道
2024-07-26 02:59:49
中信建投摊上事!实习生耍酷又炫富,信息量极大...

中信建投摊上事!实习生耍酷又炫富,信息量极大...

金石随笔
2024-07-26 16:21:09
刚刚抵达巴黎!中国队飞来横祸,28岁世界冠军意外受伤,退出奥运

刚刚抵达巴黎!中国队飞来横祸,28岁世界冠军意外受伤,退出奥运

杨哥历史
2024-07-26 16:50:31
广东村书记当街被杀,生前照片流出,双方恩怨被扒,知情人曝原因

广东村书记当街被杀,生前照片流出,双方恩怨被扒,知情人曝原因

谭谈社会
2024-07-26 17:46:00
这一次,铁头又踢到铁板了

这一次,铁头又踢到铁板了

清晖有墨
2024-07-26 09:23:36
老美的大清洗又开始了?美国正在收割印度,或将使印度衰退20年?

老美的大清洗又开始了?美国正在收割印度,或将使印度衰退20年?

Hi秒懂科普
2024-07-26 19:22:09
何猷君公司美国上市!何超盈4岁女儿为舅舅打气,正脸曝光像爸爸

何猷君公司美国上市!何超盈4岁女儿为舅舅打气,正脸曝光像爸爸

柠檬有娱乐
2024-07-27 10:22:48
“鲁D”怎么变“沪D”?一外牌车辆为在限行时段进入市区悬挂假车牌

“鲁D”怎么变“沪D”?一外牌车辆为在限行时段进入市区悬挂假车牌

新民晚报
2024-07-27 09:06:16
大反转!中信建投泄密实习生怕了发声道歉,父亲身份曝出事不简单

大反转!中信建投泄密实习生怕了发声道歉,父亲身份曝出事不简单

小淇言说
2024-07-26 22:57:18
2024-07-27 13:44:49
机器之心Pro
机器之心Pro
专业的人工智能媒体
9249文章数 141966关注度
往期回顾 全部

科技要闻

俞敏洪:以分手换安宁,剥离无法避免

头条要闻

中方代表在联合国发出质问:加沙还要死多少人才能停火

头条要闻

中方代表在联合国发出质问:加沙还要死多少人才能停火

体育要闻

奥运会能有今天,多亏了巴黎

娱乐要闻

《歌手2024》总决赛赛制被质疑好搞笑

财经要闻

董宇辉单飞,与辉同行到底值多少钱?

汽车要闻

售价18.27万/新外观 雪铁龙 天逸C5冠军版上市

态度原创

游戏
旅游
教育
家居
公开课

《使命召唤》曾悄悄对一半玩家减少SBMM以判定接受度

旅游要闻

麻路小镇,遗落人间的雪域明珠,邂逅边陲的诗与远方。

教育要闻

录取分数直逼清北!雷军班为何大热?

家居要闻

复古优雅 塞纳法式风情

公开课

曾激光治近视的人,现在后悔吗?

无障碍浏览 进入关怀版