网易首页 > 网易号 > 正文 申请入驻

TASLP | 从判别到生成:基于对比学习的生成式知识抽取方法

0
分享至

世界是所有事实,而不是事物的总和

——《逻辑哲学论》

随着计算能力的提高和神经网络的发展,大规模预训练语言模型在语义理解效果方面取得了极大的提升。然而,具备海量参数的诸如GPT-3模型仍然会犯一些基本的事实性错误,无法回答例如“我的脚有几个眼睛”这种违背常识的问题。数据驱动的模型很聪明,但缺乏对事实、常识等知识的理解。“数据”+“知识” 是解决这一挑战的技术思路之一,而知识抽取是其中最为重要的一环。

论文题目: Contrastive Information Extraction with Generative Transformer 本文作者: 张宁豫(浙江大学)、叶宏彬(浙江大学)、邓淑敏(浙江大学)、谭传奇(阿里巴巴)、陈漠沙(阿里巴巴)、黄松芳(阿里巴巴)、黄非(阿里巴巴)、陈华钧(浙江大学) 接收期刊: IEEE/ACM Transactions on Audio, Speech, and Language Processing (中科院一区) 论文链接: https://ieeexplore.ieee.org/document/9537684

一、引言

在具体的业务如医疗场景,结构化的领域知识有利于实现精准的复杂问答,有利于实现细粒度文本理解。高精度的领域知识图谱,是实现智能搜索、问答、推荐等业务场景的基石。然而如何抽取知识?它有哪些挑战?本文旨在回答以上几个问题,并介绍我们发表在IEEE/ACM Transactions on Audio, Speech, and Language Processing的一篇基于对比学习的生成式信息抽取论文。

二、如何抽取知识?

知识抽取(又称信息抽取),即从自然语言文本中,抽取出特定的事实信息, 这些信息通常包括实体(Entity)、关系(Relation)、事件(Event)。通常而言,知识抽取技术主要包含实体识别、关系抽取、事件抽取。知识抽取可以分为基于管道的方法和基于端到端的方法。基于管道的方法通常采用不同的模型如实体识别模型和关系抽取模型分别进行知识抽取,然而这种做法通常面临误差传播问题(虽然论文[2]指出误差传播并非主要因素)。基于端到端模型的方法采用联合训练的判别方式进行知识抽取,主流的方法有基于级联二值标注算法(CasRel)[3]、基于令牌对链接的算法(TPLinker)[4]、基于三维立体解码的方法(StereoRel)[8]、基于统一标签空间解码的方法(UniRE)[9]、基于独立片段的算法(PL-Marker)[10] 等,此外有学者提出了基于端到端生成的模型如CopyRE[5]、CopyMTL[6]等进行知识抽取。

三、动机

端到端生成的方法相比于传统分类的方法,具有模型简洁和实体关系深度交互的特点,可以使用单一的神经网络进行知识抽取。然而,以往的端到端生成式方法仍然面临以下的挑战。首先,由于递归神经网络(RNN)的固有缺陷,它们无法捕获长期依赖关系,从而导致重要信息的丢失,使得抽取模型无法应用于长文本。其次,模型缺乏生成符合事实多元组的能力。Seq2seq模型在一定程度上会记住高频出现的知识,导致生成一些不忠实于输入文本的知识序列,从而产生意义上的矛盾。例如,给定句子“美国总统特朗普在纽约市皇后区长大,并居住在那里直到13岁”,该模型可以生成事实知识(特朗普,出生于,皇后区)。尽管该知识是正确的,但我们无法从给定的句子中找到直接的证据来支持它。此外,现有的模型无法同时处理实体关系三元组和事件多元组。

四、方法

为了解决这些问题,我们扩展了之前发表在AAAI2021的工作[1],提出了基于对比学习的生成式信息抽取模型(CGT)。该框架基于一个共享的Transformer模块,采用编码器-解码器的生成式N元组抽取和对比学习的多任务学习模式。我们首先使用分隔符和部分因果掩码机制将输入序列与目标序列连接起来,以区分编码器-解码器表示形式。然后,我们提出一个N元组对比优化目标来约束模型,其中真实的N元组作为正样本,随机采样的N元组构作为负样本。为了同时优化N元组生成目标和对比学习目标,我们引入了分批的动态注意掩码机制,该机制允许我们动态选择不同的掩码机制并优化任务。最后,我们采用了一种N元组校准算法,在推理阶段过滤掉违背事实的N元组。

五、实验

我们分别对五个基准数据集(实体关系抽取、事件抽取)进行了实验:NYT,WebNLG和MIE、ACE-2005、MUC-4。MIE是医学领域的大规模中文对话信息提取数据集。我们在五个数据集上都取得了较好的效果。可以看出,对比学习的引入显著提升了模型效果。此外,与基于分类的模型相比,生成式具有较大的搜索空间,模型优化较为困难,因此在某些数据集上仍然无法取得最优效果。

详细的技术细 节可以阅读我们的论文。

六、小结与展望

随着预训练模型的不断发展,端到端生成的知识抽取方法越来越受到学者们的关注。相比于传统分类的方法,具有模型简洁和实体关系深度交互的特点。本文提出了一种基于对比学习的生成式信息抽取方法,在多个数据集上取得了较好的效果。在未来,我们将考虑深入研究复杂长文本和低资源情景下的生成式知识获取。

Reference

[1] Contrastive Triple Extraction with Generative Transformer

[2] A Frustratingly Easy Approach for Joint Entity and Relation Extraction

[3] A Novel Cascade Binary Tagging Framework for Relational Triple Extraction

[4] TPLinker : Single-stage Joint Extraction of Entities and Relations Through Token Pair Linking

[5] Extracting Relational Facts by an End-to-end Neural Model with Copy Mechanism

[6] CopyMTL: Copy Mechanism for Joint Extraction of Entities and Relations with Multi-Task Learning

[7] Entity-Relation Extraction as Multi-Turn Question Answering

[8] StereoRel: Relational Triple Extraction from a Stereoscopic Perspective

[9] UniRE: A Unified Label Space for Entity Relation Extraction

[10] Pack Together: Entity and Relation Extraction with Levitated Marker

本文作者

张宁豫

张宁豫,博士,浙江大学助理研究员,阿里巴巴-浙江大学前沿技术联合研究中心知识引擎实验室研究员,中国中文信息学会青年工作委员会委员,中国中文信息学会语言与知识计算专业委员会委员,2017年毕业于浙江大学计算机科学与技术学院,师从陈华钧教授,主要研究方向为自然语言处理、知识表示与推理等。

Illustrastion b y Natasha Remarchuk from Icons8

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线330+期talk视频,900+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,

对用户启发更大的文章,做原创性内容奖励。

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

>> 投稿请添加工作人员微信!

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
德国,藏着1307个,你连名字都没听过的“土财主”

德国,藏着1307个,你连名字都没听过的“土财主”

清沐执笔
2026-05-25 18:05:11
歼-15近乎全退役,成全球最短命舰载机,有何短板?

歼-15近乎全退役,成全球最短命舰载机,有何短板?

紧跟时代脉搏
2026-05-20 13:55:55
美国至今搞不懂,一个没出过国的中国人,为何能设计出于敏构型?

美国至今搞不懂,一个没出过国的中国人,为何能设计出于敏构型?

慕名而来只为你
2026-05-23 03:48:06
默森:希望阿隆索能够召回雅克松,他成就了帕尔默

默森:希望阿隆索能够召回雅克松,他成就了帕尔默

懂球帝
2026-05-26 08:48:11
晚清姑娘被卖去美国,当成“动物”展览,一次收费50美分观看身体

晚清姑娘被卖去美国,当成“动物”展览,一次收费50美分观看身体

历史龙元阁
2026-05-24 10:15:17
31个失误+排名118!郑钦文沦为平庸,是伤病还是心魔?

31个失误+排名118!郑钦文沦为平庸,是伤病还是心魔?

曹老师评球
2026-05-25 23:14:41
董存瑞的遗言不是“为了新中国,前进!”,老战友称:只有两个字

董存瑞的遗言不是“为了新中国,前进!”,老战友称:只有两个字

莫地方
2026-04-10 10:26:25
央媒发文,高调官宣张艺谋新身份,全家移民美国改国籍真相大白!

央媒发文,高调官宣张艺谋新身份,全家移民美国改国籍真相大白!

九号探秘人
2026-05-24 23:57:53
就这么官宣了?央视:歼-35型舰载机登上辽宁舰,这意味着什么?

就这么官宣了?央视:歼-35型舰载机登上辽宁舰,这意味着什么?

易昂杨
2026-05-26 03:23:53
1958年蒋介石最后一次见张学良,说道:西安的事对国家损失太大了

1958年蒋介石最后一次见张学良,说道:西安的事对国家损失太大了

别人都叫我阿腈
2026-05-26 02:18:43
《主角》:龚丽丽给易青娥下药!苟存忠临死前一句话,竟救她一命

《主角》:龚丽丽给易青娥下药!苟存忠临死前一句话,竟救她一命

慢半拍sir
2026-05-24 22:14:09
《主角》忆秦娥跟刘红兵同居!胡三元才懂,花彩香的良苦用心

《主角》忆秦娥跟刘红兵同居!胡三元才懂,花彩香的良苦用心

讯崽侃天下
2026-05-26 07:47:50
两个超级大国接连犯下致命错误,全世界只剩我国一个超级大国了

两个超级大国接连犯下致命错误,全世界只剩我国一个超级大国了

揭秘历史的真相
2026-05-25 22:33:26
刚刚 | 盒马道歉:全部下架!

刚刚 | 盒马道歉:全部下架!

天津广播
2026-05-25 22:54:46
王洪文让叶飞写检讨,叶飞直接放狠话,王洪文气得拍桌子

王洪文让叶飞写检讨,叶飞直接放狠话,王洪文气得拍桌子

文史季季红
2026-05-26 08:50:03
柬媒爆料:中国15家企业承诺,送50万人去柬!1000多条评论很一致

柬媒爆料:中国15家企业承诺,送50万人去柬!1000多条评论很一致

消失的电波
2026-05-22 21:31:30
丑人多作怪?被“网暴”多年后傅首尔终于急了,怪不得网友嘴太毒

丑人多作怪?被“网暴”多年后傅首尔终于急了,怪不得网友嘴太毒

琴琴有氧运动
2026-05-19 04:47:56
AC米兰人事大地震!官宣主帅管理层集体下课!球迷:想念马尔蒂尼

AC米兰人事大地震!官宣主帅管理层集体下课!球迷:想念马尔蒂尼

球叮足球
2026-05-26 09:47:11
深圳常住人口首次突破1800万,去年增量居全国城市首位

深圳常住人口首次突破1800万,去年增量居全国城市首位

界面新闻
2026-05-25 19:21:51
已成功瘦了 30斤,我发现提高代谢关键吃法是:早餐吃够蛋白质

已成功瘦了 30斤,我发现提高代谢关键吃法是:早餐吃够蛋白质

新时代的两性情感
2026-05-15 10:08:20
2026-05-26 10:03:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2389文章数 596关注度
往期回顾 全部

科技要闻

今年秋季,麒麟芯片将首次落地"逻辑折叠"

头条要闻

牛弹琴:"两个铁杆"来北京 一个当场落泪一个带来喜讯

头条要闻

牛弹琴:"两个铁杆"来北京 一个当场落泪一个带来喜讯

体育要闻

如果不好好守门,他可能早就继承家业了

娱乐要闻

李晨郑恺跑男停宣:12年元老被边缘化

财经要闻

走近何庭波

汽车要闻

启境GT7定档5月29日预售 提供三电机版本

态度原创

数码
艺术
教育
时尚
公开课

数码要闻

AMD Zen 7架构CCD或采用台积电A14工艺 最高支持16核

艺术要闻

毛主席“寿”字气韵更胜四大家,江湖丑书凭何登堂入室中书协?

教育要闻

入选即标杆:首批科技教育实验区/校将获得哪些政策红利?

彩色衬衫太适合夏天了,高级又气质

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版