网易首页 > 网易号 > 正文 申请入驻

GPT-4理解武林外传中的含蓄表述,达人类水平

0
分享至


大数据文摘受权转载自夕小瑶科技说

作者 | 谢年年

在人际交谈中,特别是在使用中文这样博大精深的语言时,人们往往不会直接回答问题,而是采用含蓄、隐晦或间接的表达方式。

人类根据以往的经验或是对说话者的了解可以对一些言外之意做出准确的判断,比如我们小时候经历过无数次的对话情景:

“妈妈,我的书放哪啦?”

“在我手上,来拿嘛!”

又或是:

“妈妈,今天我想吃红烧肉可以吗?”

“你看我像不像红烧肉。”

面对妈妈给出的看似回答了又什么都没有说的回应,我们能迅速get到妈妈不想搭理我们的心情。那LLMs在面对类似的会话隐喻(conversational implicature)时能理解到说话人真正的含义吗?

上交最近从经典情景喜剧《武林外传》中提取出首个针对会话隐喻的中文多轮对话数据集,挑选出200个精心设计的符合会话隐喻的问题,并对八个LLMs进行了多项选择题任务和隐喻解释两项任务的测试。结果显示会话隐喻这一任务对LLMs来说仍然充满挑战。

论文标题:
Do Large Language Models Understand Conversational Implicature – A case study with a Chinese sitcom

论文链接:
https://arxiv.org/pdf/2404.19509

数据集构造

本文选取了在中国广受欢迎的情景喜剧《武林外传》作为数据源。该剧不仅包含了大量富有深意的对话,而且对话文笔优美,均基于自然发生的场景,质量上乘,十分适合用于评估语言模型在理解和推断中文对话深层含义方面的能力。

数据集构造原则

合作原则(The Cooperative Principle)是语言学中的一个重要理论,是由牛津大学的美国语言哲学家Grice于1967年的“逻辑与会话”的演讲中提出的。合作原则包括四个范畴,每个范畴又包括一条准则和一些次准则,即:

  1. 质的准则(Quality)
    a)不要说自知是虚假的话(Do not say what you believe is false);
    b)不要说缺乏足够证据的话(Do not say that for which you lack adequate evidence);

  2. 量的准则(Quantity)
    a)所说的话应该满足交际所需的信息量(Make your contribution as informative as is required);
    b)所说的话不应超出交际所需的信息量(Do not make your contribution more informative than is required);

  3. 关系准则:说话要相关 (Be relevant)
    例如:当被问到“约翰在办公室吗?”时,山姆回答:“今天是周六,你知道的”。这违反了关系准则,因为回答与问题不直接相关,从而产生了隐含含义:“约翰周末从不工作,所以他不在办公室”。

  4. 方式准则:说话要清楚、明了 (Be perspicuous)
    a)避免晦涩 [Avoid obscurity];
    b)避免歧义 [Avoid ambiguity];
    c)简练[Be brief (avoid unnecessary prolixity)];
    d)井井有条 [Be orderly]。

然而,人们在实际言语交际中,并非总是遵守“合作原则”,出于需要,人们会故意违反合作原则。Grice把这种通过表面上故意违反“合作原则”而产生的言外之意称为“conversational implicature(会话隐喻)”。这解释了听话人是如何透过说话人话语的表面含义而理解其言外之意的,由此来表达另外一种意思,幽默也就时常在这时产生。

本文正是通过以上这些原则来挑选出对话制作针对会话隐喻的多轮对话中文数据集。

隐喻的识别与分类

三位作者从《武林外传》脚本中通过判断是否违反了会话原则而挑选出包含会话隐喻的对话,为了进行更细致的分类,使用子准则作为标准,评估目标句子是否满足每个要求。如果一句话违反了子准则,就认为它违反了该准则。对话可能根据违反的子准则属于多个类别。一个示例数据条目,包括对话、四种解释和类别,如下图所示:


接下来构建对话的四种解释:

  1. 语用解释(the pragmatic interpretation),也就是正确答案;

  2. 字面解释(the literal interpretation);

  3. 两个与上下文相关的干扰项(distractors)

基于以上解释构建了选择题,聘请塞纳名语言学博士作答,并讨论错误答案和推理过程。这个验证过程确保提供的语用理解与常识直觉紧密一致,并能从有限的上下文中推断出来。对话开头补充了必要的信息,如人物关系、性格、社会背景和多模态信息。

人类评分

为了与人类表现进行比较, 邀请了10位母语者随机回答了数据集中抽取的32个问题,平均准确率为93.1%。问卷中各类问题(即对话中违反格赖斯准则的情况)的数量相同。

最终的SwordsmanImp语料库包含200个经过精心挑选的问题,按照合作原则分为四类,如下表所示。每个条目包含多轮对话和四个目标句子的解释作为选择项。


实验一:LLM做多选题
实验设置

在这个实验中,模型将看到对话及手动创建的四种解释。任务是针对包含言外之意的语句选择正确的解释。

作者测试了八种模型。包括开源与闭源模型,使用零样本提示来模拟人类日常遇到这些暗含言外之意的真实场景。

对于开源模型,遵循LLM评估的既定做法,即计算“ A”、“B”、“C”、“D”这四个Token在生成后得到的logits,选择具有最高logit值的一个 作为模型预测;对于闭源模型,让它生成答案,然后人工检查生成的文本以确定选择了哪个解释。

实验结果

实验结果如下表所示,GPT-4的准确率高达94%,其表现与人类相当,显示出强大的能力。紧随其后的是CausalLM (14B),其准确率为78.5%,也表现出不俗的性能。

然而其他模型面临了较大困难,它们的准确率普遍在20%到60%之间。特别值得注意的是Textdavinci-002的准确率甚至未能达到随机水平(25%),这表明测试模型在理解隐含意义方面仍有很大的提升空间。


下表详细展示了不同模型在违反不同会话准则中的表现:


总体来看,模型们在不同准则上的表现各有千秋,没有一个模型在所有准则上都展现出一致的强项或弱点。人类的回答也显示了这种多样性。

在开源模型中,CausalLM (14B)的准确率接近人类水平,在所有开源模型中表现最佳,显示出其强大的对话理解能力。

而GPT-4在所有模型中的表现最为突出,其准确率在所有类别问题中都超过了90%,再次证明了其在NLP领域的领先地位。

下图展示了模型在解释选择上的分布情况。红色代表模型选择了正确的答案,即语用解释;黄色代表选择了字面含义;而绿色则代表选择了两个干扰项。


可以看到两个13B模型在选择干扰项上的频率较高,这可能暗示它们较易受到上下文中非相关信息的干扰。

另外,随着GPT模型的不断演进,它们逐渐能够更好地区分字面含义与隐含含义。特别是GPT-4,在解释选择中,对字面理解的比例显著降低,这进一步验证了模型在理解复杂语言现象方面的进步。

实验二:评估LLM生成解释的质量

作者设计了开放性问题,要求模型生成对言外之意的解释,然后由中文母语者根据生成解释的合理性(reasonability)、逻辑性(logic)和流畅性(fluency)进行人工评估。结果如下表所示:


GPT-4在所有三个维度上的得分均位居榜首,且其得分的方差最小,显示出稳定且卓越的性能。GPT-3.5-Turbo的评分虽然也较高,但标准差较大,这反映出其性能存在一定的不稳定性。其他三个模型的评分则相对接近,统计检验显示它们之间没有显著差异。

然而,值得注意的是CausalLM(14B)的得分低于GPT-3.5-Turbo,这与在实验1中的观察结果并不一致。这一发现揭示了模型在特定任务(如从四个选项中选择答案)上的优秀表现,并不一定能保证它们在其他任务(如提供连贯的隐含意义解释)中同样出色。这进一步说明了模型在处理不同任务时可能存在的性能差异。

下图呈现了一个模型生成的典型对话示例。


通过分析湘玉的话语中的隐含意义,我们可以理解到她实际上是在传达石头不宜再饮酒的警示,同时她的言辞中还透露出对石头的讽刺和不满情绪。

在示例中,GPT-4虽然给出了与参考解释相近的简洁说明,但它却错误地理解了讽刺的语气,将其解读为对石头酒量的质疑。

CausalLM(14B)虽然在总体上提供了正确的解释,但答案的质量受到了流畅度不佳的影响,出现了英文单词和无意义的字符序列“NST”。值得注意的是,“forgot his place.”这一表达实际上蕴含了正确的含义,可以将其视为语言代码的切换,而非无意义的输出。

Openbuddy-Llama2(13B)的回应则显得冗长且内容与问题不相关。

分析:LLM理解中文隐喻的能力到底如何?

实验一的结果表明,GPT-4在本文设定的基准测试中展现出了与人类相媲美的表现,而其他模型至少落后了15分,其中包括GPT-3.5-turbo。

这表明,虽然理论上最先进的LLMs有能力学习并理解中文隐喻,但对于大多数LLMs来说,这仍然是一项具有挑战性的任务。

实验二的结果揭示:一个在多项选择题中表现出色的模型(如CausalLM-14B),在自由文本生成任务中,即当需要自行解释言外之意时,可能会失败。这一发现让我们认识到,仅仅依赖多项选择题并不足以全面评估语言模型的语言能力。未来可以设计更复杂方法,以更好地量化模型对会话隐喻的自由形式的解释。

结论

本文构建了SwordsmanImp,这是首个用于评估LLMs对会话隐喻理解的细粒度中文数据,并进行了多项选择和自由生成解释两项任务评估LLMs对中文会话隐喻的理解能力。GPT-4在所有的对比模型中仍然是最能打的,甚至在多选题回答上达到了人类水平。

租售GPU算力

租:4090/A800/H800/H100

售:现货H100/H800

特别适合企业级应用

扫码了解详情☝


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
私人男模的烦恼:既要展示给画家母女画,又得应付她们的无理要求

私人男模的烦恼:既要展示给画家母女画,又得应付她们的无理要求

抚琴生
2024-01-26 09:33:47
1962年毛主席约谈陈云一小时,22天后陈云:心脏差,请求不去开会

1962年毛主席约谈陈云一小时,22天后陈云:心脏差,请求不去开会

历史龙元阁
2024-05-19 12:03:15
县城的现状,一针见血!

县城的现状,一针见血!

深度知局
2024-05-18 18:01:33
国家队下场!史诗级救市,来了

国家队下场!史诗级救市,来了

国民经略
2024-05-17 14:16:30
谢霆锋亲妈太懂穿搭了,一身学院风造型好显嫩,看脸也没啥皱纹

谢霆锋亲妈太懂穿搭了,一身学院风造型好显嫩,看脸也没啥皱纹

顶牌故事会
2024-05-19 12:00:24
字节员工自曝入职两天公司为其花了5万 “土鳖开眼了”

字节员工自曝入职两天公司为其花了5万 “土鳖开眼了”

手机中国
2024-05-17 14:32:24
领先20分被逆转?马龙发布会爆粗记者:赛季结束了!愚蠢的问题

领先20分被逆转?马龙发布会爆粗记者:赛季结束了!愚蠢的问题

818体育
2024-05-20 12:26:33
确诊癌症!浙江男子:平时身体不错啊!医生:有这症状赶紧去医院……

确诊癌症!浙江男子:平时身体不错啊!医生:有这症状赶紧去医院……

FM93浙江交通之声
2024-05-20 08:15:14
台当局刚统计完外宾人数,大陆还没出手,危地马拉就给其当头一棒

台当局刚统计完外宾人数,大陆还没出手,危地马拉就给其当头一棒

票姚校尉
2024-05-19 13:38:40
去相亲,女方在10分钟的时间里,吐了8次,还反复问我…

去相亲,女方在10分钟的时间里,吐了8次,还反复问我…

今日搞笑分享
2024-05-16 07:50:11
不想害你!我钱不干净,曝聊天记录!曝晨一400万合同运营小纯!沈曼锤佑扎恋

不想害你!我钱不干净,曝聊天记录!曝晨一400万合同运营小纯!沈曼锤佑扎恋

娱乐圈酸柠檬
2024-05-18 00:00:13
凡是当过领导的,特别是一把手的人,都有这10个特点

凡是当过领导的,特别是一把手的人,都有这10个特点

蘑菇老大
2024-05-19 14:57:06
45架大陆军机现身台湾,台军猛然发现:解放军正在干一件大事

45架大陆军机现身台湾,台军猛然发现:解放军正在干一件大事

良探长娱乐
2024-05-16 21:08:13
一个网友分享了他的公积金,可以计算出这位网友月收入4万以上。

一个网友分享了他的公积金,可以计算出这位网友月收入4万以上。

知秋侃史
2024-05-19 22:16:02
出狱9个月,喊话报复王宝强的宋喆,躲在小县城里憋什么大招?

出狱9个月,喊话报复王宝强的宋喆,躲在小县城里憋什么大招?

希公子
2024-05-19 15:18:46
世界排名又变化!美国3-0反超意大利,中国女排第6,大幅领先日本

世界排名又变化!美国3-0反超意大利,中国女排第6,大幅领先日本

刘姚尧的文字城堡
2024-05-20 06:37:18
已达740元/克!有人没买金饰“肠子悔青”:买了一堆施华洛世奇,现在回收也没人要

已达740元/克!有人没买金饰“肠子悔青”:买了一堆施华洛世奇,现在回收也没人要

每日经济新闻
2024-05-19 13:31:09
现场惨烈,3000乌军屠戮殆尽,特种兵瞬间气化,战场现重大转折

现场惨烈,3000乌军屠戮殆尽,特种兵瞬间气化,战场现重大转折

秦蓁
2024-05-19 12:15:03
王玉雯‖这校服?妥妥一透视装啊?

王玉雯‖这校服?妥妥一透视装啊?

室内设计师阿喇
2024-05-19 20:30:40
冯绍峰辟谣夜会两美女,赵丽颖专注事业,笑容迷人美如初恋

冯绍峰辟谣夜会两美女,赵丽颖专注事业,笑容迷人美如初恋

深剖娱乐圈
2024-05-19 17:21:54
2024-05-20 13:06:44
大数据文摘
大数据文摘
专注大数据,每日有分享!
6234文章数 94262关注度
往期回顾 全部

科技要闻

中美AI的五月剧变

头条要闻

上海一包子铺老板申请近10次未能办下招牌 街道办回应

头条要闻

上海一包子铺老板申请近10次未能办下招牌 街道办回应

体育要闻

8年半,讲不出再见

娱乐要闻

王俊凯现身蔡依林演唱会,牵手唱歌!

财经要闻

韵达快递乱象:管理以罚代管 新政落地难

汽车要闻

智驾升级/月底上市 问界新M7 MAX焕新版

态度原创

游戏
健康
亲子
公开课
军事航空

《幻耀的羽毛》Steam试玩发布 纵深卷轴3D射击

在中国,到底哪些人在吃“伟哥”?

亲子要闻

妈妈拍下爸爸带娃日常,爸爸以奶代茶和宝宝一起喝

公开课

父亲年龄越大孩子越不聪明?

军事要闻

80万人逃离拉法 以战时内阁现分歧

无障碍浏览 进入关怀版