网易首页 > 网易号 > 正文 申请入驻

六大维度,LLM「问题生成」首次正面PK人类!伯克利等发布最新研究

0
分享至

新智元报道

编辑:LRS

【新智元导读】研究人员首次探讨了大型语言模型(LLMs)在问题生成任务中的表现,与人类生成的问题进行了多维度对比,结果发现LLMs倾向于生成需要较长描述性答案的问题,且在问题生成中对上下文的关注更均衡。

长期以来,问题生成(Question Generation)任务都是根据「给定事实」来编写各种相关问题,已经发展出了很多自动化的方法。

大型语言模型(LLM)的兴起,极大提升了各种自然语言处理(NLP)任务的性能,其中也包括问题生成,虽然应用广泛,但还没有研究讨论过「用LLMs生成问题的特点」。

没有额外提示约束时,LLMs是更倾向于生成较长还是较短的问题?倾向于问什么类型的问题?LLMs生成的问题与人类编写的问题又有哪些不同?

最近,加州大学伯克利分校、阿卜杜勒阿齐兹国王科技城、华盛顿大学的研究人员提出了一种基于LLMs的自动化评估方法,重点关注问题的长度、类型、上下文覆盖范围和可回答性等维度,结果发现LLMs倾向于生成需要描述性、较长答案的问题;

常见的问答任务中,人类更倾向于选择文章的开始结束位置生成问题,LLMs对整个上下文的关注更加均衡。

论文链接:https://arxiv.org/pdf/2501.03491

虽然已经有研究通过实证来评估人类一致性,但还没有将LLMs生成问题的质量标准与人类生成问题进行对比。

这篇文章首次揭示了LLMs在问题生成中的偏好,通过引入自动评估流程,扩展了现有的统计问题质量标准,研究发现为评估下游应用(如RAG系统和幻觉检测)的提示工程优化提供了经验,可以防止在不当情境下的滥用,更深入地了解LLMs在问题生成中的行为倾向。

生成流程与指标

从上下文中生成问题

问题的输入包括:一个段落文本作为上下文C,一个问题生成指令提示P;大模型M的输出为N个问题Q,其中每个问题都可以用上下文中的事实来回答。

不能直接使用LLM进行问题生成:问题假定读者对上下文的某个特定范围很熟悉;生成的问题可能没有标准答案;有些问题直接引用了上下文,如果没有上下文就无法回答。

所以研究人员设计了一段提示词:

You are to generate [N] self-contained short answer questions based on the facts mentioned in the following content. Avoid questions that reference the content directly. Each question should include all relevant context and directly name any referenced items, avoiding pronouns like "it," "the game," or "the person." Do not include phrases that reference the source or context, such as "mentioned in the article" or "according to the text." Provide the questions in an ordered list.

你需要根据以下内容中提到的事实生成[N]个自成一体的简短答案问题。避免直接引用内容的问题。每个问题都应包含所有相关的上下文,并直接提及任何被引用的项目,避免使用「它」「这款游戏」或「这个人」等代词。不要包含引用来源或上下文的短语,如「文章中提到的」或「根据文本」。将问题以有序列表的形式提供。

为了构建上下文C,研究人员将WikiText数据集分割成86万个段落,同时保留章节结构作为元数据;在过滤掉过短的段落并清理特殊字符后,通过整合段落文本并附加相关章节标题来组成上下文。

该流程类似于HotpotQA的先上下文后问题的方法,众包人员根据维基百科的多个证据段落生成问题;作为对比,TriviaQA是一个由知识竞赛爱好者编纂的问答数据集,标注人员根据问题在文章中寻找证据。

与答案无关的评估指标

问题类型

对于人类来说,选择提出哪种问题是主观的,研究人员探索了在没有额外约束的情况下LLMs能够生成的问题类型,分析了十个手动定义类别的问题类型(通过观察HotpotQA、TriviaQA和论文数据集中的混合问题得到),并将其与人类的偏好进行比较。

问题长度

长度是生成问题的一个直观统计指标,研究人员主要统计单词数量;除了直接比较人类生成和LLMs生成数据集中的问题长度外,还考察了问题长度与问题类型之间的关系。

下文覆盖范围

一个问题可能需要跨多个句子进行推理,研究人员扩展了基于提示的句子级测量方法,还研究了单词级上下文覆盖范围;分析了在生成过程中LLMs倾向于关注上下文的哪些具体部分。

结果可以看到,问题生成并不遵循之前研究中讨论问答中的类似位置偏差。

与答案有关的评估指标

可回答性(Answerability)

问题的关键质量标准是,在给定特定知识的情况下,是否能够被精确回答,即在提供上下文时,生成的问题应该是可回答的。

研究人员提示LLMs使用给定的上下文作为输入来生成答案;由于答案的正确性也是基于相同的上下文来评估的,因此在大多数情况下,生成的问题都是可回答的。

非常见性(Uncommonness)

LLMs的预训练数据基于互联网上广泛可用的常识,即使没有明确提供上下文,LLMs仍然可能回答问题。

与可回答性评估相比,关键区别在于在答案生成过程中省略了上下文,而其他因素保持不变;结果也可以看到,去除上下文会显著降低答案质量,也表明,生成的问题对于评估RAG系统或进行自动幻觉测试很有价值。

所需答案长度(Required answer length)

除了问题长度外,所需答案的长度也是衡量问题信息量的有效的指标。

由于生成模型的特性,生成的答案往往更长,包含更多细节;为了从带有上下文生成的答案中筛选出不必要的信息,研究人员使用了两种策略来测量答案的基本长度:1)要求模型生成的文字答案最短;2)设置生成字数限制。

结果显示,该方法可以用更少的字数实现相同的质量评级,并显著降低答案长度,第二种策略通常来说更好。

实验结果

研究人员使用两个具有代表性的大型语言模型(LLMs)进行评估:闭源的GPT-4o和开源的LLaMA-3.1-70b-Instruct,每个模型都使用相同的256个采样的维基百科上下文(N=4)生成1024个问题;大约使用了5万次聊天调用。

在答案评分方面,人工标注与GPT-4o评估之间的平均皮尔逊相关系数为0.77,表明存在很强的正线性相关性。

LLMs会提什么类型的问题?

根据预定义的问题类型,研究人员将其分为三组:LLaMA和GPT模型都强烈倾向于询问具体的事实和数字,可能与训练数据的分布有关;不太容易提出的问题是根据上下文中的多个事实进行推理,与HotpotQA更相似;大模型也更倾向于询问描述类、需要详细答案的问题,这种偏好也导致了答案更长。

生成的问题有多长?

尽管整体的问题长度大致相似,约为20个单词,但不同的LLMs倾向于表现出对长度的不同偏好;人类生成的问题长度变化更大。

使用了多少上下文以及具体是哪部分?

人类生成的问题倾向于覆盖更多的上下文,无论是句子级还是单词级测量结果都是一致的。

人类生成的问题倾向于集中在上下文的开头,但LLMs生成的问题呈现出更均衡的分布,表明基于LLMs的问题生成与问答相比显示出几乎相反的位置关注焦点。

生成的问题是否可以在有/无上下文的情况下回答?

通过结合答案生成和评分,可以观察到,在有上下文的情况下,LLMs通常能生成令人满意的答案,符合预期。

当不提供上下文时,性能会下降,大约四分之一的生成问题无法得到合适的回答,GPT-4o生成的问题与人类构建的HotpotQA数据集相比,显示出更高比例的非常见问题。

回答问题需要多少信息?

LLMs生成的答案通常比人类标注的正确答案要长得多,可能是因为生成模型的特性。

为了更准确地衡量所需信息量,将LLMs生成的答案压缩,在保持评分的情况下生成最短版本。

参考资料:

https://arxiv.org/abs/2501.03491

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
心理学上有个词叫:土拨鼠之日效应(千万不要在家待太久,否则你会变傻)

心理学上有个词叫:土拨鼠之日效应(千万不要在家待太久,否则你会变傻)

德鲁克博雅管理
2025-11-13 17:10:14
黄锦燊累了,撇下赵雅芝自己先走了!79岁黄锦燊,一点都不合格!

黄锦燊累了,撇下赵雅芝自己先走了!79岁黄锦燊,一点都不合格!

小娱乐悠悠
2025-11-18 09:53:35
易烊千玺和李庚希上演了一场“咬脖”戏,末日禁忌恋磕疯了

易烊千玺和李庚希上演了一场“咬脖”戏,末日禁忌恋磕疯了

书台小事
2025-11-18 16:22:36
台湾终极解决方案:土地回归中国,人员往来自由,逃走不是中国人

台湾终极解决方案:土地回归中国,人员往来自由,逃走不是中国人

文史旺旺旺
2025-11-18 19:57:15
泰国王后这一跪,这才是顶级外交,她拜的不是佛,是两国的情谊

泰国王后这一跪,这才是顶级外交,她拜的不是佛,是两国的情谊

老塕是个手艺人
2025-11-19 04:03:13
随着上海3-0 北京3-0 全运会男团决赛对阵出炉:王楚钦再战樊振东

随着上海3-0 北京3-0 全运会男团决赛对阵出炉:王楚钦再战樊振东

侃球熊弟
2025-11-18 19:56:48
本泽马:我有可能重返皇马!德天空:曼城正式加入德甲边锋争夺!

本泽马:我有可能重返皇马!德天空:曼城正式加入德甲边锋争夺!

足球侦探
2025-11-19 08:35:03
文昌阁火灾原因找到了,游客或面临天价赔偿,管理方也难逃追责

文昌阁火灾原因找到了,游客或面临天价赔偿,管理方也难逃追责

可爱的罗
2025-11-15 06:09:33
超市被偷到倒闭,女老板起诉合伙人案二审因法官为同一人延期,提交的审计材料也被弄丢

超市被偷到倒闭,女老板起诉合伙人案二审因法官为同一人延期,提交的审计材料也被弄丢

大风新闻
2025-11-18 11:34:09
日本外务省官员离开中国外交部

日本外务省官员离开中国外交部

财联社
2025-11-18 14:34:09
山姆偷偷卖的山寨货,保住了中产的面子

山姆偷偷卖的山寨货,保住了中产的面子

蓝鲸新闻
2025-11-18 10:46:11
国防部定性高市早苗涉台言论:台湾问题是内政,日本干预就是侵略

国防部定性高市早苗涉台言论:台湾问题是内政,日本干预就是侵略

合赞历史
2025-11-18 14:11:25
全运会18日金牌榜:第一没悬念,东道主压力大,看你的家乡排第几

全运会18日金牌榜:第一没悬念,东道主压力大,看你的家乡排第几

萌兰聊个球
2025-11-19 07:40:44
中央考核巡查组进驻广西,严查这5个方面和抽查2个市

中央考核巡查组进驻广西,严查这5个方面和抽查2个市

前沿天地
2025-11-19 01:05:06
爆大冷!卫冕冠军1:3出局,孙颖莎连剃光头,山东3:2绝杀!

爆大冷!卫冕冠军1:3出局,孙颖莎连剃光头,山东3:2绝杀!

生活新鲜市
2025-11-19 05:22:08
受贿数额特别巨大,蛇年首“虎”被公诉!曾任市委书记、副省长

受贿数额特别巨大,蛇年首“虎”被公诉!曾任市委书记、副省长

上观新闻
2025-11-18 10:58:07
沃尔什:杰伦-布朗向马祖拉建议 可以让我成为防守尖兵的角色

沃尔什:杰伦-布朗向马祖拉建议 可以让我成为防守尖兵的角色

北青网-北京青年报
2025-11-19 08:39:04
关闭全部门店,盒马创始人又失败了

关闭全部门店,盒马创始人又失败了

邱处机
2025-11-17 19:06:09
腐败丑闻震动全国,乌前总统:泽连斯基内阁应全体辞职

腐败丑闻震动全国,乌前总统:泽连斯基内阁应全体辞职

环球时报国际
2025-11-18 14:37:26
向华为全额支付115亿,买下10%股份!2600亿的老牌车企,正式狂飙

向华为全额支付115亿,买下10%股份!2600亿的老牌车企,正式狂飙

毒sir财经
2025-11-18 23:26:58
2025-11-19 08:59:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13901文章数 66269关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

美女主播设"同城约会"骗局:刷礼物换"香艳"视频

头条要闻

美女主播设"同城约会"骗局:刷礼物换"香艳"视频

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

宋佳夺影后动了谁的奶酪

财经要闻

大规模宕机!美国多个网站崩了

汽车要闻

硬核配置旗舰气场 岚图泰山售37.99万起

态度原创

健康
本地
时尚
数码
亲子

警惕超声报告这六大"坑"

本地新闻

这档古早综艺,怎么就成了年轻人的哆啦A梦?

拍照不用露脸也很美!4个心机pose学起来,朋友圈狂收赞

数码要闻

苹果用3D打印造Apple Watch表壳,节省400吨钛原料

亲子要闻

冬季克服寒冷锻炼孩子意志力

无障碍浏览 进入关怀版