网易首页 > 网易号 > 正文 申请入驻

六大维度,LLM「问题生成」首次正面PK人类!伯克利等发布最新研究

0
分享至

新智元报道

编辑:LRS

【新智元导读】研究人员首次探讨了大型语言模型(LLMs)在问题生成任务中的表现,与人类生成的问题进行了多维度对比,结果发现LLMs倾向于生成需要较长描述性答案的问题,且在问题生成中对上下文的关注更均衡。

长期以来,问题生成(Question Generation)任务都是根据「给定事实」来编写各种相关问题,已经发展出了很多自动化的方法。

大型语言模型(LLM)的兴起,极大提升了各种自然语言处理(NLP)任务的性能,其中也包括问题生成,虽然应用广泛,但还没有研究讨论过「用LLMs生成问题的特点」。

没有额外提示约束时,LLMs是更倾向于生成较长还是较短的问题?倾向于问什么类型的问题?LLMs生成的问题与人类编写的问题又有哪些不同?

最近,加州大学伯克利分校、阿卜杜勒阿齐兹国王科技城、华盛顿大学的研究人员提出了一种基于LLMs的自动化评估方法,重点关注问题的长度、类型、上下文覆盖范围和可回答性等维度,结果发现LLMs倾向于生成需要描述性、较长答案的问题;

常见的问答任务中,人类更倾向于选择文章的开始结束位置生成问题,LLMs对整个上下文的关注更加均衡。

论文链接:https://arxiv.org/pdf/2501.03491

虽然已经有研究通过实证来评估人类一致性,但还没有将LLMs生成问题的质量标准与人类生成问题进行对比。

这篇文章首次揭示了LLMs在问题生成中的偏好,通过引入自动评估流程,扩展了现有的统计问题质量标准,研究发现为评估下游应用(如RAG系统和幻觉检测)的提示工程优化提供了经验,可以防止在不当情境下的滥用,更深入地了解LLMs在问题生成中的行为倾向。

生成流程与指标

从上下文中生成问题

问题的输入包括:一个段落文本作为上下文C,一个问题生成指令提示P;大模型M的输出为N个问题Q,其中每个问题都可以用上下文中的事实来回答。

不能直接使用LLM进行问题生成:问题假定读者对上下文的某个特定范围很熟悉;生成的问题可能没有标准答案;有些问题直接引用了上下文,如果没有上下文就无法回答。

所以研究人员设计了一段提示词:

You are to generate [N] self-contained short answer questions based on the facts mentioned in the following content. Avoid questions that reference the content directly. Each question should include all relevant context and directly name any referenced items, avoiding pronouns like "it," "the game," or "the person." Do not include phrases that reference the source or context, such as "mentioned in the article" or "according to the text." Provide the questions in an ordered list.

你需要根据以下内容中提到的事实生成[N]个自成一体的简短答案问题。避免直接引用内容的问题。每个问题都应包含所有相关的上下文,并直接提及任何被引用的项目,避免使用「它」「这款游戏」或「这个人」等代词。不要包含引用来源或上下文的短语,如「文章中提到的」或「根据文本」。将问题以有序列表的形式提供。

为了构建上下文C,研究人员将WikiText数据集分割成86万个段落,同时保留章节结构作为元数据;在过滤掉过短的段落并清理特殊字符后,通过整合段落文本并附加相关章节标题来组成上下文。

该流程类似于HotpotQA的先上下文后问题的方法,众包人员根据维基百科的多个证据段落生成问题;作为对比,TriviaQA是一个由知识竞赛爱好者编纂的问答数据集,标注人员根据问题在文章中寻找证据。

与答案无关的评估指标

问题类型

对于人类来说,选择提出哪种问题是主观的,研究人员探索了在没有额外约束的情况下LLMs能够生成的问题类型,分析了十个手动定义类别的问题类型(通过观察HotpotQA、TriviaQA和论文数据集中的混合问题得到),并将其与人类的偏好进行比较。

问题长度

长度是生成问题的一个直观统计指标,研究人员主要统计单词数量;除了直接比较人类生成和LLMs生成数据集中的问题长度外,还考察了问题长度与问题类型之间的关系。

下文覆盖范围

一个问题可能需要跨多个句子进行推理,研究人员扩展了基于提示的句子级测量方法,还研究了单词级上下文覆盖范围;分析了在生成过程中LLMs倾向于关注上下文的哪些具体部分。

结果可以看到,问题生成并不遵循之前研究中讨论问答中的类似位置偏差。

与答案有关的评估指标

可回答性(Answerability)

问题的关键质量标准是,在给定特定知识的情况下,是否能够被精确回答,即在提供上下文时,生成的问题应该是可回答的。

研究人员提示LLMs使用给定的上下文作为输入来生成答案;由于答案的正确性也是基于相同的上下文来评估的,因此在大多数情况下,生成的问题都是可回答的。

非常见性(Uncommonness)

LLMs的预训练数据基于互联网上广泛可用的常识,即使没有明确提供上下文,LLMs仍然可能回答问题。

与可回答性评估相比,关键区别在于在答案生成过程中省略了上下文,而其他因素保持不变;结果也可以看到,去除上下文会显著降低答案质量,也表明,生成的问题对于评估RAG系统或进行自动幻觉测试很有价值。

所需答案长度(Required answer length)

除了问题长度外,所需答案的长度也是衡量问题信息量的有效的指标。

由于生成模型的特性,生成的答案往往更长,包含更多细节;为了从带有上下文生成的答案中筛选出不必要的信息,研究人员使用了两种策略来测量答案的基本长度:1)要求模型生成的文字答案最短;2)设置生成字数限制。

结果显示,该方法可以用更少的字数实现相同的质量评级,并显著降低答案长度,第二种策略通常来说更好。

实验结果

研究人员使用两个具有代表性的大型语言模型(LLMs)进行评估:闭源的GPT-4o和开源的LLaMA-3.1-70b-Instruct,每个模型都使用相同的256个采样的维基百科上下文(N=4)生成1024个问题;大约使用了5万次聊天调用。

在答案评分方面,人工标注与GPT-4o评估之间的平均皮尔逊相关系数为0.77,表明存在很强的正线性相关性。

LLMs会提什么类型的问题?

根据预定义的问题类型,研究人员将其分为三组:LLaMA和GPT模型都强烈倾向于询问具体的事实和数字,可能与训练数据的分布有关;不太容易提出的问题是根据上下文中的多个事实进行推理,与HotpotQA更相似;大模型也更倾向于询问描述类、需要详细答案的问题,这种偏好也导致了答案更长。

生成的问题有多长?

尽管整体的问题长度大致相似,约为20个单词,但不同的LLMs倾向于表现出对长度的不同偏好;人类生成的问题长度变化更大。

使用了多少上下文以及具体是哪部分?

人类生成的问题倾向于覆盖更多的上下文,无论是句子级还是单词级测量结果都是一致的。

人类生成的问题倾向于集中在上下文的开头,但LLMs生成的问题呈现出更均衡的分布,表明基于LLMs的问题生成与问答相比显示出几乎相反的位置关注焦点。

生成的问题是否可以在有/无上下文的情况下回答?

通过结合答案生成和评分,可以观察到,在有上下文的情况下,LLMs通常能生成令人满意的答案,符合预期。

当不提供上下文时,性能会下降,大约四分之一的生成问题无法得到合适的回答,GPT-4o生成的问题与人类构建的HotpotQA数据集相比,显示出更高比例的非常见问题。

回答问题需要多少信息?

LLMs生成的答案通常比人类标注的正确答案要长得多,可能是因为生成模型的特性。

为了更准确地衡量所需信息量,将LLMs生成的答案压缩,在保持评分的情况下生成最短版本。

参考资料:

https://arxiv.org/abs/2501.03491

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
央视发文,张展硕再破天花板,让孙杨潘展乐和整个泳坛“沉默”了

央视发文,张展硕再破天花板,让孙杨潘展乐和整个泳坛“沉默”了

振华观史
2025-11-19 15:59:52
吴艳妮哭成泪人!颁奖典礼掩面痛哭,三届全运会无缘金牌

吴艳妮哭成泪人!颁奖典礼掩面痛哭,三届全运会无缘金牌

奥拜尔
2025-11-19 22:57:40
世界太魔幻,高中学历骗子成我国大学首席科学家,学术圈怎么了?

世界太魔幻,高中学历骗子成我国大学首席科学家,学术圈怎么了?

李将平老师
2025-11-18 20:28:43
山东女团夺冠!范思琦仰天怒吼,何卓佳场下自闭,陈梦落泪!

山东女团夺冠!范思琦仰天怒吼,何卓佳场下自闭,陈梦落泪!

篮球资讯达人
2025-11-19 21:49:04
日官员沉默离华,日媒称中方一个举动罕见,这次会谈信息有点多

日官员沉默离华,日媒称中方一个举动罕见,这次会谈信息有点多

之乎者也小鱼儿
2025-11-19 15:50:30
全世界在等的Gemini 3终于来了!强到断崖领先,连马斯克OpenAI都夸好

全世界在等的Gemini 3终于来了!强到断崖领先,连马斯克OpenAI都夸好

智东西
2025-11-19 03:25:59
杭州官宣取消灵隐寺门票

杭州官宣取消灵隐寺门票

界面新闻
2025-11-19 10:37:00
赴日游客在日媒前表示:不在乎政府的呼吁,花钱是自己的自由!

赴日游客在日媒前表示:不在乎政府的呼吁,花钱是自己的自由!

翻开历史和现实
2025-11-19 12:51:46
15号模特广东冠军后续:一身赘肉是何来头?最新回应:会给交代!

15号模特广东冠军后续:一身赘肉是何来头?最新回应:会给交代!

阿纂看事
2025-11-19 09:07:36
还想淡化?日媒最新爆料

还想淡化?日媒最新爆料

环球时报国际
2025-11-19 22:09:33
霍尊也没想到,自己复出后,分手五年的陈露亲手撕碎他最后的体面

霍尊也没想到,自己复出后,分手五年的陈露亲手撕碎他最后的体面

手工制作阿歼
2025-11-19 09:56:53
辣眼睛!又是出轨,响水47秒成关键词,某金店女店长登上热搜…

辣眼睛!又是出轨,响水47秒成关键词,某金店女店长登上热搜…

火山诗话
2025-11-19 20:30:15
100米栏悲喜夜:3人打开13秒!吴艳妮第2夏思凝第4,广东名将夺冠

100米栏悲喜夜:3人打开13秒!吴艳妮第2夏思凝第4,广东名将夺冠

球场没跑道
2025-11-19 21:33:01
喻恩泰离婚大战!老婆偷情“大”男生,聊天记录露骨又大胆

喻恩泰离婚大战!老婆偷情“大”男生,聊天记录露骨又大胆

叶公子
2025-11-19 19:04:02
“漏X装”,火了!

“漏X装”,火了!

微微热评
2025-11-19 14:51:31
中方舰队刚进钓鱼岛,日本采取行动,不到24小时,美方下场搅局

中方舰队刚进钓鱼岛,日本采取行动,不到24小时,美方下场搅局

博览历史
2025-11-19 18:36:57
前日军退将曾扬言:若不考虑弹道导弹,日本海自一周全歼中国舰队

前日军退将曾扬言:若不考虑弹道导弹,日本海自一周全歼中国舰队

不掉线电波
2025-11-19 16:31:08
喻恩泰和妻子婚内双出轨,聊天记录不堪入目,妻子约P喜欢大的

喻恩泰和妻子婚内双出轨,聊天记录不堪入目,妻子约P喜欢大的

社会酱
2025-11-19 17:42:35
已确认是张颂文!从车祸现场离去后被官媒报道,高群书果然没说错

已确认是张颂文!从车祸现场离去后被官媒报道,高群书果然没说错

鹿楠
2025-11-18 22:45:03
里子面子都没了!邹市明赔光两亿后,冉莹颖亲手撕碎他最后的体面

里子面子都没了!邹市明赔光两亿后,冉莹颖亲手撕碎他最后的体面

赶鸭子上架
2025-11-14 15:48:42
2025-11-20 00:04:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13908文章数 66278关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

体育要闻

世界杯最小参赛国诞生!15万人岛国的奇迹

娱乐要闻

史林子出轨对方前妻放锤!

财经要闻

重磅!中金公司拟收购东兴与信达证券

汽车要闻

此刻价格不重要 第5代帝豪本身就是价值

态度原创

游戏
健康
家居
教育
时尚

《33号远征队》总监大力称赞《失落的奥德赛》

警惕超声报告这六大"坑"

家居要闻

水岸美学 书香人文生活

教育要闻

体测全员满分!人航校长周建华:AI赋能,让体育教学精准高效

辛芷蕾的炸裂10分钟,让人大受震撼

无障碍浏览 进入关怀版