网易首页 > 网易号 > 正文 申请入驻

UC伯克利等最新实锤:LLM就是比人类啰嗦,「提问的艺术」仍难参透

0
分享至

新智元报道

编辑:peter东 乔杨

【新智元导读】基于一段文本提问时,人类和大模型会基于截然不同的思维模式给出问题。大模型喜欢那些需要详细解释才能回答的问题,而人类倾向于提出更直接、基于事实的问题。

如果要你负责企业培训,培训结束需要出一份考试题目,那如今你可以选择将培训材料交给大模型,由大模型来负责出题并给出参考答案。

不过由大模型给出的考题,和人类出的题目究竟有没有差别,以及有哪些差别?

最近,加州大学伯克利分校、沙特阿拉伯阿卜杜拉国王科技城(KACST)和华盛顿大学的研究人员发表了一项研究,首次系统评价了大模型提问的能力,并指出大模型和人类的提问模式存在显著差异。

论文地址:https://arxiv.org/pdf/2501.03491

评价提问的四个维度

这项研究基于维基百科的文本,将文本拆分为86万个段落,之后通过亚马逊Mechanical Turk众包平台,由人类参与者为每个段落撰写对应的题目及答案,人类给出的文本将作为评估大模型的基准。

图1:大模型出题并评价的模式

之后,研究人员将这些段落交给主流的大模型,包括闭源的GPT-4o和开源的LLaMA-3.1-70b-Instruct,由大模型根据段落内容及上下文提问,之后对问题的评价也由大模型进行。

对问题的评价共包含6个指标,分为2组。前三个标准评估问题本身,而第二组标准负责评估反映问题质量的潜在答案。首先介绍与答案无关的标准。

1. 问题类型

对于人类来说,选择问哪个问题具有主观性。这项研究定义了十种问题类型,例如验证/确认问题,具体事实与数据问题及身份和归属问题等。

2. 问题长度

主要测量的是组成问题的单词数量。除了直接比较人类和大模型所生成的问题长度外,该研究还考察了问题长度与问题类型之间的关系。

3. 上下文覆盖率

上下文通常包括多个句子,问题可能只针对一个句子中的一个事实,或者需要跨越多个句子进行推理。这项标准旨在反映问题覆盖文本内容的长度,研究还分析了在生成过程中,大模型是否会有倾向性地关注上下文中的哪些特定部分。

4. 可回答程度

一个问题的关键质量标准是它是否可以在特定知识的基础上被精确地回答。具体来说,生成的提问应在提供上下文的情况下可回答,而非是模棱两可的。

5. 罕见性

大模型是在互联网上广泛可用的常识上进行训练。因此,即使没有明确提供上下文,大模型仍然可以进行提问,因此需要评估问题相对于其预训练数据的罕见程度,从而判断大模型究竟是有的放矢地提问,还是问给出一些泛泛而谈的问题。

6. 答案所需的长度

除了问题长度外,所需答案的长度是衡量提问模式的一个更有效的指标。然而,由于生成模型的回答往往冗长且包含很多无用细节,所以首先要明确提示模型提供最短的文本作为回答,并指导模型在一定的字数限制内生成答案。此外,研究者还会对这些答案进行额外评估,以确定是否可以用更少的词达到相同的质量评级。

大模型vs.人类,问题差异在哪

研究结果显示,首先:在问题类型上,与人类相比,大模型更倾向于提出需要描述性、更长答案的问题,大约 44%的人工智能生成问题是这一类。

这可能是因为大模型在训练过程中接触到了大量描述性文本。而人类倾向于提出更直接、基于事实的问题,例如核查具体的事实和数字,或者人物、地点、事件等。

而在问题长度上,,大模型生成的问题长度更长,而且不同模型对问题长度的偏好有所不同,例如GPT-4o 生成的描述性问题更长。而人类生成的问题更短,且不同类型的问题间长度差异较大。

图2:大模型提问的问题长度,前两行是人类参与者的问题长度

而在上下文覆盖上,人类产生的问题能更全面地覆盖上下文信息,包括句子级别和词语级别。这意味着相比人类,大模型的提问难以更全面地覆盖所有文本,往往会揪着一个细节去提问。

图3:大模型和人类提出问题对应的上下文在句子和单词层面的覆盖比

更值得关注的是,大模型更关注文本的前部和后部,而忽略中间部分,这一点之前的研究也有提及。

图4,大模型提问对不同位置的段落的覆盖情况

对于提出的问题是否可以被解答,需要根据上下文信息分别判断。如果提问所依据的文本包含了背景介绍,此时大模型生成的问题通常有清晰的答案。而如果文本中缺少上下文信息,缺乏常识的大模型生成的问题的可回答性会显著下降,甚至有些问题无法回答。

图5,对比文本包含上下文以及不包含上下文时,大模型提出的问题时具有可回答度的评分分布

类似的,由于生成模型的特性,大模型生成的问题通常需要更长的答案、包含更多细节。同时大模型生成的答案可压缩性较差:尽管可以压缩,但仍然需要比人类更长的答案。

图6:大模型和人类提出问题对应的回答的长度

研究AI提问的意义

这项研究中,交给AI提问的只是一个段落,而非具有更丰富上下文的文章。未来的研究,需要考察的是大模型面对更长的文本,甚至是多篇长文本组成的书籍时会提出怎样的问题,并考察不同阅读难度、不同学科背景的文本。

如今AI生成的提问在商业产品中变得越来越普遍。例如,亚马逊的购物助手会建议与产品相关的问题,而 搜索引擎Perplexity和X的聊天机器人Grok则使用后续问题来帮助用户深入了解主题。

由于AI问题具有于区别于人类提问者的独特模式,我们就可以据此测试RAG系统,或识别AI系统何时在编造事实。

对大模型提问模式的了解,还可以帮助用户编写更好的提示词,无论是希望AI生成更类人的问题,还是要求有特定特征的问题。

随着人们越来越依赖大模型,本文最初描述的基于大模型出考试题,将会在未来变得越来越普遍,进而潜移默化地影响人类学生的思考模式,也许会让我们的下一代变得啰啰嗦嗦,或者看文章时只关注特定细节,尤其是头尾部的(考核中的重点)。

不过大模型的提问模式也是可以微调的,知道了大模型提问和人类的差异,我们就可以有针对性地进行改变。

参考资料:

https://arxiv.org/pdf/2501.03491

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
18岁少女发明净水黑科技:无滤芯循环过滤,微塑料去除率超95%

18岁少女发明净水黑科技:无滤芯循环过滤,微塑料去除率超95%

DeepTech深科技
2026-03-25 13:48:24
国产笔记本CPU偷梁换柱翻车!官方终于回应:生产失误、全额退款

国产笔记本CPU偷梁换柱翻车!官方终于回应:生产失误、全额退款

快科技
2026-03-25 10:14:04
2026.3.27【A股早报】:注意!国家队也出现了大幅亏损!

2026.3.27【A股早报】:注意!国家队也出现了大幅亏损!

旌阳财经视角
2026-03-27 06:30:03
两省省委领导班子调整

两省省委领导班子调整

上观新闻
2026-03-25 15:07:07
随着哲凯赖什戴帽+比分3-1,瑞典淘汰乌克兰,进欧预赛附加赛决赛

随着哲凯赖什戴帽+比分3-1,瑞典淘汰乌克兰,进欧预赛附加赛决赛

侧身凌空斩
2026-03-27 05:40:00
外资巨头悄然加仓A股医药,哪些细分领域被看好?

外资巨头悄然加仓A股医药,哪些细分领域被看好?

流苏晚晴
2026-03-26 18:47:44
投资近7亿元,沈阳这家医院新址就要开工了!

投资近7亿元,沈阳这家医院新址就要开工了!

沈阳百姓一家亲
2026-03-27 00:08:33
曾因污言秽语被封禁的张雪峰,凭什么让郑大悼念,新华社发讣告?

曾因污言秽语被封禁的张雪峰,凭什么让郑大悼念,新华社发讣告?

观察者海风
2026-03-25 22:10:33
5月1日起,全国电动车彻底“变天”,家家户户都要注意

5月1日起,全国电动车彻底“变天”,家家户户都要注意

番外行
2026-03-26 08:19:47
教育彻底变天!2026届初中生注意,这是最后一届只拼分数的一届

教育彻底变天!2026届初中生注意,这是最后一届只拼分数的一届

老特有话说
2026-03-25 15:22:58
奇才落选秀里斯26分17板创NBA纪录,生涯前6场60板比肩奥尼尔

奇才落选秀里斯26分17板创NBA纪录,生涯前6场60板比肩奥尼尔

懂球帝
2026-03-26 12:27:11
太意外!米兰宝格丽之夜合影:刘亦菲两度被挤,下意识动作引热议

太意外!米兰宝格丽之夜合影:刘亦菲两度被挤,下意识动作引热议

时间巡查
2026-03-25 04:28:00
故事:山东一男子救下5只黄鼠狼后,身上频发怪事,至今都难以解释

故事:山东一男子救下5只黄鼠狼后,身上频发怪事,至今都难以解释

清茶浅谈
2024-12-04 14:29:09
3笔签约正式达成!恭喜詹姆斯·哈登,签2年7500万美元合同最合理

3笔签约正式达成!恭喜詹姆斯·哈登,签2年7500万美元合同最合理

翰飞观事
2026-03-26 20:19:10
戏外一样猛!《侠探杰克》男主当街KO邻居,警方认定:正当防卫

戏外一样猛!《侠探杰克》男主当街KO邻居,警方认定:正当防卫

仰卧撑FTUer
2026-03-26 22:37:11
深圳多处出现,一大批人都在偶遇!网友:“我都舍不得踩!”

深圳多处出现,一大批人都在偶遇!网友:“我都舍不得踩!”

深圳晚报
2026-03-26 10:20:44
偷偷结婚生子?移民国外?李梓萌消失2月引争议,担心的事发生了

偷偷结婚生子?移民国外?李梓萌消失2月引争议,担心的事发生了

离离言几许
2026-03-16 16:31:23
山东女子车位被占,对方拒绝挪车还辱骂,派出所里叫嚣:多大点事

山东女子车位被占,对方拒绝挪车还辱骂,派出所里叫嚣:多大点事

川渝视觉
2026-03-26 21:46:10
这4种鱼,可能含有甲醛和重金属,建议:还是少吃比较好!

这4种鱼,可能含有甲醛和重金属,建议:还是少吃比较好!

阿龙美食记
2026-03-24 21:52:23
河南三个大爷自驾三轮车出游106天,总里程超3000公里,平均年龄超75岁!游历八省,分工明确,当事人:出发前约定互不追责,子女签字见证

河南三个大爷自驾三轮车出游106天,总里程超3000公里,平均年龄超75岁!游历八省,分工明确,当事人:出发前约定互不追责,子女签字见证

大风新闻
2026-03-25 19:23:14
2026-03-27 07:40:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14821文章数 66720关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普再表态:伊朗必须达成协议 否则将面临猛烈攻势

头条要闻

特朗普再表态:伊朗必须达成协议 否则将面临猛烈攻势

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
亲子
房产
数码
游戏

教育要闻

健康第一理念下,校长管理的智慧:有所为,有所不为

亲子要闻

这娃生下来就是报恩的,听到他说对不起的时候,眼泪一下子就出来了

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

数码要闻

8.8英寸天玑9500小钢炮!REDMI K Pad 2入网:下月见

任天堂加持!FS社新作或成为Switch 2永久独占

无障碍浏览 进入关怀版