网易首页 > 网易号 > 正文 申请入驻

研究人员提出模糊推理基准“青蛙”,助力理解大模型推理机制

0
分享至

对于 GPT-4 和 Claude-3.5 等大模型来说,它们已经给人类的生产生活带来了极大帮助。同时,也给这些大模型的能力上限留下了广阔的想象空间:即大模型究竟能完成多有挑战性的任务?

对于大模型能力一个直观的评估纬度便是推理能力。当前,对于推理能力的评估主要集中在精确推理,例如形式较为规范的数学推理和代码推理。

对于日常生活中广泛存在的含有模糊或不精确信息的推理问题当前的模型涉猎不足,例如“桌上有十个苹果,我拿走了一些,此时桌上还剩下多少苹果?”。

其中,一些(some)“大部分(most)”等通用量词(Generalized quantifier,以下简称“量词”)是一种常见的模糊表述方式。其特征是量词的强度通常是不精确的,例如“大部分”表示为一个超过一半的数量。

先前的工作曾通过引入模糊逻辑等方式,对于量词的强度进行建模。但是,这种方式往往基于少量数据并结合启发式的方法,无法拓展到解决复杂的具有现实意义的模糊推理问题。

基于这种研究现状,美国北卡罗来纳大学博士生李逸远和所在团队推出了首个基于现实数学问题的模糊推理基准“青蛙”(FRoG: Fuzzy Reasoning of Generalized Quantifiers)[1]。

日前,相关论文以《FROG:大语言模型中广义量词模糊推理的评估》(FROG:Evaluating Fuzzy Reasoning of Generalized Quantifiers in Large Language Models)为题发在 EMNLP(Empirical Methods in Natural Language Processing) 2024[1]。

李逸远是第一作者,上海交通大学刘鹏飞副教授担任通讯作者。

对于“青蛙”榜单来说,它通过将量词与来自小学数学问题集 GSM8K[2] 和留学研究生入学考试(GRE,Graduate Record Examination)以及经企管理研究生入学考试(GMAT,Graduate Management Admission Test)难度数学题的 MathQA[3] 中的问题相结合,构造出能被用于评测大模型模糊推理能力的问题。

通过对市面上比较常用的十几类大模型进行评测,课题组发现大模型在“青蛙”的模糊推理问题上展现出和精确推理不同的行为模式:

首先,一些常用的用于增强大模型推理能力的方法,例如对于数学或代码方面的专项训练或是一些对齐手段,对于提升模型的模糊推理能力并没有展现出一致的有效性。

其次,在大模型的发展中,人们的一个重要发现便是规模定律(Scaling Law)[4],即模型的测试损失与模型的训练数据量、参数量呈现相关关系,越大的训练数据和模型参数规模,往往带来更好的模型性能。因而扩大模型参数成为提升下游任务性能的一种常见手段。

而该团队观察到在“青蛙”上超过半数评测的大模型出现 inverse scaling effect(即随着模型参数量上升,任务性能反而下降)。

再次,对于“青蛙”中的问题,他们构造了保留问题形式和内容,但不包含量词的精准推理集作为模型性能下降的对比。

他们观察到模型在精确推理的场景下往往性能较优,并且遵循 scaling law,但是在模糊推理的场景下表现比较一般。

例如,Meta 发布的 Llama3-70B-Instruct 模型在精确推理场景下正确率可以超过 60%,但在模糊推理场景下正确率下降到不足 30%。

这说明对于提升模糊推理来说,或许不能简单地照搬在研究精确推理中得出的方法和结论,也说明领域内对于模糊推理的研究依旧处于方兴未艾的状态。

李逸远表示,一开始着手研究模糊推理问题的时候,他们发现首先需要一个评测榜单,只有这样才能了解到当前大模型模糊推理能力的现状。

与数学推理不同的是,对于如何完成模糊推理问题,目前尚没有广为接受的形式和定义。

因此他们所面临的第一个难点是:如何获取可用于模糊推理的推理数据。

虽然互联网上有着海量的语料,但是直接从中识别带有推理结果的模糊推理问题非常有挑战性。于是他们决定从改造现有的数学问题入手。

另一个问题是如何在推理问题中加入模糊信息,这涉及到首先对于模糊信息进行一定程度的量化。

为此,他们选择基于之前对于量词强度的研究 [6],以量词表达式的形式在数学推理中添加模糊信息。

同时,由于加入了模糊信息,导致推理的结果可能是不够精确的,那么应该用什么样的方式评测模糊推理能力?经过考虑之后,他们决定采用多项选择题的形式消解结果中的不确定性,通过让模型选择与结果最相近的量词选项评估其表现。

在模型评测的过程中他们发现了 inverse scaling effect,这时他们开始思考:大模型是如何进行模糊推理的,该如何直观地展现这个过程?

他们围绕过往用于增强模型推理能力的途径,来探寻这些途径是否对于模糊推理起到了帮助。

通过观察大模型的推理结果,发现了大模型不同于精准推理的推理方式,例如模型在思维链 [5] 的形式下如何对模糊的信息进行评估和分析。

该项研究,在探寻和提升模型推理能力方面有着应用前景,例如:

一方面,当大模型的应用场景从现实世界完整抽象出具体知识的推理问题(例如数学和编程问题)扩展到需要基于对于现实世界理解的推理问题时,预计本次成果将能帮助理解大模型具体的推理机制。同时,这一评测基准也为进一步全面提升模型的推理能力提供参考。

另一方面,通过对于模糊推理问题的研究,他们希望本次成果能为构建更加广阔的推理场景中的数据带来一定的启发。同时,对推理过程的引导(例如思维链)对于大模型推理能力非常重要。

对于模糊推理等复杂且推理过程难以形式化的问题,之前模型不能进行高质量的推理,所以该团队希望本次成果能够吸引人们关注对于这些问题推理过程的诱导。

后续,课题组还希望能够围绕如何建立用于提升模糊推理的训练方法, 如何让模型在推理中处理不能进行完全符号化运算的信息展开研究,也希望能够继续完善对于这类推理问题的评测手段。

参考资料:

1.Yiyuan Li, Shichao Sun, Pengfei Liu. 2024. FRoG: Evaluating Fuzzy Reasoning of Generalized Quantifiers in Large Language Models. In Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing, pages 7239-7256, Miami, Florida, USA. Association for Computational Linguistics.arxiv.org/abs/2407.01046

2.Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, Christopher Hesse, and John Schulman. 2021. Training verifiers to solve math word problems.arxiv.org/abs/2110.14168

3.Aida Amini, Saadia Gabriel, Shanchuan Lin, Rik Koncel-Kedziorski, Yejin Choi, and Hannaneh Hajishirzi. 2019. MathQA: Towards interpretable math word problem solving with operation-based formalisms. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 2357–2367. aclanthology.org/N19-1245/

4.Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei. 2020. Scaling laws for neural language models. Preprint,arxiv.org/abs/2001.08361

5.Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, brian ichter, Fei Xia, Ed H. Chi, Quoc V Le, and Denny Zhou. 2022. Chain of thought prompting elicits reasoning in large language models. In Advances in Neural Information Processing Systems.https://openreview.net/forum?id=_VjQlMeSB_J

6.Yiyuan Li, Rakesh Menon, Sayan Ghosh, and Shashank Srivastava. 2023. Pragmatic reasoning unlocks quantifier semantics for foundation models. In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, pages 573–591, Singapore. Association for Computational Linguistics.arxiv.org/abs/2311.04659

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
闫学晶风波终于收场,6个男人惨遭牵扯,儿媳与继女不好过

闫学晶风波终于收场,6个男人惨遭牵扯,儿媳与继女不好过

乡野小珥
2026-01-26 12:39:45
CBA爆大冷!辽宁崩在第四节,广厦倒在客场, 杨鸣或辞职

CBA爆大冷!辽宁崩在第四节,广厦倒在客场, 杨鸣或辞职

林子说事
2026-01-26 13:15:07
美军惨败急封报告!大陆一锤定音:统一已成定局

美军惨败急封报告!大陆一锤定音:统一已成定局

我是盲流
2026-01-24 20:39:28
嘉定这里发现一清朝文物!

嘉定这里发现一清朝文物!

上观新闻
2026-01-26 09:17:30
赵睿或许会被CBA公司追加处罚!

赵睿或许会被CBA公司追加处罚!

体育哲人
2026-01-25 15:33:38
A股:今日行情太诡异了,冲到4160后大跳水!大变盘行情一触即发

A股:今日行情太诡异了,冲到4160后大跳水!大变盘行情一触即发

云鹏叙事
2026-01-26 11:33:47
1.26五百万基金|A股大跳水!大龙今天这样应对!

1.26五百万基金|A股大跳水!大龙今天这样应对!

龙行天下虎
2026-01-26 13:51:41
湖南平江县城市管理和综合执法局原党组书记、局长吴䶮良被查

湖南平江县城市管理和综合执法局原党组书记、局长吴䶮良被查

潇湘晨报
2026-01-26 14:11:07
金价上涨的第一批受害者出现了。

金价上涨的第一批受害者出现了。

爱吃糖的猫cat
2026-01-25 10:28:59
王欣瑜0-2不敌阿尼西莫娃,无缘澳网女单8强!也创造澳网最佳战绩

王欣瑜0-2不敌阿尼西莫娃,无缘澳网女单8强!也创造澳网最佳战绩

莼侃体育
2026-01-26 13:08:55
王诗龄这会儿估计也挺闹心的,李湘自己没料到,孩子怕是也想不通

王诗龄这会儿估计也挺闹心的,李湘自己没料到,孩子怕是也想不通

小光侃娱乐
2026-01-25 14:45:03
4-0,62岁穆帅发威,率队横扫阿马多拉之星,3连胜逼近前二

4-0,62岁穆帅发威,率队横扫阿马多拉之星,3连胜逼近前二

侧身凌空斩
2026-01-26 03:55:51
包养10位情妇,睡觉翻牌生下11个私生子,75岁还在拼命生娃!

包养10位情妇,睡觉翻牌生下11个私生子,75岁还在拼命生娃!

春秋论娱
2025-09-09 07:26:27
辽宁男篮辟谣!未收到杨鸣辞职申请,不能想走就走!

辽宁男篮辟谣!未收到杨鸣辞职申请,不能想走就走!

德译洋洋
2026-01-26 13:11:46
62岁的甘地跟一个美女扭捏作态,怎么看都不像禁欲主义者

62岁的甘地跟一个美女扭捏作态,怎么看都不像禁欲主义者

年代回忆
2026-01-20 21:34:53
白宫发布“特朗普和企鹅漫步格陵兰岛”图,遭群嘲

白宫发布“特朗普和企鹅漫步格陵兰岛”图,遭群嘲

新华社
2026-01-25 16:55:04
飞机超重2.3吨!那十块被蒋介石扔下的石头,竟是故宫的镇馆之魂

飞机超重2.3吨!那十块被蒋介石扔下的石头,竟是故宫的镇馆之魂

渊史墨途
2026-01-13 00:14:34
必看!如何用咖啡色搭配在夏天玩水更时尚?

必看!如何用咖啡色搭配在夏天玩水更时尚?

独角showing
2026-01-23 10:50:30
团长决意与敌人同归于尽,十七岁号兵高声呼喊:让我指挥!日后竟成开国少将

团长决意与敌人同归于尽,十七岁号兵高声呼喊:让我指挥!日后竟成开国少将

老杉说历史
2026-01-25 21:26:16
背刺中国,出卖孟晚舟的真凶被挖出来后,如今遭到了哪些报应

背刺中国,出卖孟晚舟的真凶被挖出来后,如今遭到了哪些报应

起喜电影
2026-01-23 16:20:08
2026-01-26 14:36:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16175文章数 514543关注度
往期回顾 全部

科技要闻

印奇再上牌桌,阶跃融资50亿

头条要闻

媒体:菲载300多人客船倾覆 中国没法救的原因很简单

头条要闻

媒体:菲载300多人客船倾覆 中国没法救的原因很简单

体育要闻

叛逆的大公子,要砸了贝克汉姆这块招牌

娱乐要闻

张雨绮被实名举报代孕、插足婚姻

财经要闻

从美式斩杀线看中国社会的制度韧性构建

汽车要闻

宾利第四台Batur敞篷版发布 解锁四项定制创新

态度原创

家居
手机
本地
亲子
公开课

家居要闻

流韵雅居,让复杂变纯粹

手机要闻

卢伟冰:2000-3000元档的“焊门”任务由REDMI Turbo系列完成

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

亲子要闻

卵巢功能下降如何补救?高龄备孕前吃什么调理身体?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版