网易首页 > 网易号 > 正文 申请入驻

研究人员提出模糊推理基准“青蛙”,助力理解大模型推理机制

0
分享至

对于 GPT-4 和 Claude-3.5 等大模型来说,它们已经给人类的生产生活带来了极大帮助。同时,也给这些大模型的能力上限留下了广阔的想象空间:即大模型究竟能完成多有挑战性的任务?

对于大模型能力一个直观的评估纬度便是推理能力。当前,对于推理能力的评估主要集中在精确推理,例如形式较为规范的数学推理和代码推理。

对于日常生活中广泛存在的含有模糊或不精确信息的推理问题当前的模型涉猎不足,例如“桌上有十个苹果,我拿走了一些,此时桌上还剩下多少苹果?”。

其中,一些(some)“大部分(most)”等通用量词(Generalized quantifier,以下简称“量词”)是一种常见的模糊表述方式。其特征是量词的强度通常是不精确的,例如“大部分”表示为一个超过一半的数量。

先前的工作曾通过引入模糊逻辑等方式,对于量词的强度进行建模。但是,这种方式往往基于少量数据并结合启发式的方法,无法拓展到解决复杂的具有现实意义的模糊推理问题。

基于这种研究现状,美国北卡罗来纳大学博士生李逸远和所在团队推出了首个基于现实数学问题的模糊推理基准“青蛙”(FRoG: Fuzzy Reasoning of Generalized Quantifiers)[1]。

日前,相关论文以《FROG:大语言模型中广义量词模糊推理的评估》(FROG:Evaluating Fuzzy Reasoning of Generalized Quantifiers in Large Language Models)为题发在 EMNLP(Empirical Methods in Natural Language Processing) 2024[1]。

李逸远是第一作者,上海交通大学刘鹏飞副教授担任通讯作者。

对于“青蛙”榜单来说,它通过将量词与来自小学数学问题集 GSM8K[2] 和留学研究生入学考试(GRE,Graduate Record Examination)以及经企管理研究生入学考试(GMAT,Graduate Management Admission Test)难度数学题的 MathQA[3] 中的问题相结合,构造出能被用于评测大模型模糊推理能力的问题。

通过对市面上比较常用的十几类大模型进行评测,课题组发现大模型在“青蛙”的模糊推理问题上展现出和精确推理不同的行为模式:

首先,一些常用的用于增强大模型推理能力的方法,例如对于数学或代码方面的专项训练或是一些对齐手段,对于提升模型的模糊推理能力并没有展现出一致的有效性。

其次,在大模型的发展中,人们的一个重要发现便是规模定律(Scaling Law)[4],即模型的测试损失与模型的训练数据量、参数量呈现相关关系,越大的训练数据和模型参数规模,往往带来更好的模型性能。因而扩大模型参数成为提升下游任务性能的一种常见手段。

而该团队观察到在“青蛙”上超过半数评测的大模型出现 inverse scaling effect(即随着模型参数量上升,任务性能反而下降)。

再次,对于“青蛙”中的问题,他们构造了保留问题形式和内容,但不包含量词的精准推理集作为模型性能下降的对比。

他们观察到模型在精确推理的场景下往往性能较优,并且遵循 scaling law,但是在模糊推理的场景下表现比较一般。

例如,Meta 发布的 Llama3-70B-Instruct 模型在精确推理场景下正确率可以超过 60%,但在模糊推理场景下正确率下降到不足 30%。

这说明对于提升模糊推理来说,或许不能简单地照搬在研究精确推理中得出的方法和结论,也说明领域内对于模糊推理的研究依旧处于方兴未艾的状态。

李逸远表示,一开始着手研究模糊推理问题的时候,他们发现首先需要一个评测榜单,只有这样才能了解到当前大模型模糊推理能力的现状。

与数学推理不同的是,对于如何完成模糊推理问题,目前尚没有广为接受的形式和定义。

因此他们所面临的第一个难点是:如何获取可用于模糊推理的推理数据。

虽然互联网上有着海量的语料,但是直接从中识别带有推理结果的模糊推理问题非常有挑战性。于是他们决定从改造现有的数学问题入手。

另一个问题是如何在推理问题中加入模糊信息,这涉及到首先对于模糊信息进行一定程度的量化。

为此,他们选择基于之前对于量词强度的研究 [6],以量词表达式的形式在数学推理中添加模糊信息。

同时,由于加入了模糊信息,导致推理的结果可能是不够精确的,那么应该用什么样的方式评测模糊推理能力?经过考虑之后,他们决定采用多项选择题的形式消解结果中的不确定性,通过让模型选择与结果最相近的量词选项评估其表现。

在模型评测的过程中他们发现了 inverse scaling effect,这时他们开始思考:大模型是如何进行模糊推理的,该如何直观地展现这个过程?

他们围绕过往用于增强模型推理能力的途径,来探寻这些途径是否对于模糊推理起到了帮助。

通过观察大模型的推理结果,发现了大模型不同于精准推理的推理方式,例如模型在思维链 [5] 的形式下如何对模糊的信息进行评估和分析。

该项研究,在探寻和提升模型推理能力方面有着应用前景,例如:

一方面,当大模型的应用场景从现实世界完整抽象出具体知识的推理问题(例如数学和编程问题)扩展到需要基于对于现实世界理解的推理问题时,预计本次成果将能帮助理解大模型具体的推理机制。同时,这一评测基准也为进一步全面提升模型的推理能力提供参考。

另一方面,通过对于模糊推理问题的研究,他们希望本次成果能为构建更加广阔的推理场景中的数据带来一定的启发。同时,对推理过程的引导(例如思维链)对于大模型推理能力非常重要。

对于模糊推理等复杂且推理过程难以形式化的问题,之前模型不能进行高质量的推理,所以该团队希望本次成果能够吸引人们关注对于这些问题推理过程的诱导。

后续,课题组还希望能够围绕如何建立用于提升模糊推理的训练方法, 如何让模型在推理中处理不能进行完全符号化运算的信息展开研究,也希望能够继续完善对于这类推理问题的评测手段。

参考资料:

1.Yiyuan Li, Shichao Sun, Pengfei Liu. 2024. FRoG: Evaluating Fuzzy Reasoning of Generalized Quantifiers in Large Language Models. In Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing, pages 7239-7256, Miami, Florida, USA. Association for Computational Linguistics.arxiv.org/abs/2407.01046

2.Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, Christopher Hesse, and John Schulman. 2021. Training verifiers to solve math word problems.arxiv.org/abs/2110.14168

3.Aida Amini, Saadia Gabriel, Shanchuan Lin, Rik Koncel-Kedziorski, Yejin Choi, and Hannaneh Hajishirzi. 2019. MathQA: Towards interpretable math word problem solving with operation-based formalisms. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 2357–2367. aclanthology.org/N19-1245/

4.Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei. 2020. Scaling laws for neural language models. Preprint,arxiv.org/abs/2001.08361

5.Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, brian ichter, Fei Xia, Ed H. Chi, Quoc V Le, and Denny Zhou. 2022. Chain of thought prompting elicits reasoning in large language models. In Advances in Neural Information Processing Systems.https://openreview.net/forum?id=_VjQlMeSB_J

6.Yiyuan Li, Rakesh Menon, Sayan Ghosh, and Shashank Srivastava. 2023. Pragmatic reasoning unlocks quantifier semantics for foundation models. In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, pages 573–591, Singapore. Association for Computational Linguistics.arxiv.org/abs/2311.04659

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
那些八年前买ES8的人,还在开蔚来吗?

那些八年前买ES8的人,还在开蔚来吗?

电动星球News
2026-06-28 15:06:17
基本上可以确定,只要伊朗轰炸美国本土,伊朗战争就会立刻结束

基本上可以确定,只要伊朗轰炸美国本土,伊朗战争就会立刻结束

揭秘历史的真相
2026-06-14 20:35:29
精神小妹的生活原来是这样的!网友:终于知道她们为啥都这么瘦了

精神小妹的生活原来是这样的!网友:终于知道她们为啥都这么瘦了

深度报
2026-02-11 23:35:03
双休毁了孩子?深圳高考成绩打脸众人:别再甩锅给学校了!

双休毁了孩子?深圳高考成绩打脸众人:别再甩锅给学校了!

手工制作阿爱
2026-06-28 13:37:43
成不了中国,就把中国变印度?印度人在华频频作恶,到底啥意思?

成不了中国,就把中国变印度?印度人在华频频作恶,到底啥意思?

静夜史君
2026-06-28 00:05:19
中国网友的造梗能力能拿世界杯冠军

中国网友的造梗能力能拿世界杯冠军

雷斯林
2026-06-25 14:27:51
温州老板砸400万送独女留美,23岁的女儿被认识三周的男人杀死

温州老板砸400万送独女留美,23岁的女儿被认识三周的男人杀死

贱议你读史
2026-06-26 15:39:21
岸田文雄冒着被骂的风险,对中国说了大实话!高市比想象中狠得多

岸田文雄冒着被骂的风险,对中国说了大实话!高市比想象中狠得多

浮黎礼
2026-06-27 15:02:54
阶级斗争论愚蠢至极?把贫富差距分为阶级歪理邪说!

阶级斗争论愚蠢至极?把贫富差距分为阶级歪理邪说!

王二哥老搞笑
2026-06-28 15:41:20
比亚迪新车官宣:6月29日,正式上市!

比亚迪新车官宣:6月29日,正式上市!

科技堡垒
2026-06-27 11:29:21
解放军终于官宣六代机,一个镜头信息量极大,服役来得或比预期早

解放军终于官宣六代机,一个镜头信息量极大,服役来得或比预期早

罗富强说
2026-06-28 18:10:09
穆里尼奥绝不惯着!皇马亿元水货即将出局,世界杯成最后自救机会

穆里尼奥绝不惯着!皇马亿元水货即将出局,世界杯成最后自救机会

澜归序
2026-06-28 08:13:16
随着阿根廷3-1约旦, 斯卡洛尼和教练组, 极有可能做出以下三个改变

随着阿根廷3-1约旦, 斯卡洛尼和教练组, 极有可能做出以下三个改变

刘哥谈体育
2026-06-28 15:38:21
梅朗雄:法国必须退出北约,绝不能暴力对抗中国

梅朗雄:法国必须退出北约,绝不能暴力对抗中国

观察者网
2026-06-28 14:17:07
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
危险堪比核弹,需中国帮忙监控,萨雷兹湖为何令中亚四国胆战心惊

危险堪比核弹,需中国帮忙监控,萨雷兹湖为何令中亚四国胆战心惊

月光作笺a
2026-06-28 01:35:31
前线国门紧闭,后方门户洞开?为何中国对印度移民大开方便之门?

前线国门紧闭,后方门户洞开?为何中国对印度移民大开方便之门?

静夜史君
2026-06-17 01:15:26
贝克汉姆14岁的女儿小七怎么如此成熟了,好像少妇

贝克汉姆14岁的女儿小七怎么如此成熟了,好像少妇

西楼知趣杂谈
2026-06-13 19:52:21
韩国瑜走到了“对立面”,13名蓝委有新动作,傅崐萁态度明确!

韩国瑜走到了“对立面”,13名蓝委有新动作,傅崐萁态度明确!

阿嬍体育评论
2026-06-28 19:09:10
活该!这是出轨的下场

活该!这是出轨的下场

阿凯销售场
2026-06-28 13:43:49
2026-06-28 20:31:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16890文章数 515059关注度
往期回顾 全部

科技要闻

DeepSeek最新论文:如何让大模型跑得更快

头条要闻

李在明发文批韩国队:把无能之辈放到指挥位置是失败

头条要闻

李在明发文批韩国队:把无能之辈放到指挥位置是失败

体育要闻

韩国可算确定被淘汰了

娱乐要闻

曾沛慈拿下《乘风2026》年度总冠军

财经要闻

两只股票撑起的韩国股市,半年熔断 33 次

汽车要闻

搭载华为乾崑六件套 东风奕派M8预售19.98万起

态度原创

房产
手机
艺术
数码
时尚

房产要闻

全国高考大放水,300分就能上本科!论上岸率,海南没输过!

手机要闻

1999元起 荣耀X80 Pro Max首销大卖:斩获2026年安卓新品首销日销量第一

艺术要闻

23幅 张文惠风景油画选

数码要闻

机械师GTR迷你主机新增“R7 255H + 16G + 1T”规格,4699元

“你有一个跟工作无关的爱好吗?”

无障碍浏览 进入关怀版