网易首页 > 网易号 > 正文 申请入驻

70亿LLaMA媲美5400亿PaLM!MIT惊人研究用「博弈论」改进大模型|ICLR 2024

0
分享至


新智元报道

编辑:桃子

【新智元导读】大模型回答如何更可靠?MIT研究团队设计出「共识博弈」,将数学家常用的博弈论引入LLM改进中。没想到,LLaMA-7B的表现,击败了LLaMA-65B,甚至与PaLM-540B相媲美。

遇到一个问题用不同表达方式prompt时,大模型往往会给出两种不同的答案。

比如,「秘鲁的首都是什么」,「利马是秘鲁的首都吗」。


对于这种回答不一致的问题,科学家们纷纷为大模型的「智商」担忧起来。

正如了LeCun所言:

LLM确实比狗积累了更多的事实知识和语言能力。但是它们对物理世界的理解能力,以及推理规划能力,远远不及狗。


那么,有没有一种方式,能够破解大模型幻觉,让结果更加准确、高效?

来自MIT的研究人员,将「博弈论」的思想引入大模型的改进中。

他们共同设计了一个游戏,在游戏中,让模型的两种模式(生成式和判别式)相互对抗,努力找到它们可以达成一致的答案。

这个简单的博弈过程,被称为「共识博弈」(CONSENSUS GAME)。

也就是,让模型自我对抗,以提升LLM准确性和内部一致性。


论文地址:https://openreview.net/pdf?id=n9xeGcI4Yg

具体来说,这是一种免训练,基于博弈论的语言模型解码过程。

新方法将语言模型解码,视为一种正则化的不完全信息序列信号博弈游戏——称之为CONSENSUS GAME(共识博弈)。

其中,生成器(GENERATOR)试图使用自然语言句子,向一个判别器(DISCRIMINATOR)传达抽象的正确性参数。


然后,研究人员开发了计算程序,以寻找博弈的近似均衡,从而得到一种名为「均衡排序」(EQUILIBRIUM-RANKING)的解码算法。

在多个基准测试中,「均衡排序」策略在LLaMA-7B的表现中,明显超越LLaMA-65B,并与PaLM540B相媲美。


最新论文已被ICLR 2024接收。


谷歌研究科学家Ahmad Beirami表示,「几十年来,LLM对提示的响应方式一直如出一辙。MIT研究人员提出了将博弈论引入这一过程的新颖想法,开创了一个全新的范式,这有可能带来大量新的应用」。

游戏,不再单纯是衡量AI的标准

以往,通过机器学习在游戏竞赛中的表现,去判断某个AI系统是否取得成功。

而这样的案例,比比皆是。

1997年,IBM深蓝计算机击败了国际象棋特级大师Garry Kasparov,创下了所谓的「思考机器」的里程碑。

19年后,谷歌DeepMind发明的AlphaGo,在围棋比赛中一举战胜李世石。

五局比赛中获胜四局,揭示了人类在某些领域已不再独占鳌头。


不仅如此,AI还在跳棋、双人扑克,以及其他的「零和游戏」中超越了人类。

与以往不同的是,MIT团队而是选择从另一个角度来看问题——用游戏去改进人工智能。

对于AI研究人员来说,一款称为「Diplomacy」的游戏,提出了一个更大的挑战。


由Allan B. Calhamer于1959年设计的经典桌游

与只有2个对手玩家的游戏不同,Diplomacy游戏有7个玩家参与,每个人的动机都很难看透。

要想获胜,玩家必须谈判,缔结合作关系,但不得不提防的是,任何时候任何人都可能遭到背叛。

这款游戏如此复杂,以至于2022年,Meta团队发布的Cicero在40局游戏后,达到「人类水平」时,引发一阵轰动。


论文地址:https://www.science.org/doi/10.1126/science.ade9097

尽管Cicero没能战胜世界冠军,但它在与人类参与者的比赛中进入了前10%,表现足够优秀。


现在,论文作者Athul Paul Jacob是MIT的博士生,曾在Meta实习期间参与了这次研究。

研究期间,Jacob对Cicero依赖语言模型,与其他玩家进行对话的事实感到震惊。

他感受到了,尚未开发出的AI潜力。


Athul Paul Jacob帮助设计了「共识博弈」——为LLM提供了一种提高其准确性和可靠性的方法

于是,他便提出,如果将重点转移到,利用游戏来提高LLM的性能上会怎样?

1000场比赛,让LLM自我对抗

为了追寻这一问题的答案,2023年Jacob与麻省理工学院的Yikang Shen、Gabriele Farina,以及导师Jacob Andreas一起研究,什么可以促进「共识博弈」。

这一思想的核心是,将两个人之间的对话想象成一个合作游戏。

当听者理解说话者想要传达的东西时,就成功了。

尤其是,「共识博弈」的目的是,旨在协调LLM的两个系统——生成器和辨别器。

众所周知,生成器负责处理生成性问题,而辨别器负责处理辨别性问题。


经过几个月的研究,他们终于将这一原则,构建成了一场完整的比赛。

首先,生成器收到一个问题——可以来自人类,也可以来自预存在的名单中,比如「奥巴马出生在哪里」。

然后,生成器会得到一些候选响应,比如火奴鲁鲁(Honolulu)、芝加哥(Chicago)、内罗毕(Nairobi)。

同样,这些响应的选项,可以来自人类、列表,或是由语言模型本身执行搜索。

但在回答之前,生成器会先根据一次公平的随机掷币的结果,被指示生成正确或错误的答复。


如果结果为正面,那么生成器就会尝试给出正确的答案。

然后,生成器将原始问题,及其选择的回答,一并发送给判别器。

如果判别器判定生成器,是有意地发送了正确的回答,作为一种激励,它们每人得到一分。

而如果结果为反面,生成器就会给出它认为是错误的答案,那判别器看出它故意给了错误答案,它们将在分别得到一分。

这就体现了策略的核心点,即通过激励,让它们达成一致。

在这个博弈过程开始时,生成器和判别器都有自己对答案的「先验信念」。

这些「信念」以概率分布的形式体现,比如,生成器基于从互联网获取的信息,可能会认为:

奥巴马出生在火奴鲁鲁的概率是80%,芝加哥10%,内罗毕5%,其他地方5%。

当然判别器,也会有不同概率分布的「先验信念」。

虽然两个「玩家」会因达成一致而获得奖励,但如果偏离自己「先验信念」太多时,也会被扣分。

这样一来,可以鼓励「玩家」将从互联网获取的知识,融入到回答中,从而让模型更加准确。

如果没有这种机制,它们可能会就一个完全错误的答案(如Delhi)上达成一致,却仍然获得分数。


对于每个问题,这两个系统相互之间进行了大约1000场比赛。

在无数次迭代的过程中,双方都了解了对方的「信念」,并相应地修改了自己的战略。

最终,生成器和判别器开始达成更多共识,因为它们逐渐进入了一种称为「纳什均衡」(Nash equilibrium)的状态。

这可以说是博弈论的核心概念。

「纳什均衡」代表了游戏中的一种平衡状态,在这点上,任何玩家都无法通过改变策略,来改善个人结果。

比如,在石头剪刀布游戏中,当玩家选择三个选项的概率正好都是1/3时,才能获得最佳结果,任何其他策略都会导致更糟糕的结果。


在「共识博弈」中,「纳什均衡」可以通过多种方式实现。

比如,判别器可能会观察到,每当生成器将奥巴马的出生地回答为「火奴鲁鲁」时,它就会得分。

经过多轮博弈,生成器和判别器会学习到,继续这种作答方式会得到奖励,而没有动机改变策略。

这种一致的作答方式,就代表了对于该问题的一种可能的「纳什均衡」。

70B参数Llama,媲美5400亿参数PaLM

除此之外,还可能存在其他「纳什均衡」的解。

MIT团队还依赖于一种改进的「纳什均衡」形式,结合了玩家们的「先验信念」,有助于让回答结果更加贴近现实。

为了测试「共识博弈」的效果,研究团队在一些中等参数规模的语言模型(70亿-130亿参数)上进行了一系列标准问题测试。

经过训练后的这些模型,正确答案的比例明显高于未经训练的模型,甚至高于一些拥有高达5400亿参数的大型模型PaLM。

这不仅提高了模型的答案准确性,也增强了模型的内部一致性。


另外,在TruthfulQA(生成)的结果上,具有ER-G的LLaMA-13B优于或与所有基线持平。


研究人员在GSM8K测试集上,对不同方法的平均准确率进行了评估和对比。

除了greedy外,都是对20个候选回答进行了采样。

基于「均衡排序」的方法,其性能与多数投票基线相当,或者稍微好一些。


一般来说,任何LLM都可以通过与自身进行「共识博弈」从中获益。

最重要的是,研究人员成,只需在一台笔记本上,进行的1000轮「共识博弈」仅需几毫秒的时间,计算代价很小。

Omidshafiei表示,「这种方法非常高效,不需要对基础语言模型进行训练或修改」。

下一步,大小模型一起游戏

在「共识博弈」取得初步成功后,Jacob现在正在探索将博弈论,应用到LLM研究中的其他方式。

在这个基础上,他现在又提出了一种新的方法,暂称为「集成博弈」(ensemble game)。

在「集成博弈」中,有一个主模型(primary LLM),与若干个小型模型进行博弈互动。

这些小型模型中,至少有一个扮演「盟友」角色,至少有一个扮演「对手」角色。

问题出现时,比如法国首都是什么,如果主模型与「盟友」模型给出相同答案,主模型会获得分数。


如果与「对手」模型给出不同答案,也会获得分数。

通过这种与小模型的博弈互动,并不需要对主模型进行额外训练或改变参数,就可以进一步提升主模型的性能表现。

这种将大模型与多个小模型集成互动的新范式,让大模型可以借鉴小模型的优点。

同时还能相互制约,从而提高整体的准确性和一致性。

在未来,它将为提升LLM性能开辟了一种全新的思路和方法。

参考资料:

https://www.quantamagazine.org/game-theory-can-make-ai-more-correct-and-efficient-20240509/


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
南京市雨花台区一居民楼凌晨发生火情,官方通报:起火点为外部空调平台,明火已被扑灭,无人员伤亡

南京市雨花台区一居民楼凌晨发生火情,官方通报:起火点为外部空调平台,明火已被扑灭,无人员伤亡

鲁中晨报
2024-06-05 14:51:15
中美关系一夜变天?专机直飞美国!拜登有事相求?背后有深意

中美关系一夜变天?专机直飞美国!拜登有事相求?背后有深意

诉说人世间
2024-06-06 04:20:02
2比0横扫火力全开!17岁天才少女剑指大满贯,网友:超越郑钦文

2比0横扫火力全开!17岁天才少女剑指大满贯,网友:超越郑钦文

体坛知识分子
2024-06-05 06:05:02
34岁女警察2刀将丈夫捅死,丈夫生前求饶:女儿不能没爸爸

34岁女警察2刀将丈夫捅死,丈夫生前求饶:女儿不能没爸爸

星辰故事屋
2024-06-05 12:12:35
富士康河南大撤离,外贸出口急剧下降,只留一个烂摊子?

富士康河南大撤离,外贸出口急剧下降,只留一个烂摊子?

老猫科普录
2024-06-03 08:59:46
嫁给中国小伙的俄罗斯姑娘坦言:中国小伙哪里都好,就一点不行

嫁给中国小伙的俄罗斯姑娘坦言:中国小伙哪里都好,就一点不行

苗苗情感说
2024-06-04 17:09:40
6月5日俄乌:搬起石头砸自己的脚,乌逐步反击,拜登表态继续挺乌

6月5日俄乌:搬起石头砸自己的脚,乌逐步反击,拜登表态继续挺乌

山河路口
2024-06-05 13:51:12
2008年北京一女子被丈夫砌入水泥墙,死前哭求:我真的不会再来了

2008年北京一女子被丈夫砌入水泥墙,死前哭求:我真的不会再来了

看懂帝国
2024-06-05 18:25:06
美记:篮网会以大桥建队 不会用他交换火箭今年的探花签

美记:篮网会以大桥建队 不会用他交换火箭今年的探花签

直播吧
2024-06-06 00:26:11
种种迹象表明,留给打工者的退路已经不多了。

种种迹象表明,留给打工者的退路已经不多了。

流苏晚晴
2024-06-05 19:41:09
中国女排输球,刁琳宇遭到指责冤不冤?

中国女排输球,刁琳宇遭到指责冤不冤?

热爱排球君
2024-06-06 02:02:42
这不是迷信,这是科学认可的存在,网友分享真是让人细思极恐

这不是迷信,这是科学认可的存在,网友分享真是让人细思极恐

有趣的羊驼
2024-06-05 18:08:43
政协主席被刺身亡,背后原因重要吗?

政协主席被刺身亡,背后原因重要吗?

梦马笔谈
2024-06-05 20:07:35
又一歌手跳楼去世!新婚不到100天自杀,跳楼前将30万交给母亲

又一歌手跳楼去世!新婚不到100天自杀,跳楼前将30万交给母亲

代军哥哥谈娱乐
2024-06-05 17:36:34
没底线!漫展模仿科比遇难现场,球迷出离愤怒,Cos圈却不知悔改

没底线!漫展模仿科比遇难现场,球迷出离愤怒,Cos圈却不知悔改

末位侃球
2024-06-03 09:12:25
原著《庆余年》十大高手排名

原著《庆余年》十大高手排名

你怎么这么好笑
2024-06-05 17:31:44
台州2驴友溺亡后续,老队员发声:领队不听劝,爱组织高风险活动

台州2驴友溺亡后续,老队员发声:领队不听劝,爱组织高风险活动

魔都女巫
2024-06-05 10:07:42
懂行的医生直言:体检报告这4项指标正常,身体基本无大碍

懂行的医生直言:体检报告这4项指标正常,身体基本无大碍

DrX说
2024-04-08 13:37:10
法网女单四强+半决赛对阵:斯瓦泰克VS高芙 超新星VS鲍里妮

法网女单四强+半决赛对阵:斯瓦泰克VS高芙 超新星VS鲍里妮

醉卧浮生
2024-06-06 01:31:29
36岁,社区打电话催生三胎,我答:没空生,对方一句话差点气死我

36岁,社区打电话催生三胎,我答:没空生,对方一句话差点气死我

婉秋聊育儿
2024-06-03 11:16:04
2024-06-06 05:20:49
新智元
新智元
AI产业主平台领航智能+时代
11120文章数 65532关注度
往期回顾 全部

科技要闻

9家车企拿到自动驾驶落地入场券,没特斯拉

头条要闻

9旬老人去世后被发现与小38岁保姆结婚 房产被过户

头条要闻

9旬老人去世后被发现与小38岁保姆结婚 房产被过户

体育要闻

赴美试训的崔永熙,表现究竟怎么样?

娱乐要闻

《青春有你》胡文煊被曝孕期出轨

财经要闻

员工证实周大福关闭深圳工厂

汽车要闻

又一个水桶车 试驾新“卷王”极狐阿尔法S5

态度原创

家居
健康
时尚
艺术
军事航空

家居要闻

温室余闲 平仄之间雅趣浓

晚餐不吃or吃七分饱,哪种更减肥?

今年穿紫色,开运又高级!

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

军事要闻

乌方:俄乌冲突升级 所有“红线”不复存在

无障碍浏览 进入关怀版