网易首页 > 网易号 > 正文 申请入驻

多模态模型学会打扑克:表现超越GPT-4v,全新强化学习框架是关键

0
分享至

  • Simon Zhai 投稿
    量子位 | 公众号 QbitAI

只用强化学习来微调,无需人类反馈,就能让多模态大模型学会做决策!

这种方法得到的模型,已经学会了看图玩扑克、算“12点”等任务,表现甚至超越了GPT-4v。

这是来自UC伯克利等高校最新提出的微调方法,研究阵容也是相当豪华:

  • 图灵奖三巨头之一、Meta首席AI科学家、纽约大学教授LeCun
  • UC伯克利大牛、ALOHA团队成员Sergry Levine
  • ResNeXt一作、Sora基础技术DiT作者谢赛宁
  • 香港大学数据科学学院院长、UC伯克利教授马毅

该方法名为RL4VLM,论文预印本已经上线,相关代码也已在GitHub中开源。

RL4VLM提出了一种新的算法框架,直接使用强化学习方法对多模态大模型进行微调。

其中奖励信息直接来源于环境当中,摆脱了RLHF中对于人类反馈的需要,从而直接赋予了多模态模型决策能力。

对于RL4VLM的意义,参与了这项工作的马毅教授这样说:

一方面希望大家对模型真实性能有更客观清醒的认识;
另一方面,也希望能建立一个平台,支持探索如何进一步提升模型性能。

那么,用这种方法微调出来的多模态大模型,都能让智能体学会哪些能力呢?

多模态决策能力超GPT-4v

为了评估训练出的多模态大模型给智能体带来的能力,作者一共使用了两类物种评测任务:

  • 第一类任务(a-d) 主要考验模型利用图像中的细粒度视觉信息做决策的能力,包括对于数字的识别能力和利用识别的数字进行逻辑推理的能力
  • 第二类任务(e)主要考察多模态大模型在具身智能环境中的视觉语义推理能力。

具体来说,这五个任务分别是:

  • a.数轴(Numberline):模型需要通过输出“+” 或者 “-”,将当前数字移动到目标数字
  • b.简易12点(EZPoint):模型需要识别两张牌,并用加号和乘号运算“12点”
  • c.24点(Point24): 模型需要识别四张牌,并用加减乘除和括号运算“24点”
  • d.21点(Blackjack):模型需要通过牌面上的信息来决定“要牌”或者“停牌”
  • e.ALFWorld:一个标准具身智能环境

其中任务a-d为作者的原创任务,任务e的ALFWorld是微软等于2020年提出的开源具身智能任务集。

实验结果表明,直接使用强化学习微调7B的多模态模型之后,能使其在两类决策问题上的表现超过商用模型GPT-4v Gemini,同时也能超过传统的监督微调(SFT)方法。

而在ALFWorld的具身智能任务中,作者的模型也取得了最高的平均分,特别是在单物体拾取任务上表现尤为突出。

先生成思维链,再做决策

这套VLM智能体主要解决的是需要视觉识别和语言理解的任务,它的工作流程是这样的:

首先,对于每一个任务,系统会直接将该任务的当前状态,以图片和文字描述的形式输入多模态大模型,并要求模型输出一段思维链之后,再以文字形式输出要执行的动作。

最后将,动作信息会被输入进对应的环境并获得奖励值,该奖励值会被用来进行强化学习训练。

例如下图中,智能体在执行玩21点的任务时,系统直接要求多模态模型根据目前的状态,在输出思维链之后选择“停牌” (stand)或者“拿牌”(hit),然后直接将对应的动作输入到环境中,得到奖励函数值以及下一个状态。

为了能用直接将强化学习运用到多模态模型的训练中,需要对模型的输入和输出做一些调整,以适应RL训练框架中。

具体来说,作者将任务图像o和任务描述的文本v-in合并后,直接作为当前任务的状态s,即:

s = [o, v-in]

在获得了多模态模型的文字输出v-out以后,该框架直接将其中文字形式的动作(“action: {act}”) 转化为可与环境交互的动作指令a。

接下来把a输入到环境当中,就能获得奖励函数r,以及操作后的下一个状态。

在获得了来自环境的奖励函数r之后,文章利用PPO直接对整个多模态模型进行微调。

而从提示词上看,这项研究采取了如下的提示过程作为多模态模型的输入,并且给出了期望的输出形式:

(其中蓝色的部分是让模型生成思维链提示过程, 红色的部分是告诉模型以文字形式输出动作a)

消融实验结果表明,如果这一过程中不采用思维链,则任务成功率会出现大幅下降。

论文地址:
https://arxiv.org/abs/2405.10292
GitHub:
https://github.com/RL4VLM/RL4VLM

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
老蒋曾说:亡于日本为亡国奴,亡于共产党,则为奴亦不可得

老蒋曾说:亡于日本为亡国奴,亡于共产党,则为奴亦不可得

老范谈史
2026-01-05 21:19:06
只需拿出130亿,就能解决整个河北农村的取暖问题

只需拿出130亿,就能解决整个河北农村的取暖问题

小萝卜丝
2026-01-06 10:21:27
难怪美军长驱直入,中俄雷达全都停止搜索,委内瑞拉把好牌打烂

难怪美军长驱直入,中俄雷达全都停止搜索,委内瑞拉把好牌打烂

诗意世界
2026-01-05 19:54:53
设计院倒闭潮已从区域性危机演变为全国性崩坏

设计院倒闭潮已从区域性危机演变为全国性崩坏

黯泉
2025-08-19 18:29:01
48岁表弟元旦没了!同事聚会,吃完又唱又喝,散场还去了洗浴中心

48岁表弟元旦没了!同事聚会,吃完又唱又喝,散场还去了洗浴中心

火山詩话
2026-01-04 21:16:00
该反思了,国内军事专家预测不仅离谱,而且扯淡,别再纸上谈兵了

该反思了,国内军事专家预测不仅离谱,而且扯淡,别再纸上谈兵了

你食不食油饼
2026-01-04 18:19:10
门店被曝跑路!古天乐代言的品牌撑不住了?曾15个月狂开1600家店

门店被曝跑路!古天乐代言的品牌撑不住了?曾15个月狂开1600家店

品牌观察官
2026-01-05 20:18:25
美国生擒委内瑞拉总统,什么国损失最惨重?

美国生擒委内瑞拉总统,什么国损失最惨重?

怪口历史的K先生
2026-01-05 20:22:32
景区21辆车被扎胎后续!凶手正脸被扒,彻底社死,作案原因曝光

景区21辆车被扎胎后续!凶手正脸被扒,彻底社死,作案原因曝光

奇思妙想草叶君
2026-01-05 16:08:00
王石夫妇婚变风波大反转,最新后续来了

王石夫妇婚变风波大反转,最新后续来了

新浪财经
2026-01-05 19:57:13
龙湖集团裁员1.57万人

龙湖集团裁员1.57万人

地产微资讯
2026-01-03 22:20:11
马杜罗夫妇在美首次出庭,表示不认罪!马杜罗3月17日将再次出庭!联合国:“严峻时刻”

马杜罗夫妇在美首次出庭,表示不认罪!马杜罗3月17日将再次出庭!联合国:“严峻时刻”

每日经济新闻
2026-01-06 06:35:53
小米叫停一切合作!雷军评论区沦陷了!

小米叫停一切合作!雷军评论区沦陷了!

广告创意
2026-01-06 08:21:34
几乎全是假货!利润高达2400%,咋消费者还前赴后继争相购买?

几乎全是假货!利润高达2400%,咋消费者还前赴后继争相购买?

奇思妙想草叶君
2026-01-05 23:13:15
重创!曼城7000万中卫赛季报销+无缘世界杯,剩2中卫欲急购英国脚

重创!曼城7000万中卫赛季报销+无缘世界杯,剩2中卫欲急购英国脚

我爱英超
2026-01-06 06:56:08
爆冷!联盟第一遭27分惨败,亚历山大仅21分,一战能看清楚四件事

爆冷!联盟第一遭27分惨败,亚历山大仅21分,一战能看清楚四件事

老梁体育漫谈
2026-01-06 11:31:57
泪流满面!网传昆山一家20多年外企撤场,N+1额外赠送一张购物卡

泪流满面!网传昆山一家20多年外企撤场,N+1额外赠送一张购物卡

火山詩话
2026-01-06 09:22:19
日本访华被拒,李在明当着全世界的面喊出一句话,让高市早苗破防

日本访华被拒,李在明当着全世界的面喊出一句话,让高市早苗破防

博览历史
2026-01-05 18:37:01
越南第四季度国内生产总值同比增长8.46%

越南第四季度国内生产总值同比增长8.46%

每日经济新闻
2026-01-05 16:03:06
活塞31分狂胜尼克斯巩固东部第一 坎宁安29+13布伦森25分

活塞31分狂胜尼克斯巩固东部第一 坎宁安29+13布伦森25分

醉卧浮生
2026-01-06 10:30:57
2026-01-06 11:48:49
量子位 incentive-icons
量子位
追踪人工智能动态
11974文章数 176356关注度
往期回顾 全部

科技要闻

速看!黄仁勋万字实录:甩出"物理AI"王牌

头条要闻

中国留学生在德国遭袭反击致对方受伤 警方认定"防卫"

头条要闻

中国留学生在德国遭袭反击致对方受伤 警方认定"防卫"

体育要闻

从NBA最菜首发控卫,到NBA最强乔治

娱乐要闻

朱媛媛遗作《小城大事》定档1月10日

财经要闻

丁一凡:中美进入相对稳定的竞争共存期

汽车要闻

让智驾能看懂真实世界 英伟达发布开源Alpamayo平台

态度原创

亲子
艺术
旅游
教育
公开课

亲子要闻

你们可能不认识我,但是你们一定看过我和妹妹的视频

艺术要闻

2026马年赵孟頫高清集字春联大放送,收藏备用!

旅游要闻

中国文旅看山西:揽客超600万人次,拉动旅游消费逾34亿元!元旦假期,山西文旅实现“开门红”

教育要闻

一位资深班主任发现,那些悄悄变好的孩子,父母都在做这4件事

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版