网易首页 > 网易号 > 正文 申请入驻

浙大&中科院让Agent学会自我进化,玩德州扑克心机尽显

0
分享至

Wenqi Zhang 投稿
量子位 | 公众号 QbitAI

基于大模型的Agent,已经成为了大型的博弈游戏的高级玩家,而且玩的还是德州扑克、21点这种非完美信息博弈。

来自浙江大学、中科院软件所等机构的研究人员提出了新的Agent进化策略,从而打造了一款会玩德州扑克的“狡猾”智能体Agent-Pro。

通过不断优化自我构建的世界模型和行为策略,Agent-Pro掌握了虚张声势、主动放弃等人类高阶游戏策略。

Agent-Pro以大模型为基座,通过自我优化的Prompt来建模游戏世界模型和行为策略。

相比传统的Agent框架,Agent-Pro能够变通地应对复杂的动态的环境,而不是仅专注于特定任务。

而且,Agent-Pro还可以通过与环境互动来优化自己的行为,从而更好地达成人类设定的目标。

同时作者还指出,在竞争、公司谈判和安全等现实世界中遇到的情景,大多可以抽象为multi-agent博弈任务,而Agent-Pro通过对这类情境的研究,为解决众多现实世界的问题提供了有效策略。

那么,Agent-Pro在博弈游戏中的表现究竟如何呢?

进化出游戏世界模型

在研究中,作者使用了“21点”和“有限注德州扑克”这两款游戏对Agent进行了评估。

首先简要介绍下两个博弈游戏的基本规则。

21点

  • 游戏中包含一个庄家和至少一名玩家。
  • 玩家可以看到自己的两张手牌, 以及庄家的一张明牌,庄家还隐藏了一张暗牌。玩家需要决定是继续要牌(Hit)还是停牌(Stand)。
  • 游戏的目标是在总点数不超过21点的前提下,尽量使总点数超过庄家。

有限注德州扑克

  • 游戏开始阶段为Preflop阶段,每位玩家将获得两张只属于自己且对其他玩家保密的私牌(Hand)。
  • 随后,会有五张公共牌面(Public Cards)依次发出:首先翻牌(Flop)3 张,其次转牌(Turn)1张,最后是河牌(River)1张。
  • 玩家有四种选择:弃牌(fold)、过牌(check)、跟注(call)或加注(raise)。
  • 目标是利用自己的两张Hand和五张Public Cards任意组合,尽可能构造出最佳的五张扑克牌组合。

在“21点”当中,同样是使用GPT-4作为基础模型,Agent-Pro的表现超过了ReAct框架。

在手牌相同的情况下,二者的表现如下图所示。

Agent-Pro通过分析得出自我信念(Self-Belief)和对外部世界的信念(World-Belief),正确认识到自己的手牌已接近21点,合理的选择了停牌。

而ReAct则未能及时停牌,导致最终爆牌,输掉了游戏。

从游戏中能够看出Agent-Pro更好的理解了游戏的规则,并给出了合理的选择。

接下来再看看在德州扑克中Agent-Pro的表现。

一次牌局中,参赛选手分别是训练后的DQN、DMC策略,原生GPT3.5和Agent-Pro(基于GPT-4),他们的手牌和公共牌如下图所示:

△S、H、C、D分别代表黑桃、红桃、梅花、方块

在当前游戏状态(Current game state)下,Agent-Pro分析得出Self-Belief、World-Belief和最终的Action,并随着游戏状态的变化,不断更新Belief,根据自身和对手的情况,做出灵活合理的选择。

△相同牌局同一位置的Baseline(原始大模型)结果为-13

统计数据上看,21点游戏中,在使用GPT、Llama等多种大模型的情况下,Agent-Pro的表现都显著超过了原始模型和其他参与对比的Agents框架。

在更为复杂的德州扑克游戏中,Agent-Pro不仅超过了原始大模型,还击败了DMC等训练后的强化学习Agent。

那么,Agent-Pro是如何学习和进化的呢?

三管齐下提高Agent表现

Agent-Pro包括“基于信念的决策”“策略层面的反思”和“世界模型和行为策略优化”这三个组件。

基于信念的决策(Belief-aware Decision-making)

Agent-Pro根据环境信息,首先形成Self-Belief和World-Belief,然后基于这些Belief做出决策(Action)。

在后续环境交互中,Agent-Pro动态更新Belief,进而使做出的Action适应环境的变化。

例如,德州扑克游戏中:

  • 环境信息可包括手牌(Private State)、公共牌(Public State)、行动轨迹(Trajectory)等;
  • Agent-Pro对手牌(State)、出牌计划(Plan)及潜在风险(Risk)的预估等信息构成了它的Self-Belief;
  • 而Agent-Pro对对手(Opponent)、环境(Environment)和规则(Rule)的理解则构成了它的World-Belief;
  • 这些Belief在每一个决策周期中都会被更新,从而影响下个周期中Action的产生

策略层面的反思(Policy-Level Reflection)

与人类一样,Agent-Pro 会从历史经验、历史认知和历史结果中进行反思和优化。它自主调整自己的Belief,寻找有用的提示指令,并将其整合到新的策略Policy中。

首先,Agent-Pro以文字的形式设计了一个对任务世界的建模以及对行为准则的描述, 他们一起被当做Policy:

  • World Modeling:任务世界的建模,例如对游戏环境的理解、对手们的风格分析、环境中其他Agent的策略估计等;
  • Behavioral Guideline:行为准则的描述,例如对游戏目标的认识、自己策略规划、未来可能面临的风险等

其次,为了更新World Modeling和Behavioral Guideline,Agent-Pro设计了一个Policy-level Reflection过程。

与Action-level Reflection不同,在Policy-level的反思中,Agent-Pro被引导去关注内在和外在信念是否对齐最终结果,更重要的是,反思背后的世界模型是否准确,行为准则是否合理,而非针对单个Action。

例如,德州扑克游戏中Policy-level的反思是这样的:

  • 在当前世界模型和行为准则(World Modeling & Behavioral Guideline)的指导下,Agent-Pro观察到外部状态,然后生成Self-Belief和World-Belief,最后做出Action。但如果Belief不准确,则可能导致不合逻辑的行动和最终结果的失败;
  • Agent-Pro根据每一次的游戏来审视Belief的合理性,并反思导致最终失败的原因(Correct,Consistent,Rationality…);
  • 然后,Agent-Pro将反思和对自身及外部世界的分析整理,生成新的行为准则Behavioral Guideline和世界建模World Modeling;
  • 基于新生成的Policy(World Modeling & Behavioral Guideline),Agent-Pro重复进行相同游戏,来进行策略验证。如果最终分数有所提高,则将更新后的World Modeling & Behavioral Guideline和保留在提示中。

世界模型和行为准则的优化(World Modeling & Behavioral Guideline Evolution)

在Policy-level Reflection之上,面对动态的环境,Agent-Pro还采用了深度优先搜索(DFS)策略评估,来持续优化世界模型和行为准则,从而找到更优的策略。

策略评估是指Agent-Pro 在新的采样的轨迹中对新Policy进行更全面的评估,从而考察新策略的泛化能力。例如,德州扑克游戏中,新采样多条游戏轨迹。

通过交换玩家位置或手牌,来消除由于运气带来的随机因素,从而更全面评估新策略的能力。

而DFS搜索则在新策略不能在新的场景中带来预期的改进(策略评估)时使用,按照DFS搜索策略,从其他候选策略中寻找更优的策略。

论文地址:
https://arxiv.org/abs/2402.17574
Github:
https://github.com/zwq2018/Agent-Pro

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
普通家庭千万不要买“小联排别墅”,看着很高级,住着却难受!

普通家庭千万不要买“小联排别墅”,看着很高级,住着却难受!

装修秀
2026-04-20 10:50:03
这才是宋美龄和继子蒋经国的一张真实合影,都是真人的容貌

这才是宋美龄和继子蒋经国的一张真实合影,都是真人的容貌

喜欢历史的阿繁
2026-04-16 11:17:28
苹果8号员工干了49年:裁员名单绕着他走,因为赔不起

苹果8号员工干了49年:裁员名单绕着他走,因为赔不起

世界圈
2026-04-04 13:13:03
场均20+命中率60%联盟居然只有两人啊!

场均20+命中率60%联盟居然只有两人啊!

柚子说球
2026-04-22 20:42:25
核风险升高!3艘俄舰被击沉,局势触碰普京底线,美官员集体发声

核风险升高!3艘俄舰被击沉,局势触碰普京底线,美官员集体发声

云上乌托邦
2026-04-22 20:08:41
难怪特朗普对伊朗怂了,美国情报部门评估结果出炉,确实没法打了

难怪特朗普对伊朗怂了,美国情报部门评估结果出炉,确实没法打了

温读史
2026-04-22 00:27:49
许家印认罪!2.4万亿窟窿,家族只拿走500亿,其余真金白银去哪了

许家印认罪!2.4万亿窟窿,家族只拿走500亿,其余真金白银去哪了

混沌录
2026-04-21 20:59:13
伊朗宣布将于29日举行展现国家力量的大游行

伊朗宣布将于29日举行展现国家力量的大游行

新京报
2026-04-22 07:05:03
49岁翁帆高调露面!换造型惊艳全场,一句话让英国定居传闻破灭

49岁翁帆高调露面!换造型惊艳全场,一句话让英国定居传闻破灭

一盅情怀
2026-03-16 16:58:07
36万亿美债还不起,特朗普决定“弄死”大债主,为此不惜自曝家丑

36万亿美债还不起,特朗普决定“弄死”大债主,为此不惜自曝家丑

杰丝聊古今
2026-04-19 20:21:05
虽然自己得不了分,但湖人锋线大闸在场上时火箭也同样得不了分?

虽然自己得不了分,但湖人锋线大闸在场上时火箭也同样得不了分?

稻谷与小麦
2026-04-22 23:03:00
10万亿经营贷,要兜不住了

10万亿经营贷,要兜不住了

新浪财经
2026-04-22 03:04:25
朴信惠才36岁断崖式衰老,看完近照太心酸,生孩子真太伤元气了

朴信惠才36岁断崖式衰老,看完近照太心酸,生孩子真太伤元气了

观鱼听雨
2026-04-22 22:42:41
大同女子偷情记录曝光后续:酒店已报备彻查,网友曝光原始内容

大同女子偷情记录曝光后续:酒店已报备彻查,网友曝光原始内容

李橑在北漂
2026-04-21 11:15:16
解决掉提问的人,问题就解决了?北师大“神操作”火了

解决掉提问的人,问题就解决了?北师大“神操作”火了

虔青
2026-04-20 14:07:53
轰的一声,日本传来一声巨大爆响,自卫队伤亡惨重,尸体横倒竖卧

轰的一声,日本传来一声巨大爆响,自卫队伤亡惨重,尸体横倒竖卧

音乐时光的娱乐
2026-04-22 15:22:20
黄渤和邓超为什么无戏可拍了?

黄渤和邓超为什么无戏可拍了?

闲人电影
2026-04-16 18:55:11
《蜜语纪》大结局!段翱翔竟是纪封安插的卧底?这波无间道太绝了

《蜜语纪》大结局!段翱翔竟是纪封安插的卧底?这波无间道太绝了

小猫追剧
2026-04-22 12:21:27
祭拜鬼社当天,日本发出崩溃预警,美欧视而不见,中国不再伸援手

祭拜鬼社当天,日本发出崩溃预警,美欧视而不见,中国不再伸援手

阿伧说事
2026-04-22 10:54:35
突发!特朗普,彻底失控!

突发!特朗普,彻底失控!

财经要参
2026-04-22 18:45:56
2026-04-22 23:44:49
量子位 incentive-icons
量子位
追踪人工智能动态
12517文章数 176457关注度
往期回顾 全部

体育要闻

网易传媒再度签约法国队和阿根廷队

头条要闻

医院主任"巨额财产来源不明" 被指向女儿转账超800万

头条要闻

医院主任"巨额财产来源不明" 被指向女儿转账超800万

娱乐要闻

蜜雪冰城泰国代言人 被扒出辱华黑历史

财经要闻

医院专家号"秒空"!警方牵出黑色产业链

科技要闻

对话梅涛:没有视频底座,具身智能走不远

汽车要闻

纯电续航301km+激光雷达 宋Pro DM-i飞驰版9.99万起

态度原创

教育
亲子
健康
房产
时尚

教育要闻

初中物理怎么学?树德名师提到学生要有三种思维

亲子要闻

妈妈看不到的时候,孩子能拒绝才真的放心!

干细胞抗衰4大误区,90%的人都中招

房产要闻

官宣!今年9月起,广州中小学“重点班”将成历史!

用了8年还心动,这笔钱是花得真值啊

无障碍浏览 进入关怀版