网易首页 > 网易号 > 正文 申请入驻

自由能原理视角下的强化学习世界模型与探索|自由能原理与强化学习读书会·周日直播

0
分享至


导语

强化学习中的世界模型(World Model)与以自由能原理为基础的主动推理框架密切相关。本周日(5月12日)上午的读书会是强化学习主题下的第二期,北京师范大学系统科学学院博士生牟牧云将从自由能原理视角出发,介绍强化学习世界模型以及强化学习探索领域的相关工作,试图探讨两者背后智能体感知与行动的统一原理。

内容简介

强化学习中的世界模型(World Model)与以自由能原理为基础的主动推理框架密切相关,智能体的感知与行动是二者共同关心的话题。在主动推理框架中,变分自由能最小化的过程可视为在模型预测准确性与模型复杂度之间寻求平衡,这一过程对应了强化学习中世界模型的学习。主动推理框架中预期的自由能最小化过程涵盖了信息增益与偏好两个方面,分别对应了强化学习中探索与利用的平衡。

在世界模型中,智能体首先通过观测数据推断隐状态的动力学模型。学习世界模型后,智能体基于此模型进行决策规划以及探索。在面对复杂的环境时,智能体往往需要学习一个多尺度的世界模型。这种多尺度特性涉及时间和空间维度,以及状态和动作两个关键层面。

本次分享将从自由能原理的视角出发,介绍强化学习世界模型以及强化学习探索领域的相关工作。

内容大纲

  • 信息论基础

  • 变分自编码器

  • 变分自由能与强化学习世界模型

  • 分层世界模型

  • 期望自由能与强化学习探索


关键词

  • 世界模型 World Model

  • 强化学习探索 Reinforcement Learning Exploration

  • 变分自编码器 Variational autoencoder

  • 互信息 Mutual Information

  • 信息增益 Information Gain


参考文献

  • Pinkard H, Waller L. A visual introduction to information theory[J]. arXiv preprint arXiv:2206.07867, 2022.

  • Higgins I, Matthey L, Pal A, et al. beta-vae: Learning basic visual concepts with a constrained variational framework[J]. 2016.

  • Ha D, Schmidhuber J. Recurrent world models facilitate policy evolution[J]. Advances in neural information processing systems, 2018, 31.

  • Mazzaglia P, Verbelen T, Çatal O, et al. The free energy principle for perception and action: A deep learning perspective[J]. Entropy, 2022, 24(2): 301.

  • Hafner D, Lillicrap T, Fischer I, et al. Learning latent dynamics for planning from pixels. ICML 2019

  • Hafner D, Ortega P A, Ba J, et al. Action and perception as divergence minimization[J]. arXiv preprint arXiv:2009.01791, 2020.

  • Hafner D, Lillicrap T, Ba J, et al. Dream to control: Learning behaviors by latent imagination[J]. arXiv preprint arXiv:1912.01603, 2019.

  • Hafner D, Lillicrap T, Norouzi M, et al. Mastering atari with discrete world models[J]. arXiv preprint arXiv:2010.02193, 2020.

  • Hafner D, Pasukonis J, Ba J, et al. Mastering diverse domains through world models[J]. arXiv preprint arXiv:2301.04104, 2023.

  • Saxena V, Ba J, Hafner D. Clockwork variational autoencoders[J]. NIPS 2021, 34: 29246-29257.

  • Gumbsch C, Sajid N, Martius G, et al. Learning Hierarchical World Models with Adaptive Temporal Abstractions from Discrete Latent Dynamics. ICLR 2024

  • Hao J, Yang T, Tang H, et al. Exploration in deep reinforcement learning: From single-agent to multiagent domain[J]. IEEE Transactions on Neural Networks and Learning Systems, 2023.

  • Pathak D, Gandhi D, Gupta A. Self-supervised exploration via disagreement. ICML 2019

  • Sekar R, Rybkin O, Daniilidis K, et al. Planning to explore via self-supervised world models. ICML 2020

  • Shyam P, Jaśkowski W, Gomez F. Model-based active exploration. ICML, 2019

  • Houthooft R, Chen X, Duan Y, et al. Vime: Variational information maximizing exploration. NIPS 2016

  • Mazzaglia P, Catal O, Verbelen T, et al. Curiosity-driven exploration via latent bayesian surprise. AAAI 2022

主讲人

牟牧云,北京师范大学系统科学学院博士生,张江老师因果涌现研究小组成员。研究方向:复杂系统建模与调控、强化学习世界模型。

时间:2024年5月12日(本周日)上午10:00-12:00

报名读书会:

斑图地址:https://pattern.swarma.org/study_group_issue/629

扫码参与,加入群聊,获取系列读书会回看权限,加入集智社区,与社区的一线科研工作者沟通交流,共同推动这一前沿领域的发展。

报名成为主讲人:

读书会成员均可以在读书会期间申请成为主讲人。主讲人作为读书会成员,均遵循内容共创共享机制,可以获得报名费退款,并共享本读书会产生的所有内容资源。具体见系列读书会详情:

自由能原理与强化学习读书会招募中

自由能原理被认为是“自达尔文自然选择理论后最包罗万象的思想”,它试图从物理、生物和心智的角度提供智能体感知和行动的统一性规律,从第一性原理出发解释智能体更新认知、探索和改变世界的机制,从而对人工智能,特别是强化学习世界模型、通用人工智能研究具有重要启发意义。

集智俱乐部联合北京师范大学系统科学学院博士生牟牧云,南京航空航天大学副教授何真,以及骥智智能科技算法工程师、公众号 CreateAMind 主编张德祥,共同发起 「」 ,希望从自由能原理这个更底层的视角重新审视强化学习世界模型,探讨自由能原理、强化学习世界模型,以及脑与意识问题中的预测加工理论等前沿交叉问题,探索这些不同领域背后蕴含的感知和行动的统一原理。读书会从3月10日开始,每周日上午10:00-12:00,持续时间预计8-10周。欢迎感兴趣的朋友报名参与!

详情请见:

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
买过最贵的东西?艾弗森:看队友开劳斯莱斯 第二天我也去买了辆

买过最贵的东西?艾弗森:看队友开劳斯莱斯 第二天我也去买了辆

直播吧
2024-05-23 16:04:12
中国男子因不给印尼海关工作人员小费,被撕护照

中国男子因不给印尼海关工作人员小费,被撕护照

纵横三千年
2024-04-17 18:50:03
看了浙江外来人口分布图,有点担心,感觉浙江已经沦陷

看了浙江外来人口分布图,有点担心,感觉浙江已经沦陷

楚楚的留香
2024-05-23 14:03:38
乌克兰要把俄军飞行员打到不敢驾机出战:15天击落15架俄罗斯战机

乌克兰要把俄军飞行员打到不敢驾机出战:15天击落15架俄罗斯战机

包哥量地球呀
2024-05-22 12:56:58
连续13天一字跌停!500多万手封单压顶,股价跌破1元,ST爱康或遭面值退市

连续13天一字跌停!500多万手封单压顶,股价跌破1元,ST爱康或遭面值退市

华夏时报
2024-05-23 06:59:03
南山6成片区房价上涨

南山6成片区房价上涨

深圳大咖深房团
2024-05-23 16:54:54
火记:哈登巅峰时的火箭生不逢时 现在这些队打18火箭毫无机会

火记:哈登巅峰时的火箭生不逢时 现在这些队打18火箭毫无机会

直播吧
2024-05-23 11:49:19
台湾海洋委员会主任管碧玲:台湾的海巡队没有什么恶性行为

台湾海洋委员会主任管碧玲:台湾的海巡队没有什么恶性行为

天生搬砖人
2024-05-23 14:10:10
中超内讧!成都两球员打架,滚地上扭打,悬念:谁泄露了视频?

中超内讧!成都两球员打架,滚地上扭打,悬念:谁泄露了视频?

足球慢镜头
2024-05-23 16:06:00
不给台阶,大陆只给赖清德一个选择:战,那就不会放跑一个

不给台阶,大陆只给赖清德一个选择:战,那就不会放跑一个

章鱼哥娱乐
2024-05-22 19:44:35
蜀道投资集团工会主席熊启高被查,该集团此前已有多人被处分

蜀道投资集团工会主席熊启高被查,该集团此前已有多人被处分

新京报
2024-05-23 16:16:02
反噬来了!云南15岁中学生被砍身亡,家属提出异议,当地通报来了

反噬来了!云南15岁中学生被砍身亡,家属提出异议,当地通报来了

快嘴嘚吧嘚
2024-05-23 09:34:14
莱希坠机的原因找到了?伊朗公布空难细节,中美俄反应出奇一致

莱希坠机的原因找到了?伊朗公布空难细节,中美俄反应出奇一致

乐阳聊军事
2024-05-22 15:56:23
莫言:当我看到一个女人手上没有手镯、手链,脖子上没有项链

莫言:当我看到一个女人手上没有手镯、手链,脖子上没有项链

星辰故事屋
2024-05-22 20:56:58
中国军队不再隐藏了?亮出四大武器,每一样都可以让美军有来无回

中国军队不再隐藏了?亮出四大武器,每一样都可以让美军有来无回

青年的背包
2024-05-23 11:15:31
满脸褶子就别演校草了,一脸“社会气”的高中生,看着真让人难受

满脸褶子就别演校草了,一脸“社会气”的高中生,看着真让人难受

娱乐圈笔娱君
2024-05-23 14:13:22
26国在中国周边演习!美智库:一旦台海开打,至少有9个国家参战

26国在中国周边演习!美智库:一旦台海开打,至少有9个国家参战

大国观察眼
2024-05-19 12:00:08
“真漂亮,要一起睡吗”韩国警察要求嫌疑人母亲与自己发生性关系

“真漂亮,要一起睡吗”韩国警察要求嫌疑人母亲与自己发生性关系

奋斗在韩国
2024-05-23 16:42:11
闹大了,武功山失温遇难女孩同伴曾打电话求救,年轻人长点心吧!

闹大了,武功山失温遇难女孩同伴曾打电话求救,年轻人长点心吧!

苗苗情感说
2024-05-23 13:07:30
警惕!高盛CEO拉响警报:美联储今年恐怕不会降息 消费者正开始控制支出

警惕!高盛CEO拉响警报:美联储今年恐怕不会降息 消费者正开始控制支出

每日经济新闻
2024-05-23 13:31:16
2024-05-23 19:26:44
集智俱乐部
集智俱乐部
科普人工智能相关知识技能
4526文章数 4588关注度
往期回顾 全部

科技要闻

黄仁勋业绩会万字实录:我们的压力太大了

头条要闻

媒体:大陆对赖清德彻底失望 或先收回几个离岛控制权

头条要闻

媒体:大陆对赖清德彻底失望 或先收回几个离岛控制权

体育要闻

CBA最有价值球员,为何在总决赛迷失?

娱乐要闻

大S儿子被学校退学,张兰称孙子没人管

财经要闻

九鼎金租减值罗生门:郑州银行藏雷?

汽车要闻

上汽大通大家7超混/大家9超混将于6月7日正式上市

态度原创

教育
艺术
时尚
数码
健康

教育要闻

高考倒计时15天祝所有考生前程似锦 得偿所愿

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

翻看日杂才发现:今年流行“项链叠戴、小包配大包”,时髦又高级

数码要闻

AMD发布第二代Anti-Lag 2:游戏延迟缩短95%

在中国,到底哪些人在吃“伟哥”?

无障碍浏览 进入关怀版