网易首页 > 网易号 > 正文 申请入驻

推荐 | 「强化学习」中文书籍免费开源啦

0
分享至

由北京大学前沿计算研究中心助理教授董豪博士等编写的深度强化学习专著《深度强化学习:基础、研究与应用(Deep Reinforcement Learning: Foundamentals, Research and Applications)》英文版于2020年6月由 Springer 发行,中文简体、繁体版先后于2021年6月、2022年1月发行,并于2022年2月对中文简体版开放免费下载

图文 | 董豪,丁子涵

内容摘要

深度强化学习是实现智能决策的关键技术之一,对人工智能、机器人、认知科学、金融、资源调配等重大应用需求和研究方向有重要的意义。深度学习是基于深度神经网络的机器学习方法。深度强化学习是强化学习和深度学习的结合体,随着近几十年来深度学习发展的热潮,计算硬件 GPU、CPU、TPU 等性能快速提升,深度强化学习作为一个新的重要学科分支吸引了越来越多的科研和产业人员的关注。本书从基本强化学习理论,到深度强化学习算法,再到实际应用与实践,给读者带来相对全面且实用的深度强化学习知识,便于读者学习和开展研究工作

本书分为三大部分,覆盖了学习深度强化学习所需的所有内容。第一部分介绍了强化学习的基础知识、常用的深度强化学习算法及其实现方法。第二部分对精选的深度强化学习研究方向展开介绍,这对希望开展相关研究的读者非常有意义。为了帮助读者更加深入地理解深度强化学习细节并把相关技术应用到实际中,本书第三部分仔细地讲述了大量应用的实现细节,例如机器人学习跑步、机械臂控制、下围棋、多智能体平台等等,并提供相关的开源代码。

本书可以作为在深度强化学习相关领域工作的教师、学生或工程师的阅读材料和参考书。一方面可以帮助读者从零开始学习强化学习,到深入具体的研究方向;另一方面可以帮助读者快速地把深度强化学习技术用于实际项目中。配合本书的开源代码,帮助读者充分利用好 CPU 和 GPU 等计算资源,提升深度强化学习实验结果,加深对研究应用项目的理解,推动整个人智能领域的发展。

专家推荐

郭毅可

帝国理工学院教授、数据科学研究所创始所长

香港浸会大学副校长

英国皇家工程院院士,欧洲科学院院士

我对这本书覆盖内容的范围之广印象深刻。从深度强化学习的基础理论知识,到包含代码细节的技术实现描述,作者们花了大量的精力致力于提供综合且广泛的内容。这种风格的书籍是对初学者和科研人员绝佳的学习材料。拥抱开源社区是深度学习得到快速发展不可或缺的一个原因。我很欣慰这本书提供了大量的开源代码。我也相信这本书将会对那些希望深入这个领域的研究人员非常有用,也对那些希望通过开源例子快速上手的工程师提供良好的基础。

陈宝权

北京大学博雅特聘教授

前沿计算研究中心执行主任

IEEE Fellow

这本书提供了可靠的深度强化学习内容介绍,缩小基础理论和实践之间的差距,以提供详细的描述和算法实现为特色,提供大量技巧和速查表。作者们由研究强化学习的顶级大学研究者和将技术用在各类应用中的开源社区实践者组成。这本书为有着不同背景和阅读目的的读者提供了非常有用的资源。

金 驰

普林斯顿大学助理教授

这是一本关于深度强化学习这个重要领域的适时的书籍。这本书以一种简明清晰的风格提供了详尽的工具:包括深度强化学习的基础和重要算法,具体实现细节,和对研究方向的前瞻。这本书对任何愿意学习深度强化学习、将深度强化学习算法运用到某些应用上或开始进行深度强化学习基础研究的人来说都是很理想的学习材料。

李克之

伦敦大学学院助理教授

这本书是为强化学习、特别是深度强化学习的忠实粉丝提供的。从2013年开始,深度强化学习已经渐渐地以多种方式改变了我们生活和世界,比如自动驾驶技术、会下棋的 AlphaGo 技术的出现。它展示对“围棋之美”超过专业选手的理解能力。类似的情况也发生在技术、医疗和金融领域。深度强化学习探索了一个人类最基本的问题:人类是如何通过与环境交互进行学习的?这个机制可能成为逃出“大数据陷阱”的关键因素,作为一条强人工智能的必经之路,通向没有人类智慧所企及的地方。

这本书由一群对机器学习充满热情的年轻研究人员编著,它将给你展示深度强化学习的世界,通过实例和经验介绍加深你的理解。推荐此书给所有想把未来智慧之匙揣进口袋的学习者。

作者团队

本书作者团队全部为一线科研人员开源社区成员,使用深度强化学习解决不同领域的问题。本书内容缩小了理论和实践之间的距离,提供了大量工程实现的细节和技巧。团队的多样性使得本书风格对不同领域的读者更为友好,并对代码库进行支持和维护。

编者团队

董豪,北京大学计算机学院、前沿计算研究中心助理教授,博士生导师。于2019年秋获得英国帝国理工学院博士学位。研究方向主要涉及计算机视觉和机器人,目的是降低学习智能系统所需要的数据,实现自主学习。他致力于推广人工智能技术,是深度学习开源框架 TensorLayer 的创始人,并获得 ACM MM 2017年度最佳开源软件奖。他在英国帝国理工和英国中央兰开夏大学获得一等研究生和一等本科学位。

丁子涵,普林斯顿大学博士。于2019年获得英国帝国理工学院硕士学位,曾在加拿大 Borealis AI、腾讯 Robotics X 实验室有过工作经历。本科就读中国科学技术大学,获物理和计算机双学位。研究方向主要涉及强化学习、机器人控制、计算机视觉等。在 ICRA, IROS, NeurIPS, AAAI, IJCAI, Physical Review 等顶级期刊与会议发表多篇论文,是 TensorLayer-RLzoo、TensorLet 和 Arena 等开源代码库的贡献者。

仉尚航,北京大学计算机学院助理教授,博士生导师。于2018年博士毕业于美国卡内基梅隆大学,后于2020年加入加州大学伯克利分校 BAIR 实验室任博士后研究员。研究方向主要为开放环境泛化机器学习理论与系统,同时在计算机视觉和强化学习方向拥有丰富研究经验。在人工智能顶级期刊和会议上发表论文30余篇,并申请5项美中专利。获 AAAI'21最佳论文奖,美国2018年度“EECS Rising Star”,Adobe 学术合作基金,Qualcomm 创新奖提名等。

作者访谈

问:为什么写这本书?

答:我们写这本书的初衷是因为市面上很少有书籍或者教程能同时覆盖从“0到1”和“从1到N”的深度强化学习内容,学习材料非常零散。因此,我们希望能够用一套统一的符号和代码,来讲解深度强化学习,让学生能快速地对整个领域有清晰的系统性认知。

问:写这本书最大的收获是什么?

答:写这本书对我们来说有两方面的收获。一方面,实现了我们知识传播的初衷。另一方面,对我们作者团队来说,我们相互学习了很多知识。

问:为什么先有英文版,后面又翻译成中文呢?

答:因为强化学习领域比较前沿的内容都是英文的,为了方便编写,最先成书是英文版本。后来反响良好,纸质版和电子版销售量都很大,电子版本下载量已经超过了8万册。我们也建立了读者交流群,很多读者都表示希望能有中文版本。因此,我们把书翻译成了中文,并决定把这本书的中文版本免费开源出来,希望可以更好地帮助大家学习。

问:听说还出了繁体版本?

答:是的。由于中文简体版比较受欢迎,有港台地区同学反映希望能有繁体字版本,于是出版社翻译了繁体字版本,现已在线发售。为了适应当地同学阅读习惯,繁体字版本的部分用词语句都做了一些调整,包括书的题目也有所更改,更加符合当地同学阅读习惯。

问:写作中遇到的最大困难是什么?

写这本书的工作量是巨大的,作者们的工作和学习都很忙,都是兼职写这本书,而且还有好几个配套的代码库,能够按计划完成已经挺不容易了。因此,我们探索并采用了开源的模式来写作,不过前后也花费了一年多的时间。

《深度强化学习》中文版开源

《深度强化学习》的英文版书籍于2020年6月由 Springer 出版社发行,电子版已在 Springer 官网下载8.3万余次。中文简体版于2021年6月由电子工业出版社发行,第一版一经发行已售罄,现发行第二版。同时于2022年1月针对港台地区推出中文繁体版。2022年2月,中文简体版书籍开放免费下载。

中英文版本购书链接、下载链接请见书籍主页

https://deepreinforcementlearningbook.org/

(扫下方二维码跳转)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
45岁存满401(k),每月多出1200美元该怎么投

45岁存满401(k),每月多出1200美元该怎么投

爬虫饲养员
2026-06-28 02:55:23
活该!这是出轨的下场

活该!这是出轨的下场

阿凯销售场
2026-06-28 13:43:49
公公半夜拿着注射器推开我的房门,我冷笑着摸出枕头下的高压电棍

公公半夜拿着注射器推开我的房门,我冷笑着摸出枕头下的高压电棍

千秋文化
2026-06-28 19:49:31
欣赏日本足球无可厚非,但体育从来脱离不了政治,爱国底线不能丢

欣赏日本足球无可厚非,但体育从来脱离不了政治,爱国底线不能丢

胡言炫语
2026-06-28 23:08:46
中纪委再标红线!公职人员下班后的饭局,这5种情况将严肃处理!

中纪委再标红线!公职人员下班后的饭局,这5种情况将严肃处理!

细说职场
2026-06-27 14:11:59
散步再次被关注!发现:走得越多,糖尿病人寿命或越长?真假

散步再次被关注!发现:走得越多,糖尿病人寿命或越长?真假

周哥一影视
2026-06-29 01:42:19
女学霸估分715,查分只有296!她笃定:这张答题卡不是我的

女学霸估分715,查分只有296!她笃定:这张答题卡不是我的

优墨出品
2026-06-28 14:37:48
尴尬了!广东一家长称收到南科大录取意向,后悔中山大学强基入围

尴尬了!广东一家长称收到南科大录取意向,后悔中山大学强基入围

火山詩话
2026-06-27 16:31:45
成都“牵手门”事件女主现今状况曝光,为了一时爽,真是太惨了

成都“牵手门”事件女主现今状况曝光,为了一时爽,真是太惨了

橘仔看世界
2026-06-27 08:47:26
湖人4大消息!艾顿将执行810万选项+首轮追特纳 詹姆斯热火或重聚

湖人4大消息!艾顿将执行810万选项+首轮追特纳 詹姆斯热火或重聚

锅子篮球
2026-06-28 11:55:36
“尴尬”的智能眼镜,终于不用说“明年是元年了”

“尴尬”的智能眼镜,终于不用说“明年是元年了”

闪存猎手
2026-06-28 02:52:44
曼联噩耗,5000万中场世界杯重伤;皇马楚阿梅尼或离队,曼联难买

曼联噩耗,5000万中场世界杯重伤;皇马楚阿梅尼或离队,曼联难买

福酱的小时光
2026-06-28 06:28:43
换帅!中央军委直属985大学,迎新校长!

换帅!中央军委直属985大学,迎新校长!

双一流高校
2026-06-28 00:16:46
普京准接班人离世,差一步就坐上总统位子,俄罗斯国运全乱套了

普京准接班人离世,差一步就坐上总统位子,俄罗斯国运全乱套了

南风不及你温柔
2026-06-28 17:43:54
演员王安宇登报声明:本人王安宇,不慎遗失中国传媒大学本科毕业证书和学位证书,现声明作废

演员王安宇登报声明:本人王安宇,不慎遗失中国传媒大学本科毕业证书和学位证书,现声明作废

大象新闻
2026-06-27 16:50:09
涉嫌严重违纪违法,毛锦被查!

涉嫌严重违纪违法,毛锦被查!

中国基金报
2026-06-28 21:24:08
傅彪儿子现状:住豪宅生活奢华,单身满头白发,和母亲相依为命

傅彪儿子现状:住豪宅生活奢华,单身满头白发,和母亲相依为命

枫尘余往逝
2026-06-29 00:52:48
普京对俄中学毕业生说:你们有“胜利者基因”,转头学校军训加码

普京对俄中学毕业生说:你们有“胜利者基因”,转头学校军训加码

桂系007
2026-06-27 20:19:30
有毒!江苏已有人中招,夏天很多人爱吃

有毒!江苏已有人中招,夏天很多人爱吃

江南晚报
2026-06-28 21:47:32
农业网红诋毁杂交水稻,媒体:一些人还是吃得太饱了!

农业网红诋毁杂交水稻,媒体:一些人还是吃得太饱了!

齐鲁壹点
2026-06-28 17:17:09
2026-06-29 04:52:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7404文章数 20759关注度
往期回顾 全部

科技要闻

DeepSeek最新论文:如何让大模型跑得更快

头条要闻

四川宜宾市高县发生5.5级地震 震中距宜宾28公里

头条要闻

四川宜宾市高县发生5.5级地震 震中距宜宾28公里

体育要闻

两周飞5万公里!因凡蒂诺遭环保人士猛批

娱乐要闻

曾沛慈拿下《乘风2026》年度总冠军

财经要闻

省钱,我只服梁文锋

汽车要闻

搭载华为乾崑六件套 东风奕派M8预售19.98万起

态度原创

教育
数码
艺术
家居
公开课

教育要闻

湖北学霸王昕博702分,弃清北报考南大计算机

数码要闻

古尔曼:预计苹果今年发布搭载M5 Ultra芯片的Mac Studio

艺术要闻

她不用笔,她用刀

家居要闻

绿意盎然 自然之境

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版