清华大学出版社-图书前言

首页 > 图书中心 > 深度强化学习

前言

近年来，强化学习和深度学习相结合形成的深度强化学习方法已经是人工智能领域中新的研究热点。在许多需要智能体（Agent）同时具备感知和决策能力的场景中，深度强化学习方法具备了与人类相媲美的智能。其中深度学习（Deep Learning，DL）和强化学习（Reinforcement Learning，RL）是机器学习领域中最重要的两个研究方向。深度学习方法侧重于对事物的感知与表达，其基本思想是面向高维数据，通过多层的网络结构和非线性变换，组合低层特征，形成抽象的、易于区分的高层表示，以发现数据的分布式特征表示。深度学习已经在图像识别与理解、智能语音、机器翻译等领域取得了非凡的成果。强化学习与基于监督训练的深度学习不同，更加侧重于学习解决问题的策略，其基本思想是智能体通过试错的机制与环境进行不断地交互，从而最大化智能体从环境中获得的累计奖赏值。强化学习已经广泛应用于游戏博弈、机器人操控、参数优化等领域。传统的强化学习算法主要针对输入状态规模较小的决策问题，这种小规模强化学习算法可通过表格式的存储方式来评价每个状态或者状态动作对的好坏。然而当状态或动作空间维度很高时（例如图片或视频数据），传统的强化学习方法会因缺乏感知和泛化高维输入数据的能力而导致算法性能急剧下降。

随着人类社会的飞速发展，未来的人工智能系统不仅需要具备很强的感知与表达能力，而且需要拥有一定的决策能力。因此，人们将具有感知能力的深度学习和具有决策能力的强化学习相结合，形成直接从输入原始数据到输出动作控制的完整智能系统，这就是深度强化学习（Deep Reinforcement Learning，DRL）方法。该方法从本质上解决了传统强化学习智能体缺乏感知和泛化高维度输入数据能力的问题，从而适用于一系列大规模的决策任务。例如，谷歌旗下的DeepMind公司将深度学习中的卷积神经网络（Convolutional Neural Network，CNN）和强化学习中Q学习算法（QLearning）相结合，提出深度Q网络（Deep QNetwork，DQN）模型。该模型可直接将原始的游戏视频画面作为输入状态，游戏得分作为强化学习中的奖赏信号，并通过深度Q学习算法进行训练。最终该模型在许多Atari 2600视频游戏上的表现已经赶上甚至超过了专业人类玩家的水平。该项研究工作是深度强化学习方法形成的重要标志。此后，DeepMind团队又开发出一款被称为AlphaGo的围棋算法。该算法一方面利用深度学习通过有信号的监督来模拟人类玩家的走子方式，另一方面利用强化学习来进行自我对抗，从而进一步提高智能体取胜的概率。最终AlphaGo以悬殊的比分先后击败当时的欧洲围棋冠军和世界围棋冠军。深度强化学习的基本思想可以描述为：利用深度学习的强大感知能力来提取大规模输入数据的抽象特征，并以此特征为依据进行自我激励的强化学习，直至求解出问题的最优策略。AlphaGo事件正式将深度强化学习技术推向了一个高峰。随着国内外对于深度强化学习理论和应用的不断完善，目前深度强化学习技术已经在游戏、机器人操控、自动驾驶、自然语言处理、参数优化等领域得到了广泛的应用。此外，深度强化学习也被认为是实现通用人工智能（General Artificial Intelligence，GAI）的一个重要途径。

本书深入浅出、内容翔实全面，全书配有PPT和视频讲解，对相关算法和实例配有代码程序。本书既适合强化学习零基础的本科生、研究生入门学习，也适合相关科研人员研究参考。

本书作者多年来一直从事强化学习的研究和教学工作，在国家自然科学基金、博士后基金、教育部科学研究重点项目、软件新技术与产业化协同创新中心、江苏高校优势学科建设工程资助项目、江苏省高校自然科学基金项目、苏州大学研究生精品课程项目等的资助下，提出了一些深度强化学习理论，解决了一系列核心技术，并将这些理论和方法用于解决实际问题。

本书总体设计、修改和审定由刘全完成，参加撰写的有黄志刚、翟建伟、吴光军、徐平安、欧阳震、寇俊强、郝少璞、李晓牧、顾子贤、叶倩等，对以上作者付出的艰辛劳动表示感谢！本书的撰写参考了国内外有关研究成果，他们的丰硕成果和贡献是本书学术思想的重要来源，在此对涉及的专家和学者表示诚挚的谢意。本书也得到了苏州大学计算机学院及智能计算与认知软件课题组部分老师和同学们的大力支持和协助，在此一并表示感谢。他们是：朱斐、凌兴宏、伏玉琛、章宗长、章晓芳、徐云龙、陈冬火、王辉、金海东、王浩、曹家庆、张立华、徐进、梁斌、姜玉斌、闫岩、胡智慧、陈红名、吴金金、李斌、何斌、时圣苗、张琳琳、范静宇、傲天宇、李洋、张建行、代珊珊、申怡、王逸勉、徐亚鹏、栗军伟、乌兰、王卓、杨皓麟、施眉龙、张雄振等。

机器学习是一个快速发展、多学科交叉的研究方向，其理论及应用均存在大量的亟待解决的问题。限于作者的水平，书中难免有不妥和错误之处，敬请同行专家和读者指正。

刘全

2021年1月