首页 首页 人工智能 查看内容

从AlphaGo到AlphaGo Zero,深度强化学习还将有何里程碑

木马童年 2019-1-14 10:25 119 0

2016年初,AlphaGo战胜李世石成为人工智能的里程碑事件。其核心技术深度强化学习受到人们的广泛关注和研究,取得了丰硕的理论和应用成果。并进一步研发出算法形式更为简洁的AlphaGo Zero, 其采用完全不基于人类经验 ...

2016年初,AlphaGo战胜李世石成为人工智能的里程碑事件。其核心技术深度强化学习受到人们的广泛关注和研究,取得了丰硕的理论和应用成果。并进一步研发出算法形式更为简洁的AlphaGo Zero, 其采用完全不基于人类经验的自学习算法,完胜AlphaGo,再一次刷新人们对深度强化学习的认知。深度强化学习结合了深度学习和强化学习的优势,可以在复杂高维的状态动作空间中进行端到端的感知决策。本文主要介绍了从AlphaGo到AlphaGo Zero的深度强化学习的研究进展。首先回顾对深度强化学习的成功作出突出贡献的主要算法,包括深度Q网络算法、A3C算法、策略梯度算法及其他算法的相应扩展。然后给出AlphaGo Zero的详细介绍和讨论,分析其对人工智能的巨大推动作用。并介绍了深度强化学习在游戏、机器人、自然语言处理、智能驾驶、智能医疗等领域的应用进展,以及相关资源进展。最后探讨了深度强化学习的发展展望,以及对其他潜在领域的人工智能发展的启发意义。

DOI: 10.7641/CTA.2017.70808

Recent progress of deep reinforcement learning:

from AlphaGo to AlphaGo Zero

TANG Zhen-tao, SHAO Kun, ZHAO Dong-bin, ZHU Yuan-heng

The State Key Laboratory of Management and Control for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing 100190, China;

University of Chinese Academy of Sciences, Beijing 100190, China

Abstract: In the early 2016, the defeat of Lee Sedol by AlphaGo became the milestone of artificial intelligence. Since then, deep reinforcement learning (DRL), which is the core technique of AlphaGo, has received widespread attention, andhas gained fruitful results in both theory and applications. In the sequel, AlphaGo Zero, a simplified version of AlphaGo, masters the game of Go by self-play without human knowledge. As a result, AlphaGo Zero completely surpasses AlphaGo, and enriches humans’ understanding of DRL. DRL combines the advantages of deep learning and reinforcement learning,so it is able to perform well in high-dimensional state-action space, with an end-to-end structure combining perceptionand decision together. In this paper, we present a survey on the remarkable process made by DRL from AlphaGo to AlphaGo Zero. We first review the main algorithms that contribute to the great success of DRL, including DQN, A3C, policy-gradient, and other algorithms and their extensions. Then, detailed introduction and discussion on AlphaGo Zero are given and its great promotion on artificial intelligence is also analyze. The progress of applications with DRL in suchareas as games, robotics, natural language processing, smart driving, intelligent health care, and related resources are alsopresented. In the end, we discuss the future development of DRL, and the inspiration on other potential areas related toartificial intelligence.

1 .引言(Introduction)

深度强化学习(deep reinforcement learning: DRL)结合了深度神经网络和强化学习的优势,可以用于解决智能体在复杂高维状态空间中的感知决策问题[1-3]。在游戏、机器人、推荐系统等领域,深度强化学习已经取得了突破性进展。2016年,基于深度强化学习和蒙特卡罗树搜索的AlphaGo击败了人类顶尖职业棋手,引起了全世界的关注[4]。近日,DeepMind在Nature上公布了最新版AlphaGo论文,介绍了迄今为止最强的围棋人工智能(artificial intelligence, AI): AlphaGo Zero[5]。AlphaGo Zero不需要人类专家知识,只使用纯粹的深度强化学习技术和蒙特卡罗树搜索,经过3天自我对弈就以100比0击败了上一版本的AlphaGo。AlphaGo Zero证明了深度强化学习的强大能力,也必将推动以深度强化学习为代表的人工智能领域的进一步发展。

本文主要介绍深度强化学习领域的最新研究进展和AlphaGo Zero的发展历程。主要结构如下:首先简要介绍强化学习和深度学习的基本概念;然后重点介绍基于值函数和基于策略梯度的深度强化学习主要算法进展;由此引出AlphaGo Zero的原理和特点,分析AlphaGo Zero与早期版本的改进与不同;随后介绍深度强化学习在游戏、机器人、自然语言处理、智能驾驶、智能医疗等领域的最新应用成果;最后作出总结与思考。

2.深度强化学习算法进展(Progress of deep reinforcement learning algorithms)

在人工智能领域,感知和决策能力是衡量智能的关键性指标。近几年深度学习和强化学习的发展使得直接从原始的数据中提取高水平特征进行感知决策变成可能[6]。深度学习起源于人工神经网络。早期研究人员提出了多层感知机的概念,并且使用反向传播算法优化多层神经网络,但是由于受到梯度弥散或爆炸问题的困扰和硬件资源的限制,神经网络的研究一直没有取得突破性进展。最近几年,随着计算资源的性能提升和相应算法的发展,深度学习在人工智能领域取得了一系列重大突破,包括图像识别[7]、语音识别[8]、自然语言处理[9]等。深度学习由于其强大的表征能力和泛化性能受到众多研究人员的关注,相关技术在学术界和工业界都得到了广泛的研究与应用。

强化学习是机器学习中的一个重要研究领域,它以试错的机制与环境进行交互,通过最大化累积奖赏来学习最优策略[10]。强化学习智能体在当前状态st下根据策略π来选择动作at。环境接收该动作并转移到下一状态st+1,智能体接收环境反馈回来的奖赏rt并根据策略选择下一步动作。强化学习不需要监督信号,可以在模型未知的环境中平衡探索和利用,其主要算法有蒙特卡罗强化学习,时间差分(temporal difference:TD)学习,策略梯度等[11-12]。

强化学习由于其优秀的决策能力在人工智能领域得到了广泛应用。然而,早期的强化学习主要依赖于人工提取特征,难以处理复杂高维状态空间下的问题。随着深度学习的发展,算法可以直接从原始的高维数据中提取出特征。深度学习具有较强的感知能力,但是缺乏一定的决策能力;而强化学习具有较强的决策能力,但对感知问题束手无策。因此,将两者结合起来,优势互补,能够为复杂状态下的感知决策问题提供解决思路[1]。

2.1 深度Q网络及其扩展(Deep Q network and its extensions)

值函数作为强化学习领域的一个基本概念而得到了广泛的应用。其中,时间差分学习和Q学习是分别用于求解状态值函数和动作值函数的经典算法。基于值函数的深度强化学习是一个重要的研究方向。

2015年,DeepMind团队提出了深度Q网络(deep Q network,DQN),网络框架如图1所示[13]。DQN只使用游戏的原始图像作为输入,不依赖于人工提取特征,是一种端到端的学习方式。DQN创新性地将深度卷积神经网络和Q学习结合到一起,在Atari视频游戏上达到了人类玩家的控制效果。通过经验回放技术和固定目标Q网络,DQN有效解决了使用神经网络非线性动作值函数逼近器带来的不稳定和发散性问题,极大提升了强化学习的适用性。经验回放增加了历史数据的利用率,同时随机采样打破了数据间的相关性,与目标Q网络的结合进一步稳定了动作值函数的训练过程。此外,通过截断奖赏和正则化网络参数,梯度被限制到合适的范围内,从而可以得到更加鲁棒的训练过程。

从AlphaGo到AlphaGo Zero,深度强化学习还将有何里程碑

DQN训练过程中使用相邻的4帧游戏画面作为网络的输入,经过多个卷积层和全连接层,输出当前状态下可选动作的Q值,实现了端到端的学习控制。DQN采用带有参数θ的卷积神经网络作为函数逼近器,并且定期从经验回放池中采样历史数据更新网络参数,具体的更新过程为

从AlphaGo到AlphaGo Zero,深度强化学习还将有何里程碑

其中:s是当前状态,s′是下一时刻状态,a是当前动作,a′是下一时刻动作,r是奖赏信号,γ是折扣因子,θi是训练网络的参数,θi是目标网络的参数。作为深度强化学习领域的重要开创性工作,DQN的出现引发了众多研究团队的关注。在文献[1]中,介绍了DQN早期的主要改进工作,包括大规模分布式DQN[14]、双重DQN[15]、带优先级经验回放的DQN[16]、竞争架构DQN[17]、引导DQN[18]以及异步DQN[19]等。这些工作从不同角度改进DQN的性能。

此后,研究人员又陆续提出了一些DQN的重要扩展,继续完善DQN算法。Zhao等基于在策略(on-policy)强化学习,提出了深度SARSA(state-action-reward-state-action)算法[20]。实验证明在一些Atari视频游戏上,深度SARSA算法的性能要优于DQN。Anschel等提出了平均DQN,通过取Q值的期望以降低目标值函数的方差,改善了深度强化学习算法的不稳定性[21]。实验结果表明,平均DQN在ALE测试平台上的效果要优于DQN和双重DQN。He等在DQN的基础上提出一种约束优化算法来保证策略最优和奖赏信号快速传播[22]。该算法极大提高了DQN的训练速度,在ALE平台上经过一天训练就达到了DQN和双重DQN经过十天训练的效果。作为DQN的一种变体,分类DQN算法从分布式的角度分析深度强化学习[23]。与传统深度强化学习算法中选取累积奖赏的期望不同,分类DQN将奖赏看作一个近似分布,并且使用贝尔曼等式学习这个近似分布。分类DQN算法在Atari视频游戏上的平均表现要优于大部分基准算法。深度强化学习中参数的噪声可以帮助算法更有效地探索周围的环境,加入参数噪声的训练算法可以大幅提升模型的效果,并且能更快地教会智能体执行任务。噪声DQN在动作空间中借助噪声注入进行探索性行为,结果表明带有参数噪声的深度强化学习将比分别带有动作空间参数和进化策略的传统强化学习效率更高[24]。彩虹(Rainbow)将各类DQN的算法优势集成在一体,取得目前最优的算法性能,视为DQN算法的集大成者[25]。DQN算法及其主要扩展如表1所示。

从AlphaGo到AlphaGo Zero,深度强化学习还将有何里程碑

在不久的将来,多智时代一定会彻底走入我们的生活,有兴趣入行未来前沿产业的朋友,可以收藏多智时代,及时获取人工智能、大数据、云计算和物联网的前沿资讯和基础知识,让我们一起携手,引领人工智能的未来!

人工智能 强化学习 深度学习 机器人 自然语言处理 智能驾驶
0