前沿人工智能:Python 中的深度强化学习

Cutting-Edge AI: Deep Reinforcement Learning in Python

 

使用进化策略、A2C 和 DDPG 将深度学习应用于人工智能和强化学习

你将学到什么

理解 A2C 算法的前沿实现(OpenAI Baselines)
理解和实现 AI 的进化策略 (ES)
理解和实现 DDPG(深度确定性策略梯度)

要求

了解 MDP(马尔可夫决策过程)和强化学习的基础知识有助于学习
我的前两门强化学习课程
了解如何在 Tensorflow 中构建卷积神经网络

描述

欢迎来到尖端人工智能!

从技术上讲,这是我的深度学习系列的第 11 部分 Python 中的深度学习,也是我的第三门强化学习课程。

深度强化学习实际上是 2 个主题的组合:强化学习和深度学习(神经网络)。

虽然这两者已经存在了很长一段时间,但直到最近深度学习才真正起飞,随之而来的是强化学习。

深度学习的成熟推动了自 1980 年代以来一直存在的强化学习的进步,尽管它的某些方面,例如贝尔曼方程,已经存在了更长的时间。

最近,这些进步使我们能够展示强化学习的强大功能。

我们已经看到 AlphaZero 如何仅使用自我对弈来掌握围棋游戏。

这是在最初的 AlphaGo 击败围棋世界冠军之后的几年。

我们已经看到现实世界的机器人学习如何走路,甚至在被踢倒后恢复,尽管只是使用模拟进行训练。

模拟很好,因为它不需要昂贵的实际硬件。如果您的代理跌倒,则不会造成真正的损害。

我们已经看到现实世界的机器人学会了手的灵巧性,这是一项不小的壮举。

走路是一回事,但这涉及粗略的运动。手的灵巧性很复杂——你有很多自由度,而且其中的许多力量都非常微妙。

想象一下用你的脚做一些你通常用手做的事情,你会立即明白为什么这会很困难。

最后但并非最不重要的 – 电子游戏。

即使仅考虑过去几个月,我们也看到了一些惊人的发展。AI 现在正在 CS:GO 和 Dota 2 中击败职业选手。

那么,这门课程与前两门课程有何不同呢?

既然我们知道深度学习与强化学习一起工作,那么问题就变成了:我们如何改进这些算法?

本课程将向您展示几种不同的方式:包括强大的 A2C(Advantage Actor-Critic)算法、DDPG(深度确定性策略梯度)算法和进化策略。

进化策略是一种全新的强化学习方法,它抛弃了所有旧理论,转而采用一种更“黑匣子”的方法,受生物进化的启发。

这门新课程的另一个优点是我们可以看到的各种环境。

首先,我们将看看经典的 Atari 环境。这些很重要,因为它们表明强化学习代理可以仅基于图像进行学习。

其次,我们要看看 MuJoCo,它是一个物理模拟器。这是构建能够在现实世界中导航并理解物理的机器人的第一步——我们首先必须证明它可以与模拟物理一起工作。

最后,我们来看看几年前大家最喜欢的手机游戏《Flappy Bird》。

感谢您的阅读,我们课堂上见!

“如果你不能实现它,你就不会理解它”

或者正如伟大的物理学家理查德费曼所说:“我无法创造的东西,我不明白”。

我的课程是您将学习如何从头开始实施机器学习算法的唯一课程

其他课程会教你如何将数据插入库中,但你真的需要 3 行代码的帮助吗?

在用 10 个数据集做同样的事情之后,你意识到你没有学到 10 件事。你学到了一件事,只是重复了同样的 3 行代码 10 次……

建议的先决条件

结石

可能性

面向对象编程

Python 编码:if/else、循环、列表、字典、集合

Numpy 编码:矩阵和向量运算

线性回归

梯度下降

了解如何在 TensorFlow 中构建卷积神经网络 (CNN)

马尔可夫决策过程 (MDP)

我应该按什么顺序上课?

查看讲座“机器学习和 AI 先决条件路线图”(可在我的任何课程的常见问题解答中找到,包括免费的 Numpy 课程)

本课程面向

希望将强化学习应用于其工作和项目的学生和专业人士
任何想要学习尖端人工智能和强化学习算法的人

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。