使用 Python 进行深度强化学习

Deep Reinforcement Learning with Python

用于聊天机器人和大型语言模型的 RLHF

 概述

  • 介绍使用 TensorFlow、PyTorch 和 OpenAI Gym 的深度强化学习实现
  • 全面涵盖使用 RLHF 微调大型语言模型,并提供完整的代码示例
  • 每个概念都借助工作代码进行解释,该代码可以以最小的工作量运行

 关于本书

从理论上了解深度强化学习 (deep RL) 中最常用的库。这个新版本侧重于使用编码学习方法的深度 RL 的最新进展,使读者能够吸收和复制该领域的最新研究。

介绍了从游戏、机器人到金融的新代理环境,以帮助您尝试不同的方法来应用强化学习。一章介绍了多智能体强化学习,介绍了多个智能体如何竞争,而另一章则重点介绍了广泛使用的深度 RL 算法,即近端策略优化 (PPO)。您将看到聊天机器人如何使用基于人工反馈的强化学习 (RLHF),这些机器人使用大型语言模型(例如 ChatGPT)构建,以提高对话能力。

您还将查看在多个云系统上使用代码以及在 Hugging Face Hub 等平台上部署模型的步骤。代码位于 Jupyter Notebook 中,可以在 Google Colab 和其他类似的深度学习云平台上运行,允许您根据自己的需求定制代码。

无论是用于游戏、机器人还是生成式 AI 中的应用,使用 Python 进行深度强化学习都将帮助您保持领先地位。




 学习内容

  • 探索基于 Python 的 RL 库,包括 StableBaselines3 和 CleanRL
  • 使用各种 RL 环境,如 Gymnasium、Pybullet 和 Unity ML
  • 了解使用 RLHF 和 PPO 对大型语言模型的指令进行微调
  • 使用 HuggingFace、Weights and Biases 和 Optuna 研究训练和优化技术


这本书是为谁准备的

渴望加深对深度 RL 的理解并获得从头开始实施 RL 算法的实用技能的软件工程师和机器学习开发人员。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。