GHOST系统之家 - Windows系统光盘下载网站!
当前位置:GHOST系统之家>游戏攻略 > 如何使用近端策略优化(PPO)算法训练强化学习模型玩游戏

如何使用近端策略优化(PPO)算法训练强化学习模型玩游戏

来源:Ghost系统之家浏览:时间:2023-06-28 09:07:24

要点 

学习如何使用PyTorch和Lightning Fabric(https://lightning.ai/pages/open-source/fabric/)构建和训练强化学习模型。您还将使用近端策略优化(PPO)算法在模拟环境中创建和训练一个强化学习代理来玩游戏。基于这里的贡献https://github.com/Lightning-AI/lightning/tree/master/examples/fabric/reinforcement_learning

强化学习简介

强化学习(RL)是一种机器学习算法,通过让智能代理与环境互动并随时间调整行为以实现某个目标的最大化,从而训练智能代理做出决策。它的灵感来源于人类和动物如何从经验中学习并相应地调整行动。

强化学习在各种应用中取得了极大的成功,包括机器人、自动驾驶汽车、推荐系统和游戏玩家等。其中最著名的例子是DeepMind开发的AI系统AlphaGo。它将强化学习与深度神经网络相结合,击败了世界冠军围棋选手。围棋是一种策略性双人棋盘游戏,起源于2500多年前的中国。共有近2×10^170种可能的合法棋盘位置,游戏在19×19的棋盘上进行。目标是围住比对手更多的领地。

强化学习的组成部分

代理:代理是根据与环境的互动来学习和做决策的实体(例如,AI算法或机器人)。 

环境:环境代表代理操作的外部背景或世界。它可以简单到一个二维的井字游戏网格,也可以复杂到真实世界。 

状态:状态是环境在某个时间点的快照,代表代理所感知的内容。它为代理提供了做决策所需的必要信息。 

动作:动作是代理在给定状态下可以进行的一系列可能的移动或选择。代理的目标是根据对环境的当前理解选择最合适的动作。 

奖励:奖励是代理在执行动作后从环境中获得的反馈。它们表明代理在实现目标方面的表现如何。代理的目标是学习一种策略,使得随着时间的推移,累积奖励最大化。

高层次表示如下图所示:

在上图中,时间被离散化并用t表示,代理与环境进行互动。代理从环境中接收到一个观察值,该观察值表示在那个时间点的环境状态。然后,代理根据该状态执行动作,并获得相应的奖励。奖励是一个标量值,表示相对于代理试图实现的特定目标或任务,该动作的好坏程度。

与PyTorch一起进行强化学习之旅

意大利的一家AI公司Orobix与一家视频游戏公司合作,开发了一个强化学习(RL)框架。其目标是提高游戏中非玩家角色(NPC)的赛车表现。这一合作旨在创造更具竞争力和沉浸感的体验。

该框架从零开始构建,以便我们可以完全控制训练循环和分布式训练基础设施。

我们需要对分布式训练、半精度以及代码的每个部分进行手动控制,以使其更具灵活性。Lightning AI(前身为PyTorch Lightning)团队推出的一款新库Fabric,帮助我们实现了这一目标。它让我们在自定义训练循环上具有完全的灵活性,同时抽象了多个设备、分布式和半精度训练。

Fabric-加速强化学习

现在我们将构建并训练一个强化学习代理在CartPole环境中玩耍,其中一个杆通过一个非驱动关节连接到一个沿着无摩擦轨道移动的手推车。这个代理基于近端策略优化(PPO)算法。目标是通过在手推车的左右方向施加力来平衡杆子:

需要做的是

安装以下几个库:

Gymnasium:用于强化学习的标准API,包含各种参考环境。

Fabric:用于加速和分布我们的训练。

所需库列表在这里:https://github.com/Lightning-AI/lightning/blob/master/examples/fabric/reinforcement_learning/requirements.txt

环境与智能体相结合

让我们首先了解环境何时与代理程序耦合。主要思想如下图所示:

我们将会创建N+1个进程,称为rank-0, ...,rank-N;每个进程都包含环境(可能有多个,上述图中为M+1个,并有多个副本)和实体:它们在同一进程中并发地连接在一起。

让我们首先定义我们的main(...)函数,在其中使用Fabric初始化分布式训练设置。

接下来,我们使用gymnasium创建环境。首先,我们定义一个名为make_env的辅助函数,用于创建单个环境。

现在,我们将使用刚刚创建的make_env函数,通过SyncVectorEnv对象创建一个并行同步环境池。

在最后一步中,我们创建代理程序、优化器,并将其与Fabric集成,以实现更快的训练。

我们定义了PPOLightningAgent,它是一个LightningModule,也是一个Actor-Critic代理程序。在Actor-Critic代理程序中,演员(actor)在给定状态下提出一组可能的动作,评论家(critic)评估演员所采取的动作。

现在我们需要创建一个“无限”循环,在其中执行以下操作:

   1. 代理程序与环境进行交互,收集经验。一个单独的经验由以下内容组成:

done是一个标识游戏是否完成的布尔值

    代理程序会收集经验,直到游戏终止或达到预定义的步数。

   2. 根据收集到的经验,训练代理程序以改进其行为。 

   3. 重复步骤1,直到达到收敛或与环境的最大交互次数。

经验收集循环:

为了训练演员和评论家,我们需要估计回报(returns)和优势(advantages)。

优势描述了在某个状态下,采取特定行动相对于根据行动者的随机选择行动的优势有多大。

回报是环境所获得的折扣奖励的总和。

y%5Cin%20(0%2C1)是折扣银子。直观上,回报意味着现在的奖励比以后的奖励更有价值。

我们现在终于能够训练代理了。

有关代理的完整训练步骤的更详细信息,请参考此链接。(https://github.com/Lightning-AI/lightning/blob/master/examples/fabric/reinforcement_learning/rl/agent.py#L196)

正如我们所见,分布式训练不需要任何样板代码;Fabric为我们抽象了这个过程。要以分布式方式训练我们的代理,只需执行以下命令:

训练完的代理应该会像下面这样玩游戏:

结论

强化学习是一种强大的机器学习技术,使代理能够通过经验学习并随着时间推移改进其决策能力。它有潜力革新各个行业,并为更智能和适应性强的人工智能系统的发展做出贡献。

在这篇博文中,我们简要介绍了强化学习的高级概念,并展示了如何训练一个代理以在Cart-Pole游戏中实现最佳表现,感谢Fabric的帮助,我们能够加速训练,而无需编写样板代码。

原文:https://lightning.ai/pages/community/tutorial/how-to-train-reinforcement-learning-model-to-play-game-using-proximal-policy-optimization-ppo-algorithm/

推荐系统

  • 电脑公司Ghost Win8.1 x32 精选纯净版2022年7月(免激活) ISO镜像高速下载

    电脑公司Ghost Win8.1 x32 精选纯净版2022年7月(免激活) ISO镜像高速下载

    语言:中文版系统大小:2.98GB系统类型:Win8

    电脑公司Ghost Win8.1x32位纯净版V2022年7月版本集成了自2022流行的各种硬件驱动,首次进入系统即全部硬件已安装完毕。电脑公司Ghost Win8.1x32位纯净版具有更安全、更稳定、更人性化等特点。集成最常用的装机软件,精心挑选的系统维护工具,加上绿茶独有

  • 微软Win11原版22H2下载_Win11GHOST 免 激活密钥 22H2正式版64位免费下载

    微软Win11原版22H2下载_Win11GHOST 免 激活密钥 22H2正式版64位免费下载

    语言:中文版系统大小:5.13GB系统类型:Win11

    微软Win11原版22H2下载_Win11GHOST 免 激活密钥 22H2正式版64位免费下载系统在家用办公上跑分表现都是非常优秀,完美的兼容各种硬件和软件,运行环境安全可靠稳定。Win11 64位 Office办公版(免费)优化  1、保留 Edge浏览器。  2、隐藏“操作中心”托盘图标。  3、保留常用组件(微软商店,计算器,图片查看器等)。  5、关闭天气资讯。 

  • Win11 21H2 官方正式版下载_Win11 21H2最新系统免激活下载

    Win11 21H2 官方正式版下载_Win11 21H2最新系统免激活下载

    语言:中文版系统大小:4.75GB系统类型:Win11

    Ghost Win11 21H2是微软在系统方面技术积累雄厚深耕多年,Ghost Win11 21H2系统在家用办公上跑分表现都是非常优秀,完美的兼容各种硬件和软件,运行环境安全可靠稳定。Ghost Win11 21H2是微软最新发布的KB5019961补丁升级而来的最新版的21H2系统,以Windows 11 21H2 22000 1219 专业版为基础进行优化,保持原汁原味,系统流畅稳定,保留常用组件

  • windows11中文版镜像 微软win11正式版简体中文GHOST ISO镜像64位系统下载

    windows11中文版镜像 微软win11正式版简体中文GHOST ISO镜像64位系统下载

    语言:中文版系统大小:5.31GB系统类型:Win11

    windows11中文版镜像 微软win11正式版简体中文GHOST ISO镜像64位系统下载,微软win11发布快大半年了,其中做了很多次补丁和修复一些BUG,比之前的版本有一些功能上的调整,目前已经升级到最新版本的镜像系统,并且优化了自动激活,永久使用。windows11中文版镜像国内镜像下载地址微软windows11正式版镜像 介绍:1、对函数算法进行了一定程度的简化和优化

  • 微软windows11正式版GHOST ISO镜像 win11下载 国内最新版渠道下载

    微软windows11正式版GHOST ISO镜像 win11下载 国内最新版渠道下载

    语言:中文版系统大小:5.31GB系统类型:Win11

    微软windows11正式版GHOST ISO镜像 win11下载 国内最新版渠道下载,微软2022年正式推出了win11系统,很多人迫不及待的要体验,本站提供了最新版的微软Windows11正式版系统下载,微软windows11正式版镜像 是一款功能超级强大的装机系统,是微软方面全新推出的装机系统,这款系统可以通过pe直接的完成安装,对此系统感兴趣,想要使用的用户们就快来下载

  • 微软windows11系统下载 微软原版 Ghost win11 X64 正式版ISO镜像文件

    微软windows11系统下载 微软原版 Ghost win11 X64 正式版ISO镜像文件

    语言:中文版系统大小:0MB系统类型:Win11

    微软Ghost win11 正式版镜像文件是一款由微软方面推出的优秀全新装机系统,这款系统的新功能非常多,用户们能够在这里体验到最富有人性化的设计等,且全新的柔软界面,看起来非常的舒服~微软Ghost win11 正式版镜像文件介绍:1、与各种硬件设备兼容。 更好地完成用户安装并有效地使用。2、稳定使用蓝屏,系统不再兼容,更能享受无缝的系统服务。3、为

  • 雨林木风Windows11专业版 Ghost Win11官方正式版 (22H2) 系统下载

    雨林木风Windows11专业版 Ghost Win11官方正式版 (22H2) 系统下载

    语言:中文版系统大小:4.75GB系统类型:

    雨林木风Windows11专业版 Ghost Win11官方正式版 (22H2) 系统下载在系统方面技术积累雄厚深耕多年,打造了国内重装系统行业的雨林木风品牌,其系统口碑得到许多人认可,积累了广大的用户群体,雨林木风是一款稳定流畅的系统,一直以来都以用户为中心,是由雨林木风团队推出的Windows11国内镜像版,基于国内用户的习惯,做了系统性能的优化,采用了新的系统

  • 雨林木风win7旗舰版系统下载 win7 32位旗舰版 GHOST 免激活镜像ISO

    雨林木风win7旗舰版系统下载 win7 32位旗舰版 GHOST 免激活镜像ISO

    语言:中文版系统大小:5.91GB系统类型:Win7

    雨林木风win7旗舰版系统下载 win7 32位旗舰版 GHOST 免激活镜像ISO在系统方面技术积累雄厚深耕多年,加固了系统安全策略,雨林木风win7旗舰版系统在家用办公上跑分表现都是非常优秀,完美的兼容各种硬件和软件,运行环境安全可靠稳定。win7 32位旗舰装机版 v2019 05能够帮助用户们进行系统的一键安装、快速装机等,系统中的内容全面,能够为广大用户