開源巨獻：27個深度強化學習算法的實例項目

本文作者： AI研習社-譯站

2020-11-25 10:47

導語：在這里，您可以找到幾個致力于“深度強化學習”方法的項目。

譯者：AI研習社（宋怡然）

雙語原文鏈接：Deep Reinforcement Learning Nanodegree Algorithms

在這里，您可以找到幾個致力于“深度強化學習”方法的項目。項目以矩陣形式部署：[env x model]，其中env是要解決的環境，而model是解決該環境的模型/算法。在某些情況下，可以通過幾種算法來解決同一環境。所有項目均以包含培訓日志的Jupyter筆記本的形式呈現。
支持以下環境：

AntBulletEnv, Bipedalwalker, CarRacing, CartPole, Crawler, HalfCheetahBulletEnv, HopperBulletEnv, LunarLander, LunarLanderContinuous, Markov Decision 6x6, Minitaur, Minitaur with Duck, Pong, Navigation, Reacher, Snake, Tennis, Waker2DBulletEnv.

在Udacity深度強化學習學位計劃的框架內解決了四個環境（導航，爬蟲，到達者，網球）。

- 蒙特卡洛方法

在蒙特卡洛（MC）中，我們玩游戲的情節直到到達終點，我們從途中獲得了獎勵然后返回情節的開始。我們重復此方法至足夠的次數，然后平均每個狀態的值。

- 時差方法與Q學習

- 連續空間中的強化學習（深度Q網絡）

- 函數逼近和神經網絡

通用逼近定理（UAT）規定，只要滿足有關激活函數形式的輕微假設，就可以使用包含具有有限數量節點的單個隱藏層的前饋神經網絡來近似任何連續函數。

- 基于策略的方法，爬山，模擬退火

在許多情況下，隨機重啟爬山是一種出奇的有效算法。模擬退火是一種很好的概率技術，因為它不會偶然錯誤地將局部極值作為全局極值。

- 策略漸變方法，REINFORCE，PPO

定義一個性能指標J（\ theta）以使其最大化。通過近似梯度上升來學習策略參數\ theta。

- 關鍵行為法，A3C，A2C，DDPG，TD3，SAC

A3C與A2C的主要區別在于異步部分。 A3C由具有權重的多個獨立代理（網絡）組成，它們與環境的不同副本并行進行交互。因此，他們可以在更少的時間內探索狀態-行動空間的更大部分。

項目，模型和方法

AntBulletEnv, Soft Actor-Critic (SAC)

BipedalWalker, Twin Delayed DDPG (TD3)

BipedalWalker, PPO, Vectorized Environment

BipedalWalker, Soft Actor-Critic (SAC)

BipedalWalker, A2C, Vectorized Environment

CarRacing with PPO, Learning from Raw Pixels

CartPole, Policy Based Methods, Hill Climbing

CartPole, Policy Gradient Methods, REINFORCE

Cartpole, DQN

Cartpole, Double DQN

HalfCheetahBulletEnv, Twin Delayed DDPG (TD3)

HopperBulletEnv, Twin Delayed DDPG (TD3)

HopperBulletEnv, Soft Actor-Critic (SAC)

LunarLander-v2, DQN

LunarLanderContinuous-v2, DDPG

Markov Decision Process, Monte-Carlo, Gridworld 6x6

MinitaurBulletEnv, Soft Actor-Critic (SAC)

MinitaurBulletDuckEnv, Soft Actor-Critic (SAC)

Pong, Policy Gradient Methods, PPO

Pong, Policy Gradient Methods, REINFORCE

Snake, DQN, Pygame

Udacity Project 1: Navigation, DQN, ReplayBuffer

Udacity Project 2: Continuous Control-Reacher, DDPG, environment Reacher (Double-Jointed-Arm)

Udacity Project 2: Continuous Control-Crawler, PPO, environment Crawler

Udacity Project 3: Collaboration_Competition-Tennis, Multi-agent DDPG, environment Tennis

Walker2DBulletEnv, Twin Delayed DDPG (TD3)

Walker2DBulletEnv, Soft Actor-Critic (SAC)

DQN和Double DQN的項目

Cartpole, DQN
Cartpole, Double DQN
LunarLander-v2, DQN
Navigation, DQN
Snake, DQN, Pygame

PPO的項目

Pong, 8個并行代理
CarRacing, 單一代理，從像素中學習
C r a w l e r , 12 個并行代理
BipedalWalker, 16 個并行代理

AI研習社是AI學術青年和AI開發者技術交流的在線社區。我們與高校、學術機構和產業界合作，通過提供學習、實戰和求職服務，為AI學術青年和開發者的交流互助和職業發展打造一站式平臺，致力成為中國最大的科技創新人才聚集地。

如果，你也是位熱愛分享的AI愛好者。歡迎與譯站一起，學習新知，分享成長。

開源巨獻：27個深度強化學習算法的實例項目

3人收藏

AI研習社-譯站

知情人士

AI研習社(yanxishe.com)譯站頻道，傳播前沿人工智能知識，讓語言不再成為學習知識的門檻。（原雷鋒字幕組）

掃描關注作者微信

發私信

當月熱門文章

開源巨獻：27個深度強化學習算法的實例項目

項目，模型和方法

TD3的項目

Soft Actor-Critic (SAC) 的項目

BipedalWalker,與不同模型的混合

CartPole與不同模型的混合

更多鏈接

TowardsDataScience網站上的文章

我在上述項目中開發的相關視頻