0
譯者:AI研習社(宋怡然)
雙語原文鏈接:Deep Reinforcement Learning Nanodegree Algorithms
在這里,您可以找到幾個致力于“深度強化學習”方法的項目。 項目以矩陣形式部署:[env x model],其中env是要解決的環境,而model是解決該環境的模型/算法。 在某些情況下,可以通過幾種算法來解決同一環境。 所有項目均以包含培訓日志的Jupyter筆記本的形式呈現。
支持以下環境:
AntBulletEnv, Bipedalwalker, CarRacing, CartPole, Crawler, HalfCheetahBulletEnv, HopperBulletEnv, LunarLander, LunarLanderContinuous, Markov Decision 6x6, Minitaur, Minitaur with Duck, Pong, Navigation, Reacher, Snake, Tennis, Waker2DBulletEnv.
在Udacity深度強化學習學位計劃的框架內解決了四個環境(導航,爬蟲,到達者,網球)。
- 蒙特卡洛方法
在蒙特卡洛(MC)中,我們玩游戲的情節直到到達終點,我們從途中獲得了獎勵然后返回情節的開始。 我們重復此方法至足夠的次數,然后平均每個狀態的值。
- 時差方法與Q學習
通用逼近定理(UAT)規定,只要滿足有關激活函數形式的輕微假設,就可以使用包含具有有限數量節點的單個隱藏層的前饋神經網絡來近似任何連續函數。
在許多情況下,隨機重啟爬山是一種出奇的有效算法。 模擬退火是一種很好的概率技術,因為它不會偶然錯誤地將局部極值作為全局極值。
定義一個性能指標J(\ theta)以使其最大化。 通過近似梯度上升來學習策略參數\ theta。
A3C與A2C的主要區別在于異步部分。 A3C由具有權重的多個獨立代理(網絡)組成,它們與環境的不同副本并行進行交互。 因此,他們可以在更少的時間內探索狀態-行動空間的更大部分。
AntBulletEnv, Soft Actor-Critic (SAC)
BipedalWalker, Twin Delayed DDPG (TD3)
BipedalWalker, PPO, Vectorized Environment
BipedalWalker, Soft Actor-Critic (SAC)
BipedalWalker, A2C, Vectorized Environment
CarRacing with PPO, Learning from Raw Pixels
CartPole, Policy Based Methods, Hill Climbing
CartPole, Policy Gradient Methods, REINFORCE
HalfCheetahBulletEnv, Twin Delayed DDPG (TD3)
HopperBulletEnv, Twin Delayed DDPG (TD3)
HopperBulletEnv, Soft Actor-Critic (SAC)
LunarLanderContinuous-v2, DDPG
Markov Decision Process, Monte-Carlo, Gridworld 6x6
MinitaurBulletEnv, Soft Actor-Critic (SAC)
MinitaurBulletDuckEnv, Soft Actor-Critic (SAC)
Pong, Policy Gradient Methods, PPO
Pong, Policy Gradient Methods, REINFORCE
Udacity Project 1: Navigation, DQN, ReplayBuffer
Udacity Project 2: Continuous Control-Reacher, DDPG, environment Reacher (Double-Jointed-Arm)
Udacity Project 2: Continuous Control-Crawler, PPO, environment Crawler
Udacity Project 3: Collaboration_Competition-Tennis, Multi-agent DDPG, environment Tennis
Walker2DBulletEnv, Twin Delayed DDPG (TD3)
Walker2DBulletEnv, Soft Actor-Critic (SAC)
DQN和Double DQN的項目
PPO的項目
Pong, 8個并行代理
CarRacing, 單一代理,從像素中學習
C r a w l e r , 12 個并行代理
BipedalWalker, 16 個并行代理
AI研習社是AI學術青年和AI開發者技術交流的在線社區。我們與高校、學術機構和產業界合作,通過提供學習、實戰和求職服務,為AI學術青年和開發者的交流互助和職業發展打造一站式平臺,致力成為中國最大的科技創新人才聚集地。
如果,你也是位熱愛分享的AI愛好者。歡迎與譯站一起,學習新知,分享成長。