• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能開發者 正文
    發私信給AI研習社-譯站
    發送

    0

    開源巨獻:27個深度強化學習算法的實例項目

    本文作者: AI研習社-譯站 2020-11-25 10:47
    導語:在這里,您可以找到幾個致力于“深度強化學習”方法的項目。

    譯者:AI研習社(宋怡然

    雙語原文鏈接:Deep Reinforcement Learning Nanodegree Algorithms


    在這里,您可以找到幾個致力于“深度強化學習”方法的項目。 項目以矩陣形式部署:[env x model],其中env是要解決的環境,而model是解決該環境的模型/算法。 在某些情況下,可以通過幾種算法來解決同一環境。 所有項目均以包含培訓日志的Jupyter筆記本的形式呈現。
    支持以下環境:

    AntBulletEnv, Bipedalwalker, CarRacing, CartPole, Crawler, HalfCheetahBulletEnv, HopperBulletEnv, LunarLander, LunarLanderContinuous, Markov Decision 6x6, Minitaur, Minitaur with Duck, Pong, Navigation, Reacher, Snake, Tennis, Waker2DBulletEnv.

    在Udacity深度強化學習學位計劃的框架內解決了四個環境(導航,爬蟲,到達者,網球)。

    蒙特卡洛方法 

    在蒙特卡洛(MC)中,我們玩游戲的情節直到到達終點,我們從途中獲得了獎勵然后返回情節的開始。 我們重復此方法至足夠的次數,然后平均每個狀態的值。

    時差方法與Q學習

    連續空間中的強化學習(深度Q網絡)

    函數逼近和神經網絡

    通用逼近定理(UAT)規定,只要滿足有關激活函數形式的輕微假設,就可以使用包含具有有限數量節點的單個隱藏層的前饋神經網絡來近似任何連續函數。

    基于策略的方法爬山模擬退火

    在許多情況下,隨機重啟爬山是一種出奇的有效算法。 模擬退火是一種很好的概率技術,因為它不會偶然錯誤地將局部極值作為全局極值。

    策略漸變方法REINFORCEPPO

    定義一個性能指標J(\ theta)以使其最大化。 通過近似梯度上升來學習策略參數\ theta。

    關鍵行為法A3CA2CDDPGTD3SAC

    A3C與A2C的主要區別在于異步部分。  A3C由具有權重的多個獨立代理(網絡)組成,它們與環境的不同副本并行進行交互。 因此,他們可以在更少的時間內探索狀態-行動空間的更大部分。

    項目,模型和方法

    AntBulletEnvSoft Actor-Critic (SAC)

    BipedalWalker, Twin Delayed DDPG (TD3)

    BipedalWalker, PPO, Vectorized Environment

    BipedalWalker, Soft Actor-Critic (SAC)

    BipedalWalker, A2C, Vectorized Environment

    CarRacing with PPO, Learning from Raw Pixels

    CartPole, Policy Based Methods, Hill Climbing

    CartPole, Policy Gradient Methods, REINFORCE

    Cartpole, DQN

    Cartpole, Double DQN

    HalfCheetahBulletEnv, Twin Delayed DDPG (TD3)

    HopperBulletEnv, Twin Delayed DDPG (TD3)

    HopperBulletEnv, Soft Actor-Critic (SAC)

    LunarLander-v2, DQN

    LunarLanderContinuous-v2, DDPG

    Markov Decision Process, Monte-Carlo, Gridworld 6x6

    MinitaurBulletEnv, Soft Actor-Critic (SAC)

    MinitaurBulletDuckEnv, Soft Actor-Critic (SAC)

    Pong, Policy Gradient Methods, PPO

    Pong, Policy Gradient Methods, REINFORCE

    Snake, DQN, Pygame

    Udacity Project 1: Navigation, DQN, ReplayBuffer

    Udacity Project 2: Continuous Control-Reacher, DDPG, environment Reacher (Double-Jointed-Arm)

    Udacity Project 2: Continuous Control-Crawler, PPO, environment Crawler

    Udacity Project 3: Collaboration_Competition-Tennis, Multi-agent DDPG, environment Tennis

    Walker2DBulletEnv, Twin Delayed DDPG (TD3)

    Walker2DBulletEnv, Soft Actor-Critic (SAC)

    DQN和Double DQN的項目

    PPO的項目

    TD3的項目

    Soft Actor-Critic (SAC) 的項目

    BipedalWalker,與不同模型的混合

    CartPole與不同模型的混合

    更多鏈接

    • 有關Policy-Gradient Methods策略梯度方法,參見 123.

    • 有關 REINFORCE,參見 123.

    • 有關 PPO,參見 12345.

    • 有關 DDPG,參見 12.

    • 有關 Actor-Critic MethodsA3C,參見 1234.

    • 有關 TD3,參見 123

    • 有關 SAC,參見 12345

    • 有關 A2C,參見 12345 

    TowardsDataScience網站上的文章

    貝爾曼方程式在深度強化學習中如何工作?

    深度Q網絡中一對相互關聯的神經網絡

    深度強化學習的三個方面:噪聲,高估和探索

    我在上述項目中開發的相關視頻


    AI研習社是AI學術青年和AI開發者技術交流的在線社區。我們與高校、學術機構和產業界合作,通過提供學習、實戰和求職服務,為AI學術青年和開發者的交流互助和職業發展打造一站式平臺,致力成為中國最大的科技創新人才聚集地。

    如果,你也是位熱愛分享的AI愛好者。歡迎與譯站一起,學習新知,分享成長。

    開源巨獻:27個深度強化學習算法的實例項目

    開源巨獻:27個深度強化學習算法的實例項目

    分享:
    相關文章

    知情人士

    AI研習社(yanxishe.com)譯站頻道,傳播前沿人工智能知識,讓語言不再成為學習知識的門檻。(原雷鋒字幕組)
    當月熱門文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 思茅市| 国内熟妇人妻色在线三级| 亚洲国产精选| 青草伊人久久综在合线亚洲| 国产性爱片| 国产成人综合亚洲一区| 一本大道久久a久久综合| jizz亚洲| 国产成人免费高清AⅤ| 午夜精品偷拍| 中文 在线 日韩 亚洲 欧美| 色7成人网AⅤ| 成人国产一区二区三区| 日本中文字幕有码在线视频 | 人妻无二区码区三区免费| 国产高跟黑色丝袜在线| 人妻夜夜爽天天爽一区| 尹人香蕉久久99天天拍久女久| 亚洲中文字幕久久精品蜜桃| 99re国产| 无码天堂成人| 伊人久久综在合线亚洲不卡| 天天澡日日澡狠狠欧美老妇| 国产精品极品美女自在线观看免费| 福利精品一区二区三区| 亚洲熟妇丰满多毛xxxx| 日本边添边摸边做边爱喷水| 丁香婷婷在线观看| 2021最新国产精品网站| 高潮毛片无遮挡高清视频播放| 无码人妻斩一区二区三区| 国产成人欧美一区二区三区 | 性欧美丰满熟妇xxxx性5| 亚洲最大福利视频网| 国产91在线播放免费| 国产精品久久久久婷婷五月| 免费视频爱爱太爽了| 亚洲高潮喷水无码AV电影| 亚洲色欲综合| 久久精品一卡日本电影| 韩国 日本 亚洲 国产 不卡|