• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能學術 正文
    發私信給楊曉凡
    發送

    0

    卡牌游戲八合一,華人團隊開源強化學習研究平臺RLCard

    本文作者: 楊曉凡 2019-10-14 16:13
    導語:征服麻將,征服斗地主

    語音播放文章內容

    由深聲科技提供技術支持

    雷鋒網 AI 科技評論按:在過去的兩三年中,我們經常聽說人工智能在棋牌類游戲(博弈)中取得新的成果,比如基于深度強化學習的 AlphaGo 擊敗了人類世界冠軍,由 AlphaGo 進化而來的 AlphaZero 還一并搞定了國際象棋和日本象棋;基于博弈論的冷撲大師(Libratus)也在無限注德州撲克比賽中擊敗了人類職業選手;今年在澳門舉行的 IJCAI 2019 上我們也發現了一篇斗地主 AI 論文

    不過,雖然這些團隊各自做出了令人矚目的成果,但不管對于工業界還是學術界來說,都缺少一個迅速開發和測試棋牌類 AI 的環境。最近德州農工大學胡俠帶領的華人團隊就給出了他們的解決方案,開源了基于牌類游戲設計的強化學習 Python 平臺 RLCard,在打包實現了多種牌類游戲算法的同時,也提供了中西方最流行的幾種牌類游戲環境(包括斗地主、麻將、21點、德州撲克、UNO等),致力于為強化學習提供一個統一、易用的開發和測試環境。雷鋒網 AI 科技評論介紹如下。

    RLCard 介紹

    卡牌游戲八合一,華人團隊開源強化學習研究平臺RLCard

    具體來說,RLCard 實現了四種有代表性的強化學習算法:作為強化學習的代表算法的 DQN、作為帶有自我學習的強化學習的代表算法的 NSFP、反事實后悔最小化 CFR 以及深度反事實后悔最小化 DeepCFR。RLCard 中也帶有一個隨機智能體。

    RLCard 中實現了八種牌類游戲環境:二十一點(Blackjack),三種德州撲克(簡化版德撲 Leduc Hold'em,有限制德撲 Limit Texas Hold'em 以及無限制德撲 No-limit Texas Hold'em ),斗地主,麻將,UNO 以及升級(目前升級游戲環境還在開發中)。

    卡牌游戲八合一,華人團隊開源強化學習研究平臺RLCard

    RLCard 安裝快速、使用簡單,提供大量的實例、文檔及 demo;提供人類與 AI,以及 AI 與 AI 間對戰的接口,支持并行加速。平臺設計遵循以下設計原則:

    1. 易于比較。在 RLCard 中的得到結果可以方便比較。不同的研究者會提出各種各樣的算法,RLCard 通過 AI 間博弈進行性能評估。通過設置同樣的隨機種子,同樣的結果可以在多次實驗上復現。

    2. 易用。盡可能用簡單的接口產生游戲數據,并且支持對游戲狀態編碼、動作編碼、獎勵函數設計、游戲規則的自定義。

    3. 可擴展。盡可能最小化環境依賴,使得工具包維護簡單。新游戲遵循工具包的設計原則也可以方便加入。

    對于游戲環境實現,RLCard 平臺抽象并定義了這些游戲概念:玩家,比賽(Game),對局(Round),發牌者(Dealer),裁判(Judger)。游戲環境實現都通過這些概念對應的類,這樣的相同的設計規范讓游戲邏輯更容易理解、更容易操作。別的牌類游戲也基本都可以符合這個結構,未來如果想要增加很容易。

    作為對比,現有的強化學習庫多數都是單智能體環境的(比如 OpenAI Gym);近期雖然也有一些支持多智能體的環境(比如星際2),但它們并不支持牌類游戲。RLCard 專為牌類游戲設計,不僅是一些牌類游戲在強化學習庫中的首次實現,也提供了簡單直觀的接口,便于強化學習研究。

    在目前的學術文獻中,解決撲克游戲的最熱門的方法是反事實后悔最小化(Counterfactual Regret Minimization,CFR),以及它的各種變體,勝過了人類職業選手的冷撲大師(Libratus)使用的就是基于 CFR 的方法。不過,CFR 很消耗計算資源,因為它需要完全遍歷整個游戲樹,所以它也不適用于斗地主之類的狀態空間很大的游戲。

    近期也有研究表明,強化學習策略可以在打賭類的博弈中取得很好的表現,比如玩斗地主就玩得不錯。這些美妙的成果,以及強化學習本身的靈活性都讓我們有可能探索狀態空間、行動空間更大的更困難的牌類游戲。

    RLCard 使用方法

    RLCard 使用簡單,輸入 pip install rlcard 可快速安裝。安裝完成后,用以下 5 行代碼就能用隨機的智能體產生對局數據,返回的數據可直接用于強化學習算法訓練。

    卡牌游戲八合一,華人團隊開源強化學習研究平臺RLCard

    另外,RLCard還提供了豐富的的運行實例,包括產生隨機數據,訓練CFR、DQN、NFSP等算法,以及多進程運行實例。

    卡牌游戲八合一,華人團隊開源強化學習研究平臺RLCard

    RLCard 提供人機對戰 demo。RLCard 提供 Leduc Hold'em 游戲環境的一個預訓練模型,可以直接測試人機對戰。Leduc Hold'em 是一個簡化版的德州撲克,游戲使用 6 張牌(紅桃 J、Q、K,黑桃 J、Q、K),牌型大小比較中 對牌>單牌,K>Q>J,目標是贏得更多的籌碼。與預訓練模型對局展示如下:

    卡牌游戲八合一,華人團隊開源強化學習研究平臺RLCard

    RLCard 評估

    除此之外,開發團隊還對 RLCard 做了系統的評估。他們測試了最流行的強化學習算法在環境上的表現。測試方法包括與隨機策略的比較以及 AI 間互相對戰的比較。發現主流算法在小型游戲上普遍有較好的效果,但是在較復雜游戲(例如斗地主、UNO)效果一般。如何在復雜的游戲中更好地訓練強化學習算法需要更多的研究。

    卡牌游戲八合一,華人團隊開源強化學習研究平臺RLCard

    卡牌游戲八合一,華人團隊開源強化學習研究平臺RLCard

    團隊也對游戲運行的效率進行了評估。在 24 核 2.10GHz CPU 服務器上對各個游戲的運行時間進行了測試,使用多進程可以更高效地產生游戲數據。

    卡牌游戲八合一,華人團隊開源強化學習研究平臺RLCard

    目前 RLCard 的官網已經上線,其中提供了詳細的文檔。學術論文也已經發表在 arXiv,第一作者為查道琛。詳細信息可以訪問下面的鏈接:

    未來,作者們還會繼續優化和增強這個平臺,他們的計劃包括增加基于規則的智能體、增加更多預訓練模型(幫助評價模型),增加更多游戲環境和算法,以及增加可視化和分析功能等。相信這個環境能對領域內的研究人員們起到很大幫助。

    感謝查道琛、胡俠對文本提供的幫助。雷鋒網 AI 科技評論報道。

    雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

    卡牌游戲八合一,華人團隊開源強化學習研究平臺RLCard

    分享:
    相關文章

    讀論文為生

    日常笑點滴,學術死腦筋
    當月熱門文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 国产一区在线观看不卡| 国产大屁股视频免费区| 五月天婷婷社区| 老熟妇国产一区二区三区 | 国产精品亚洲二区在线播放| 免费人成在线观看网站| 美女个护士一级毛片亚洲| 性欧美free高清video| 99在线精品免费视频| 亚洲夂夂婷婷色拍WW47| 日韩精品人妻中文字幕无码网址| 人妻少妇精品一区二区三区| 色综合亚洲一区二区小说| 国产一区二区三区在线观看免费| 欧美日本激情| 92国产精品午夜福利免费| 色图综合网| 亚洲人人妻| 亚洲最大日夜无码中文字幕| 国产中文字幕日韩精品| 国产精品日本熟女| 亚洲av综合网| 国产精品亚洲аv久久| 欧美黑人XXXX性高清版| 中文字幕乱码一区二区免费| 国产无遮挡无码视频免费软件| 97午夜影院| 国产在线精品一区二区三区| 久久人人妻人人爽人人爽| 精品在线wwwww| 日本中文字幕一区二区三区不卡 | 女人的天堂av在线播放| baoyu污污网站入口免费| 国产旡码高清一区二区三区| 亚洲人成网线在线播放VA| 亚洲一级毛片在线播放| 西西人体44www大胆无码| 国产中年熟女高潮大集合| 亚洲产在线精品亚洲第一站一| 丝袜人妻无码专区视频 | 自拍偷自拍亚洲精品播放|