• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能學術 正文
    發(fā)私信給我在思考中
    發(fā)送

    0

    上海交大ACM班俞勇團隊推出強化學習入門寶典!附作者對話

    本文作者: 我在思考中 2022-04-19 09:38
    導語:上海交通大學ACM班又出新品,人郵“動手學”又一力作《動手學強化學習》來了!
    上海交大ACM班俞勇團隊推出強化學習入門寶典!附作者對話
    上海交通大學ACM班又出新品,人郵“動手學”又一力作《動手學強化學習》來了!

    作者 | Ailleurs

    編輯 | 陳彩嫻

    在過去十多年的發(fā)展中,基于機器學習的智能檢測和智能預測類的人工智能技術快速發(fā)展。例如,在門禁系統(tǒng)中應用的人臉活體檢測、在個性化信息流推薦中應用的用 戶興趣預測已成為人們?nèi)粘I钪胁豢苫蛉钡募夹g。如今,在這些成熟的人工智能技術基礎上, 服務于決策智能的技術變得越來越重要,這背后對應機器學習領域下的一個分支——強化學習

    目前強化學習技術已經(jīng)在機器人控制、游戲智能、智慧城市、推薦系統(tǒng)、能源優(yōu)化等領域得到廣泛應用,發(fā)展前景廣闊,業(yè)界對強化學習人才的需求量也與日俱增。

    但是,強化學習的普及教育較為滯后,不少高校仍未開設強化學習課程,學生迫切需要一條系統(tǒng)學習強化學習技術的專業(yè)路徑。

    近日,上海交大ACM班的俞勇團隊結合多年研究與教學,推出了一本強化學習入門書——《動手學強化學習》,號稱理論能講透、代碼能跑通、實驗可復現(xiàn),立即在社區(qū)內(nèi)引起了廣泛關注。

    上海交大ACM班俞勇團隊推出強化學習入門寶典!附作者對話

    針對該杰作,AI科技評論也特地聯(lián)系了該書的作者之一、上海交大副教授、青橙獎和吳文俊優(yōu)青獲得者張偉楠,向他了解了此書背后的故事(見文末)。

    如果你想“入坑”強化學習,那這本書絕對不可錯過~



    1

    作者簡介

    上海交大ACM班俞勇團隊推出強化學習入門寶典!附作者對話

    張偉楠,上海交通大學副教授,博士生導師,ACM班機器學習、強化學習課程授課老師,吳文俊人工智能優(yōu)秀青年獎、達摩院青橙獎得主,獲得中國科協(xié)“青年人才托舉工程”支持。他的科研領域包括強化學習、數(shù)據(jù)挖掘、知識圖譜、深度學習以及這些技術在推薦系統(tǒng)、搜索引擎、文本分析等場景中的應用。他在國際一流會議和期刊上發(fā)表了100余篇相關領域的學術論文,于2016年在英國倫敦大學學院(UCL)計算機系獲得博士學位。

    上海交大ACM班俞勇團隊推出強化學習入門寶典!附作者對話

    沈鍵,上海交通大學APEX實驗室博士生,師從俞勇教授,研究方向為深度學習、強化學習和教育數(shù)據(jù)挖掘。在攻讀博士期間,他以第一作者身份發(fā)表機器學習國際頂級會議NeurIPS、AAAI論文,參與發(fā)表多篇機器學習和數(shù)據(jù)挖掘國際頂級會議(包括ICML、IJCAI、SIGIR、KDD、AISTATS等)論文,并擔任多個國際頂級會議和SCI學術期刊的審稿人。

    上海交大ACM班俞勇團隊推出強化學習入門寶典!附作者對話

    俞勇,享受國務院特殊津貼專家,國家級教學名師,上海交通大學特聘教授,APEX實驗室主任,上海交通大學ACM班創(chuàng)始人。俞勇教授曾獲得首批“國家高層次人才特殊支持計劃”教學名師、“上海市教學名師獎”“全國師德標兵”“上海交通大學校長獎”和“最受學生歡迎教師”等榮譽。他于2018年創(chuàng)辦了伯禹人工智能學院,在上海交通大學ACM班人工智能專業(yè)課程體系的基礎上,對AI課程體系進行創(chuàng)新,致力于培養(yǎng)卓越的AI算法工程師和研究員。



    2

    內(nèi)容介紹

    本書系統(tǒng)地介紹了強化學習的原理和實現(xiàn),理論扎實且落地性強。對于初探強化學習的讀者來說,本書不僅能夠幫助你理解強化學習的算法原理,提高代碼實踐能力,更能讓你了解自己是否喜歡決策智能這個方向,從而更好地決策未來是否從事人工智能方面的研究和實踐工作。

    這本書的內(nèi)容一共包括3個部分:

    • 第一部分為強化學習基礎,講解強化學習的基礎概念和表格型強化學習方法

    • 第二部分為強化學習進階,討論深度強化學習的思維方式、深度價值函數(shù)和深度策略學習方法

    • 第三部分為強化學習前沿,介紹學術界在深度強化學習領域的主要關注方向和前沿算法

    同時,本書理論與實踐并重,在介紹強化學習理論的同時,還提供了配套的線上代碼實踐平臺,展示源碼的編寫和運行過程,能夠讓讀者進一步掌握強化學習算法的運行機制。

    本書適合各類對強化學習感興趣的人群。如果你是學生,你可以通過這本書中提供的一條自學捷徑,成功入門強化學習領域。如果你是高校教師,你也可以將這本書作為教材,開設強化學習課程。如果你是程序員,那么你可以通過這本書中的理論和實戰(zhàn),落地強化學習。

    本書目錄如下:


    上海交大ACM班俞勇團隊推出強化學習入門寶典!附作者對話

    上海交大ACM班俞勇團隊推出強化學習入門寶典!附作者對話

    上海交大ACM班俞勇團隊推出強化學習入門寶典!附作者對話

    上海交大ACM班俞勇團隊推出強化學習入門寶典!附作者對話

    上海交大ACM班俞勇團隊推出強化學習入門寶典!附作者對話

    上海交大ACM班俞勇團隊推出強化學習入門寶典!附作者對話


    那么這本書的主要亮點有哪些呢?

    第一,這本書注重理論基礎,兼顧公式推導。做好公式推導,才能熟練編寫代碼和理解算法,本書提供了超清晰的公式推導過程,讓新手不用再經(jīng)歷“公式不知道用在哪里,公式不知道怎么推導出”的抓狂體驗。

    上海交大ACM班俞勇團隊推出強化學習入門寶典!附作者對話

    第二,這本書中注釋清晰,代碼實戰(zhàn)的落地性極強,“動手學”的思維很清晰。書中提供的代碼都是基于 Python 3 編寫的,而且代碼在涉及自動求導時皆使用目前比較受歡迎的 PyTorch 框架實現(xiàn)。每一章的內(nèi)容都提供了Jupyter Notebook鏈接,可以在線直接運行。

    上海交大ACM班俞勇團隊推出強化學習入門寶典!附作者對話

    第三,本書配套資源豐富。作者團隊為這本書錄制了在線視頻,使得學員可以兼顧教材和網(wǎng)課來進行系統(tǒng)地學習,課后練習和在線答疑也可以幫助同學鞏固所學知識,提高學習效率。

    上海交大ACM班俞勇團隊推出強化學習入門寶典!附作者對話

    這樣一本強化學習入門佳作也獲得了圖靈獎得主John Hopcroft、李沐、俞揚、張志華、汪軍、李航等多位業(yè)內(nèi)大咖的強烈推薦:

    上海交大ACM班俞勇團隊推出強化學習入門寶典!附作者對話



    3

    對話張偉楠

    AI科技評論就本書的編寫緣由、編寫過程、內(nèi)容亮點、學習建議等方面,對本書的編者之一張偉楠副教授進行了采訪,整理如下。

    AI科技評論:你們最初是怎么有編寫這本書的想法的?從開始編寫到完稿花了多長時間?

    張偉楠:我本人長期做強化學習方面的研究,也在上海交通大學講授強化學習課程。本書三位作者所在的上海交通大學APEX數(shù)據(jù)和知識管理實驗室(簡稱APEX實驗室)有一個30人的強化學習研究組。強化學習的研究其實門檻比較高,一方面它對數(shù)理統(tǒng)計基礎要求高,另一方面它的實驗總是比較難做成功,很多時候需要付出很多努力才能復現(xiàn)論文實驗結果或者做出新的實驗突破。因此我也經(jīng)常開玩笑說:要做好強化學習研究,你需要數(shù)學好,編程好,還要品格好。最后的“品格好”是指需要具備實事求是的態(tài)度和持之以恒的韌性,在強化學習實驗調不出來時還能細心檢查bug,在實驗跑了一周還沒起色時,愿意再堅持幾天,在最終意識到自己方法確實不work時,能坦然面對,重新設計算法。

    強化學習組的師生們相互幫助,促進研究效率提升,也為帶剛剛進組的新同學“避坑”,就慢慢沉淀出了一份強化學習算法的代碼。而真正想到把強化學習代碼整理公布出來,是有一位外校的研究生跟我討論時說,他們實驗室只有2位同學做強化學習的研究課題,問我如何才能做好強化學習的研究和實驗。我當時想了想,覺得他的情況可能確實比較難一點,因為沒有足夠的同學一起研究強化學習,很多強化學習的理論可能會理解不夠深入,很多實驗方面的“坑”沒有被趟過,于是就比較難以入門,進入研究深水區(qū)。因此,如果能有一本材料,能把強化學習的理論講透,并且把相關的實現(xiàn)代碼就穿插在理論算法講解中,那么學習起來可能就會更加容易體會強化學習的原理。更重要的是,這些代碼要能夠直接跑通,實驗結果可以復現(xiàn),這樣就能體會到強化學習算法是如何work的。

    當時正好ACM班學長李沐的《動手學深度學習》剛剛出版,每一個章節(jié)對應的Jupyter Notebook很適合邊學理論邊跑代碼,受到了業(yè)界廣泛的好評,我也就決定嘗試整理APEX實驗室的強化學習代碼和相關的講解材料,寫出這本《動手學強化學習》。

    第一稿完成花了接近一年的時間,但是仍然比較粗糙。部分內(nèi)容對于初學者還是比較困難。我將部分章節(jié)的Jupyter Notebook作為教輔內(nèi)容以及代碼小作業(yè)發(fā)放給我講授的強化學習課程的學生們,并請他們反饋相關的改善建議,進一步迭代代碼和文字材料。在迭代了2020和2021兩年的強化學習課之后,我們認為現(xiàn)在的版本差不多可以出版了。當然本書可能還是會有不少可以改進的點,還請各位讀者多多反饋修改意見,我們十分感激!

    AI科技評論:你之前曾在RLChina夏令營和上海交大講授強化學習課程,從你的經(jīng)驗看,不同類型的學生們會比較關注哪些內(nèi)容?你們?nèi)绾螢槌鯇W者設計一個漸進式的學術和項目的學習路線,又如何根據(jù)反饋來完善這本教材的?

    張偉楠:我在上海交通大學給致遠學院ACM班和電院AI試點班的同學講授強化學習,由于學生的專業(yè)和本課程內(nèi)容很貼合,因此學生對強化學習的原理部分關注較多。在夏令營中獲得學生的反饋更多來自如何在各種各樣的領域用好強化學習技術,當然也有不少本專業(yè)的學生對強化學習本身的研究十分了解。對于來我們APEX實驗室的強化學習初學者,我建議的學習路線是:

    1.  先學習UCL David Silver的強化學習課程:https://www.davidsilver.uk/teaching/

    這是強化學習的基礎知識,不太包含深度強化學習的部分,但對后續(xù)深入理解深度強化學習十分重要。

    2.  然后學習UC Berkeley的深度強化學習課程:http://rail.eecs.berkeley.edu/deeprlcourse/

    3.  最后可以可以挑著看OpenAI 的夏令營內(nèi)容:https://sites.google.com/view/deep-rl-bootcamp/lectures

    當然,如果希望學習中文的課程,我推薦的是:

    1.  我本人在上海交通大學的強化學習課程: https://www.boyuai.com/rl

    2.  周博磊老師的強化學習課程:https://www.bilibili.com/video/BV1LE411G7Xj

    AI科技評論:你們認為,初學者學習強化學習的難點在哪里?本書希望幫助學生解決學習強化學習的過程中遇到的哪些難點,這些思考是否與你自己之前的強化學習經(jīng)歷有關?

    張偉楠:傳統(tǒng)課堂講授的內(nèi)容比較深奧,與動手實踐的差距會比較大。課后自己做一個強化學習代碼實驗,可能不知如何下手,并且實驗過程中需要注意的細節(jié)較多。這也是《動手學強化學習》這本書希望彌補的gap。讀者在看完一個知識點的一段文字和公式講解后,馬上就可以看到對應代碼塊——代碼中的變量名和前面公式中的符號一致,函數(shù)名也和前面文字中提到的方法名一致;代碼塊可以直接在Jupyter Notebook上運行,跑出書里的結果——這樣就加速讀者通過代碼學習對強化學習原理的更加深入的理解。

    我自己學習強化學習的經(jīng)歷主要是2013年在UCL讀博期間上了David Silver老師的強化學習課程,后續(xù)又在微軟劍橋研究院師從Thore Graepel做強化學習的研究實習生(后來這些老師和實習生幾乎都去了DeepMind)。實話說,當時學習強化學習我是覺得比機器學習要吃力的,主要就是上面講到的那樣,原理講解和代碼實踐差距較大,學習了課程和論文后,以為自己理解原理了,但寫代碼時就總會碰到各種問題。

    AI科技評論:在寫這本書的過程中,你是否對學習強化學習的竅門、前景等有了新的認知?

    張偉楠:通過APEX實驗室和強化學習課堂的學生們的反饋來看,這種Jupyter Notebook的學習材料是可以有效幫助提升對強化學習原理和代碼理解效率的形式。希望這本書能夠幫助更多人入門強化學習。

    AI科技評論:這本書中,你認為最精彩/最有特色的是哪一部分?

    張偉楠:我比較注重強化學習基礎篇的講解,相信讀者在充分掌握了基礎篇后,后面的進階篇和前沿篇就會學得更加容易。因此本書的基礎篇其實是我最滿意的部分。例如在馬爾可夫決策過程(MDP)的章節(jié)中,我們在介紹了MDP的基礎知識后,引入了占用度量(Occupancy Measure)概念的講解,通過概念、原理和代碼實驗的講解,讓讀者深入理解一個策略和一個MDP交互行程的數(shù)據(jù)分布是什么樣子,以及體會為什么一個策略一旦改變了,那么占用度量就會跟著改變。這樣就講清楚了為什么強化學習比有監(jiān)督學習難度更大的原因——智能體學習過程中,隨著策略不算更新,它面臨的數(shù)據(jù)分布(也即是占用度量)會隨之改變。

    AI科技評論:本書的封面是有什么具體的意思嗎?

    張偉楠:本書的封面描繪的是一個機器人站在懸崖邊,準備決定之后該如何行走。這其實對應本書中用到的一個典型強化學習案例Cliff Walking(懸崖漫步),不同的強化學習算法會讓機器人走出風險和收益不同的路線。

    上海交大ACM班俞勇團隊推出強化學習入門寶典!附作者對話

    《動手學強化學習》封面圖

    AI科技評論:這本書采取了類似ACM班以在線 Jupyter Notebook 的形式為學生提供課程輔助材料和代碼小作業(yè)的方式,在學習者規(guī)模擴大的同時你們采取了哪些措施來加強學習體驗?

    張偉楠:我鼓勵學員們加入我們在伯禹學習平臺的強化學習課程中 https://www.boyuai.com/rl,本課程是全免費的。上面除了有我在上海交通大學強化學習課的視頻,還有在線可以完成的課后習題,以及學員們就本節(jié)知識點做出的思維導圖和問答討論。這樣可以幫助學員們在教師資源相對少的情況下,仍然具備較高的學習效率。

    AI科技評論:這本書的定位是什么,可以推薦其他可以與這本書互補的配套學習書籍嗎?

    張偉楠:本書可以作為強化學習課程的教材,也可以作為偏代碼學習和練習的教輔材料。適合配套的原理講解的書籍如下:

    1.  Richard S. Sutton and Andrew G. Barto. "Reinforcement Learning: An Introduction (Second Edition) ." MIT Press, 2018.

    2.  俞凱[譯].《強化學習(第2版)》.電子工業(yè)出版社,2019.

    3.  王琦、楊毅遠、江季.《Easy RL 強化學習教程》. 人民郵電出版社,2022.

    AI科技評論:俞勇老師在本書的編寫中給與了哪方面的指導?團隊目前是否還有其他類似的教材和課程的推進項目?

    張偉楠:俞勇教授在ACM班的培養(yǎng)方案中對動手實踐能力的培養(yǎng)力度比較大,學生從大一到大三,每個學期都會有編程類的大作業(yè)。充分鍛煉計算機人才獨當一面的動手能力,這成就了ACM班學生在畢業(yè)后編寫出了MXNet、XGBoost、TVM、PS、DGL、Hotstuff等具有重要影響力的項目。在作者團隊構思和編寫《動手學強化學習》這本書的過程中,俞勇教師關注最多的就是通過這種新型學習材料呈現(xiàn)形式,讀者是否能真正更好地掌握強化學習的原理和提升動手實踐能力。可以說,本書的具體形式就是俞勇教授塑造的。

    此外在這里賣一個關子 :) 俞勇教授已經(jīng)規(guī)劃了一個大的動手學系列書目,希望提煉和踐行一種新的更高效的計算機科學和人工智能專業(yè)知識的學習形式。歡迎大家多關注我們接下來的行動。

    上海交大ACM班俞勇團隊推出強化學習入門寶典!附作者對話

    雷峰網(wǎng)(公眾號:雷峰網(wǎng))雷峰網(wǎng)

    雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知

    上海交大ACM班俞勇團隊推出強化學習入門寶典!附作者對話

    分享:
    相關文章
    當月熱門文章
    最新文章
    請?zhí)顚懮暾埲速Y料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 亚洲蜜臀av乱码久久| 成人一区二区免费视频| 国产影片AV级毛片特别刺激| 真人免费一级毛片一区二区| 久久久2019精品视频中文字幕 | 日韩AV东京热| 中文字幕第55页一区| 亚洲无码18禁| 闽清县| jk白丝喷浆| 天堂?最新在线8| 亚洲无码流出| 午夜成人无码福利免费视频| 91麻豆国产精品91久久久| 亚洲国产av永久精品成人| 国精产品一区一区三区| 久久综合给久久狠狠97色| 亚洲国产精| 国产另类ts人妖一区二区| 无码熟妇人妻av影音先锋 | 四虎永久在线精品国产免费| 欧美色A?V| 国产亚洲av产精品亚洲| 国产超爽精品国语对白| 亚洲香蕉中文日韩V日本| 久久国产影院| 毛葺葺老太做受视频| 凸凹人妻人人澡人人添| 国产精品原创巨作av无遮| 国产伦精品一区二区三区免费迷| 毛片内射久久久一区| 日韩一区二区三区无码| 亚洲人成在线观看无码| 国产亚洲精品第一综合另类| 中国老熟妇| 本溪| 免费无码一区无码东京热| 国产精品嫩草99av在线| 乱中年女人伦| 亚洲s色大片在线观看一区| 日日噜噜夜夜爽爽|