• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    業界 正文
    發私信給nebula
    發送

    0

    騰訊機器狗進化:通過深度學習掌握自主決策能力

    本文作者: nebula 2023-06-14 16:01
    導語:6月14日,騰訊Robotics X機器人實驗室公布了智能體研究的最新進展。

    6月14日,騰訊Robotics X機器人實驗室公布了智能體研究的最新進展,通過將前沿的預訓練AI模型和強化學習技術應用到機器人控制領域,讓機器狗 Max 的靈活性和自主決策能力得到大幅提升。

    讓機器狗像人和動物一樣靈活且穩定的運動,是機器人研究領域長期追求的目標,深度學習技術的不斷進步,使得讓機器通過“學習”來掌握相關能力,學會應對復雜多變的環境變得可行。

    引入預訓練和強化學習:讓機器狗更加靈動

    騰訊Robotics X機器人實驗室通過引入預訓練模型和強化學習技術,可以讓機器狗分階段進行學習,有效的將不同階段的技能、知識積累并存儲下來,讓機器人在解決新的復雜任務時,不必重新學習,而是可以復用已經學會的姿態、環境感知、策略規劃多個層面的知識,進行“舉一反三”,靈活應對復雜環境。

    騰訊機器狗進化:通過深度學習掌握自主決策能力

    騰訊機器狗進化:通過深度學習掌握自主決策能力

    這一系列的學習分為三個階段:

    第一階段通過游戲技術中常使用動作捕捉系統,研究員收集真狗的運動姿態數據,包括走、跑、跳、站立等動作,并利用這些數據,在仿真器中構建了一個模仿學習任務,再將這些數據中的信息抽象并壓縮到深度神經網絡模型中。這些模型能夠非常準確地涵蓋收集的動物運動姿態信息,且具有一定的可解釋性。

    騰訊Robotics X機器人實驗室和騰訊游戲合作,用游戲技術提升了仿真引擎的準確和高效,同時游戲制作和研發過程中積累了多元的動捕素材。這些技術以及數據對基于物理仿真的智能體訓練以及真實世界機器人策略部署起到了一定的輔助作用。

    騰訊機器狗進化:通過深度學習掌握自主決策能力

    騰訊機器狗進化:通過深度學習掌握自主決策能力

    騰訊機器狗進化:通過深度學習掌握自主決策能力

    在模仿學習的過程中,神經網絡模型僅接收機器狗本體感知信息作為輸入,例如機器狗身上電機狀態等。再下一步,模型引入周邊環境的感知數據,例如可以通過其他傳感器“看到“腳下的障礙物。

    第二階段,通過額外的網絡參數來將第一階段掌握的機器狗靈動姿態與外界感知聯系在一起,使得機器狗能夠通過已經學會的靈動姿態來應對外界環境。當機器狗適應了多種復雜的環境后,這些將靈動姿態與外界感知聯系在一起的知識也會被固化下來,存在神經網絡結構中。

    騰訊機器狗進化:通過深度學習掌握自主決策能力

    騰訊機器狗進化:通過深度學習掌握自主決策能力

    騰訊機器狗進化:通過深度學習掌握自主決策能力騰訊機器狗進化:通過深度學習掌握自主決策能力

    第三階段,利用上述兩個預訓練階段獲取的神經網絡,機器狗才有前提和機會來聚焦解決最上層的策略學習問題,最終具備端到端解決復雜的任務的能力。第三階段附加的網絡會獲取與復雜任務有關的信息,例如在游戲中,獲取對手的信息、旗子的信息。此外,通過綜合分析所有信息,負責策略學習的神經網絡會學習出針對任務的高階策略,例如往哪個方向跑動,預判對手的行為來決定是否繼續追逐等等。

    上述每一階段學習到的知識都可以擴充和調整,不需要重新學習,因此可以不斷積累,持續學習。

    機器狗障礙追逐比賽 :擁有自主決策和控制能力

    為了測試Max所掌握的這些新技能,研究員受到障礙追逐比賽“World Chase Tag“的啟發,設計了一個雙狗障礙追逐的游戲。World Chase Tag是一個競技性障礙追逐賽組織,2014年創立于英國,由民間兒童追逐游戲標準化而來。一般來說,障礙追逐比賽每輪次由兩名互為對手的運動員參加,一名是追擊者(稱為攻方),一名是躲避者(稱為守方),當一名運動員在整個追逐回合中(即20秒)成功躲避對手(即未發生觸碰)時,團隊將獲得一分。 在預定的追逐回合數中得分最多的戰隊贏得比賽。

    在機器狗障礙追逐比賽中,游戲場地大小為4.5米 x 4.5米,其中散落著一些障礙物。游戲起始,兩個MAX機器狗會被放置在場地中的隨機位置,且隨機一個機器狗被賦予追擊者的角色,另一個為躲避者,同時,場地中會在隨機位置擺放一個旗子。

    追擊者的任務是抓住躲避者,躲避者的目的則是在保證不被抓到的前提下去接近旗子。如果躲避者在被抓到之前成功觸碰到旗子,則兩個機器狗的角色會瞬間發生互換,同時旗子會重新出現在另一個隨機的位置。游戲最終的結束條件為當前的追擊者抓住了躲避者,且當前為追擊者角色的機器狗獲勝。所有游戲過程中,兩個機器狗的平均前向速度被約束在0.5m/s。

    騰訊機器狗進化:通過深度學習掌握自主決策能力

    從這個游戲看來,在基于預訓練好的模型下,機器狗通過深度強化學習,已經具備一定的推理和決策能力:

    比如,當追擊者意識到自己在躲避者碰到旗子之前已經無法追上它的時候,追擊者就會放棄追擊,而是在遠離躲避者的位置徘徊,目的是為了等待下一個重置的旗子出現。

    騰訊機器狗進化:通過深度學習掌握自主決策能力

    另外,當追擊者即將抓到躲避者的最后時刻,它喜歡跳起來向著躲避者做出一個"撲"的動作,非常類似動物捕捉獵物時候的行為,或者躲避者在快要接觸旗子的時候也會表現出同樣的行為。這些都是機器狗為了確保自己的勝利采取的主動加速措施。

    據介紹,游戲中機器狗的所有控制策略都是神經網絡策略,在仿真中進行學習并通過zero-shot transfer(零調整遷移),讓神經網絡模擬人類的推理方式,來識別從未見過的新事物,并把這些知識部署到真實機器狗上。例如下圖所示,機器狗在預訓練模型中學會的躲避障礙物的知識,被用在游戲中,即使帶有障礙物的場景并未在Chase Tag Game的虛擬世界進行訓練(虛擬世界中僅訓練了平地下的游戲場景),機器狗也能順利完成任務。

    騰訊機器狗進化:通過深度學習掌握自主決策能力

    騰訊Robotics X機器人實驗室長期致力于機器人前沿技術的研究,以此前在機器人本體、運動、控制領域等領先技術和積累為基礎,研究員們也在嘗試將前沿的預訓練模型和深度強化學習技術引入到機器人領域,提升機器人的控制能力,讓其更具靈活性,這也為機器人走入現實生活,服務人類打下了堅實的基礎。

     雷峰網(公眾號:雷峰網)

    分享:
    相關文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 午夜亚洲国产理论秋霞| 日日噜噜夜夜久久亚洲一区二区| 女人毛片视频永久免费| 国产亚洲一区二区三区四区| 亚洲AV日韩AV高潮噴潮无码| 精品无码一区二区三区爱欲小说| 国产乱色国产精品免费视频| 激情狠狠| 亚洲精品爆乳一区二区H| 国产精品一亚洲AV日韩AV欧| 久久www免费人成看片中文 | 亚洲 综合 校园 欧美 制服 | 人妻少妇一区二区三区| xxxxx亚洲在线观看| 国产精品欧美一区二区三区| 国产免费午夜福利在线播放| 国产福利观看| 国产亚洲精品麻豆一区二区| 久久综合久中文字幕青草| 中文字幕一区二区久久综合 | 成人3d动漫一区二区三区| 亚洲av永久无码精品网站| 超碰成人人人做人人爽| 国产亚洲成av人片在线观黄桃| 中文字幕人妻色偷偷久久| 国产不卡免费一区二区| 亚洲国产中文乱| 色图网免费视频在线观看十八禁| 精品国产成人A区在线观看| jizzjizz少妇亚洲水多| 精品国产人妻一区二区三区| 国产精品亚洲a∨天堂不卡| 污网站在线观看视频| 四虎影视库国产精品一区| 人人妻人人澡人人爽精品日本| 国产人妖xxxx做受视频| 免费萌白酱国产一区二区三区 | 免费古装A级毛片无码| 久久久亚洲精品无码| 精品国产亚洲午夜精品av| 亚洲日本中文字幕|