1
| 本文作者: AI科技評論 | 2016-05-24 17:33 |
今年8月,雷鋒網(wǎng)將在深圳舉辦盛況空前的“全球人工智能與機器人峰會”,屆時雷鋒網(wǎng)將發(fā)布“人工智能&機器人Top25創(chuàng)新企業(yè)榜”榜單。目前,我們正在拜訪人工智能、機器人領(lǐng)域的相關(guān)公司,從中篩選最終入選榜單的公司名單。
如果你也想加入我們的榜單之中,請聯(lián)系:2020@leiphone.com。

訓(xùn)練機器狗的虛擬環(huán)境。圖片來源:華盛頓州立大學(xué)。
華盛頓州立大學(xué)的研究人員正在使用訓(xùn)練動物的想法,幫助非專業(yè)用戶訓(xùn)練機器人如何執(zhí)行預(yù)期任務(wù)。
當機器人在社會中越來越普遍,人類開始希望它們能做一些家務(wù)瑣事,比如打掃房間,做飯,等等。不過,對于那些沒有編程經(jīng)驗的人來說,讓機器人開始執(zhí)行一個任務(wù),必須給予一定的指引說明。“所以,我們需要為普通人提供一種訓(xùn)練機器人的方式,無需編程就能做到。”Matthew Taylor說道,他是華盛頓州立大學(xué)電子工程與計算機科學(xué)學(xué)院教授。
Bei Peng是布朗大學(xué)和北卡羅萊納州立大學(xué)計算機科學(xué)專業(yè)博士生兼項目協(xié)作員。 在他的幫助下,Taylor在華盛頓州立大學(xué)智能機器人學(xué)習(xí)實驗室設(shè)計了一款計算機程序,即便用戶沒有任何計算機編程專業(yè)知識也可以教會虛擬機器人學(xué)習(xí)任務(wù),這個虛擬機器人位于華盛頓州立大學(xué)的智能機器人學(xué)習(xí)實驗室,是一只虛擬小狗。
為了進行學(xué)術(shù)研究,研究人員改變了虛擬狗的反應(yīng)速度。當人們訓(xùn)練真正的動物學(xué)習(xí)某項新技能時,相對較慢的運動能讓訓(xùn)練人員知道,虛擬狗是否理解該如何做出行為反應(yīng),這樣訓(xùn)練人員才能提供更清晰的指導(dǎo),幫助機器人更好的學(xué)習(xí)。
研究人員已經(jīng)開始在實體機器人和虛擬機器人上做實驗,最終,他們希望使用這款程序幫助人們成為一個高效率的動物訓(xùn)練員。
在最近舉辦的國際自動代理與多代理系統(tǒng)會議(注:international Autonomous Agents and Multiagent Systems conference,該大會是一個匯聚機器人代理服務(wù)商和機器人研究的科學(xué)大會)上,研究人員展示了他們的工作成績。此外,該項目還獲得了美國國家科學(xué)基金會的資金支持。
當機器人在人類世界里變得越來越常見,讓那些沒有編程經(jīng)驗的用戶訓(xùn)練機器人學(xué)習(xí)新技能,就變得尤為重要。在現(xiàn)有的交互強化學(xué)習(xí)技術(shù)(Interactive Reinforcement Learning)里,絕大多數(shù)只專注于解釋或整合非專業(yè)的人類反饋,以此加速機器人的學(xué)習(xí)速度;我們的目標,是給學(xué)習(xí)代理器程序設(shè)計一個更好的表現(xiàn),讓這個程序能在人類訓(xùn)練者和學(xué)習(xí)者之間引出更多自然且高效的交流。而人類反饋離散的通訊信息,概率上取決于訓(xùn)練者的定位策略概率。這項工作需要一個用戶研究,通過在不同模擬環(huán)境下給予的不同獎勵和/或懲罰,參與者訓(xùn)練一個虛擬代理器程序去完成各種任務(wù)。我們的研究成果來自于60個參與者,展示了學(xué)習(xí)者可以學(xué)習(xí)自然語言命令,并適應(yīng)其行為執(zhí)行速度,以此更高效地從人類訓(xùn)練者那里學(xué)習(xí)。這個代理器程序的行為執(zhí)行速度可以成功被調(diào)整,繼而鼓勵從人類訓(xùn)練者那里獲得更多明確的反饋(特別是在一些高度不確定的狀態(tài)領(lǐng)域里)。我們的研究結(jié)果表明,我們創(chuàng)新的自適應(yīng)速度代理器程序在一些性能評估上優(yōu)于那些固定速度代理器程序。此外,我們還研究了在訓(xùn)練條件下,指令對用戶性能和用戶偏好的影響。
via Kurzweilai
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。