專注于可以從失敗中學(xué)習(xí)的強(qiáng)化學(xué)習(xí)算法

2019-06-19 16:43:16 編輯：來源：

導(dǎo)讀來自O(shè)penAI人員的最新消息都是獎(jiǎng)金三人組。他們正在發(fā)布新的健身房環(huán)境 - 一套基于真實(shí)機(jī)器人平臺(tái)的模擬機(jī)器人環(huán)境 - 包括Shadow手和Fe

來自O(shè)penAI人員的最新消息都是獎(jiǎng)金三人組。他們正在發(fā)布新的健身房環(huán)境 - 一套基于真實(shí)機(jī)器人平臺(tái)的模擬機(jī)器人環(huán)境 - 包括Shadow手和Fetch研究機(jī)器人，IEEE Spectrum表示。

除了該工具包，他們還發(fā)布了Hindsight Experience Replay(HER)的開源版本。顧名思義，它可以幫助機(jī)器人從后見之明中學(xué)習(xí)基于目標(biāo)的機(jī)器人任務(wù)。

最后但同樣重要的是，他們發(fā)布了一系列機(jī)器人研究請(qǐng)求。“如果你是一個(gè)雄心勃勃的人，” IEEE Spectrum的 Evan Ackerman表示，“OpenAI還發(fā)布了一系列與HER相關(guān)研究的請(qǐng)求。”

“雖然HER是一種很有前途的方法，可以用像我們?cè)谶@里提出的機(jī)器人環(huán)境這樣的稀疏獎(jiǎng)勵(lì)來學(xué)習(xí)復(fù)雜的基于目標(biāo)的任務(wù)，但仍然有很大的改進(jìn)空間，”他們?cè)诓┛椭袑懙馈?ldquo;與我們最近發(fā)表的研究報(bào)告2.0類似，我們對(duì)如何具體改善HER以及強(qiáng)化學(xué)習(xí)提出了一些想法。”

OpenAI是一家人工智能研究公司。他們?cè)跈C(jī)器學(xué)習(xí)會(huì)議上發(fā)布，他們的博客文章傳達(dá)他們的研究。

Elon Musk是聯(lián)合創(chuàng)始人。它由個(gè)人和公司贊助，他們的目標(biāo)是發(fā)現(xiàn)并制定“安全的人工智能通路”。

他們展示了完成的不同任務(wù)。ShadowHand 機(jī)器人操縱一個(gè)物體(顯示一個(gè)手操縱，包括彎曲手指，一個(gè)孩子的字母塊，一個(gè)蛋形物體，并將手指穿過一根小棍子)。他們還推出了一個(gè)機(jī)器人“輕推”機(jī)器人機(jī)制，可以滑動(dòng)冰球以及抓住一個(gè)小球并提起它

具體來說，這些是展示的各種專長(zhǎng)：ShadowHand必須用拇指和選定的手指到達(dá)，直到它們?cè)谑终粕戏降哪繕?biāo)位置相遇。ShadowHand必須操縱一個(gè)塊，直到它達(dá)到所需的目標(biāo)位置和旋轉(zhuǎn)。ShadowHand必須操縱一個(gè)蛋，直到它達(dá)到所需的目標(biāo)位置和旋轉(zhuǎn)。ShadowHand必須操縱筆直到它達(dá)到所需的目標(biāo)位置和旋轉(zhuǎn)。

總而言之，“最新的環(huán)境模擬了一個(gè)Fetch機(jī)器人手臂來推動(dòng)周圍的東西，以及一個(gè)ShadowHand用機(jī)器人的手指抓住和操縱東西，”Katyanna Quach在The Register中說。

OpenAI HER產(chǎn)品特別有趣; 訓(xùn)練和強(qiáng)化得到重新思考。HER允許代理人從失敗中吸取教訓(xùn)。正如阿克曼所寫的那樣，她“將失敗重新定義為成功，以幫助機(jī)器人更像人類學(xué)習(xí)。”

麻省理工學(xué)院技術(shù)評(píng)論中的 Jackie Snow 觀察到“通過研究如何將一項(xiàng)任務(wù)的每次嘗試都應(yīng)用于其他任務(wù)來實(shí)現(xiàn)這一目標(biāo)。”

斯諾添加說：“她不會(huì)給機(jī)器人帶來任何正確的任務(wù)獎(jiǎng)勵(lì) - 如果整個(gè)事情做得恰到好處，它只會(huì)把它們交出去。”

重塑失敗是否成功?阿克曼提出了這樣的解釋：“為了理解她是如何工作的，想象一下你是在棒球比賽中擊球。你的目標(biāo)是擊出本壘打。在第一個(gè)球場(chǎng)上，你擊中一個(gè)犯規(guī)的球。你還學(xué)會(huì)了如何擊中一個(gè)犯規(guī)球......憑借后見之明的經(jīng)驗(yàn)重播，你決定學(xué)習(xí)你剛剛做了什么，主要是說，'你知道，如果我想打一個(gè)犯規(guī)球，那本來是完美的!'“

HER的實(shí)施有多好?“我們的研究結(jié)果表明，她可以從稀疏的獎(jiǎng)勵(lì)中學(xué)習(xí)大多數(shù)新機(jī)器人問題的成功政策。”

玩盲人游戲的孩子經(jīng)常告訴玩家，“你變得溫暖，溫暖。” 欣賞他們的研究的關(guān)鍵詞是稀疏和密集的獎(jiǎng)勵(lì)。

“大多數(shù)強(qiáng)化學(xué)習(xí)算法使用'密集獎(jiǎng)勵(lì)'，Ackerman解釋說，”機(jī)器人根據(jù)完成任務(wù)的距離來獲取不同大小的cookie ...稀疏獎(jiǎng)勵(lì)意味著機(jī)器人只有在成功時(shí)才獲得一個(gè)cookie ，就是這樣：更容易測(cè)量，更容易編程，更容易實(shí)現(xiàn)。“

標(biāo)簽：強(qiáng)化學(xué)習(xí)算法