強(qiáng)化學(xué)習(xí),即機(jī)器人根據(jù)環(huán)境里動作得到的懲罰和激勵(lì)去自動調(diào)整策略。通過訓(xùn)練,機(jī)器人學(xué)到一組策略:在環(huán)境狀態(tài)S下應(yīng)采取動作A,(可)能獲得最大累積獎勵(lì)V。
強(qiáng)化學(xué)習(xí)有豐富的交叉學(xué)科背景,包括經(jīng)濟(jì)學(xué)、工程學(xué)、神經(jīng)科學(xué)里的博弈論、優(yōu)化控制,條件反射系統(tǒng)。
深度學(xué)習(xí),使用深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)機(jī)器人的記憶,視覺感知,語音語義理解和生成。
深度強(qiáng)化學(xué)習(xí)以深度學(xué)習(xí)做感知,強(qiáng)化學(xué)習(xí)訓(xùn)練策略,并且以深度神經(jīng)網(wǎng)絡(luò)作為策略載體。相比于傳統(tǒng)的多模塊組合,深度強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)了從感知到控制的端到端直接訓(xùn)練,減少了模塊間信息損失。
最近兩年在學(xué)術(shù)理論上,GoogleDeepMind團(tuán)隊(duì)在連續(xù)性動作控制[2],異步訓(xùn)練[3],訓(xùn)練框架[4],分布式訓(xùn)練[5]等都有重要突破,為智能機(jī)器人的研發(fā)奠定理論和實(shí)踐基礎(chǔ)。
在特定任務(wù)的應(yīng)用上,深度增強(qiáng)學(xué)習(xí)已有廣泛實(shí)踐嘗試,例如流水線機(jī)器人。
在集成應(yīng)用上,深度強(qiáng)化學(xué)習(xí)在自動駕駛,聊天機(jī)器人[6][7]都有良好的前景。例如,使用分布式訓(xùn)練或異步訓(xùn)練,自動駕駛汽車可以多輛同時(shí)在各種環(huán)境學(xué)習(xí),并且相互交換知識,加速學(xué)習(xí)過程。聊天機(jī)器人可以通過對話過程中用戶的反饋來調(diào)整自己的語言表達(dá),逐步成長。
深度強(qiáng)化學(xué)習(xí)為智能機(jī)器人提供了新的計(jì)算范式:提供環(huán)境、激勵(lì)和懲罰、神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)即可訓(xùn)練得到最大化獎勵(lì)的智能機(jī)器人。