基于碰撞預(yù)測(cè)的強(qiáng)化模仿學(xué)習(xí)機(jī)器人導(dǎo)航方法
計(jì)算機(jī)工程與應(yīng)用
頁(yè)數(shù): 12 2023-04-11
摘要: 基于學(xué)習(xí)的機(jī)器人導(dǎo)航方法存在對(duì)數(shù)據(jù)的依賴性高和在一些特定環(huán)境下表現(xiàn)不完美的問(wèn)題,例如在空曠場(chǎng)景下無(wú)法走直線,在障礙物密集場(chǎng)景下碰撞率高。為了提高機(jī)器人的導(dǎo)航性能,提出了一種基于碰撞預(yù)測(cè)的強(qiáng)化模仿學(xué)習(xí)導(dǎo)航方法。在無(wú)模型的情況下,根據(jù)機(jī)器人的性能,建立馬爾科夫決策過(guò)程(Markov decision process,MDP)中所需要的狀態(tài)空間、動(dòng)作空間、獎(jiǎng)勵(lì)函數(shù)。采用深度強(qiáng)化學(xué)習(xí)(...