基于多智能體深度強(qiáng)化學(xué)習(xí)的多船協(xié)同避碰策略
計(jì)算機(jī)集成制造系統(tǒng)
頁數(shù): 17 2023-12-13
摘要: 為了提高多船會遇時(shí)智能避碰策略的協(xié)同性、安全性、實(shí)用性和節(jié)能性,在中心化訓(xùn)練去中心化執(zhí)行框架下,結(jié)合優(yōu)先經(jīng)驗(yàn)回放機(jī)制提出一種多智能體Softmax深層雙確定性策略梯度PER-MASD3算法,用于解決多船協(xié)同避碰問題,該算法不僅解決了雙延遲確定策略梯度(TD3)算法存在的值估計(jì)偏差問題,還在模型訓(xùn)練過程中引入熵正則項(xiàng),以促進(jìn)探索和控制隨機(jī)控制策略,采用自適應(yīng)噪聲對不同階段的任務(wù)進(jìn)... (共17頁)