基于深度強化學(xué)習(xí)的艦船導(dǎo)彈目標(biāo)分配方法
控制理論與應(yīng)用
頁數(shù): 9 2023-06-12
摘要: 針對對抗環(huán)境下的海上艦船防空反導(dǎo)導(dǎo)彈目標(biāo)分配問題,本文提出了一種融合注意力機制的深度強化學(xué)習(xí)算法.首先,構(gòu)建了艦船多類型導(dǎo)彈目標(biāo)分配模型,并結(jié)合目標(biāo)多波次攔截特點將問題建模為馬爾可夫決策過程.接著,基于編碼器–解碼器框架搭建強化學(xué)習(xí)策略網(wǎng)絡(luò),融合多頭注意力機制對目標(biāo)進(jìn)行編碼,并在解碼中結(jié)合整體目標(biāo)和單個目標(biāo)編碼信息實現(xiàn)艦船可靠的導(dǎo)彈目標(biāo)分配.最后,對導(dǎo)彈目標(biāo)分配收益、分配時效以...