結(jié)合A2C和手牌估值方法的麻將博弈研究
重慶理工大學(xué)學(xué)報(bào)(自然科學(xué))
頁數(shù): 8 2024-05-15
摘要: 針對(duì)大眾麻將中對(duì)手牌信息利用不充分的問題,提出了手牌估值方法,并設(shè)計(jì)了基礎(chǔ)麻將程序(MJE)。為進(jìn)一步提升麻將AI的博弈能力,使用深度強(qiáng)化學(xué)習(xí)方法設(shè)計(jì)了麻將AI(MJE-RL)。首先,通過MJE自對(duì)弈生成深度學(xué)習(xí)的訓(xùn)練數(shù)據(jù)。其次,根據(jù)訓(xùn)練集、測(cè)試集和對(duì)比實(shí)驗(yàn)的結(jié)果,選擇效果最好的模型作為強(qiáng)化學(xué)習(xí)的預(yù)訓(xùn)練模型。最后,使用優(yōu)勢(shì)演說-評(píng)論家模型作為強(qiáng)化學(xué)習(xí)的主要框架,將訓(xùn)練好的深度學(xué)...