結(jié)合A2C和手牌估值方法的麻將博弈研究
重慶理工大學(xué)學(xué)報(自然科學(xué))
頁數(shù): 8 2024-05-15
摘要: 針對大眾麻將中對手牌信息利用不充分的問題,提出了手牌估值方法,并設(shè)計了基礎(chǔ)麻將程序(MJE)。為進一步提升麻將AI的博弈能力,使用深度強化學(xué)習(xí)方法設(shè)計了麻將AI(MJE-RL)。首先,通過MJE自對弈生成深度學(xué)習(xí)的訓(xùn)練數(shù)據(jù)。其次,根據(jù)訓(xùn)練集、測試集和對比實驗的結(jié)果,選擇效果最好的模型作為強化學(xué)習(xí)的預(yù)訓(xùn)練模型。最后,使用優(yōu)勢演說-評論家模型作為強化學(xué)習(xí)的主要框架,將訓(xùn)練好的深度學(xué)... (共8頁)