一種自學(xué)習(xí)的智能五子棋算法的設(shè)計(jì)與實(shí)現(xiàn)
小型微型計(jì)算機(jī)系統(tǒng)
頁(yè)數(shù): 7 2020-05-29
摘要: 強(qiáng)化學(xué)習(xí)長(zhǎng)期以來(lái)的一個(gè)目標(biāo)是創(chuàng)造一個(gè)能夠在具有挑戰(zhàn)性的領(lǐng)域,以超越人類的精通程度學(xué)習(xí)的算法.基于蒙特卡洛樹搜索與深度神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)一種自學(xué)習(xí)智能五子棋算法,無(wú)需人類知識(shí),從零開始學(xué)習(xí).其中深度神經(jīng)網(wǎng)絡(luò)是由32個(gè)卷積層組成的深度殘差網(wǎng)絡(luò);蒙特卡洛樹搜索可根據(jù)多次模擬博弈的結(jié)果預(yù)測(cè)最優(yōu)的移動(dòng)方案.將五子棋規(guī)則與蒙特卡洛樹搜索和深度神經(jīng)網(wǎng)絡(luò)相結(jié)合,蒙特卡洛樹搜索使用深度神經(jīng)網(wǎng)絡(luò)評(píng)估落子...