基于強(qiáng)化學(xué)習(xí)的任務(wù)型對(duì)話策略研究綜述
計(jì)算機(jī)學(xué)報(bào)
頁(yè)數(shù): 31 2024-01-25
摘要: 對(duì)話系統(tǒng)在自然語(yǔ)言處理中發(fā)揮著重要作用,具有較好的實(shí)際應(yīng)用前景和許多值得研究的方向.對(duì)話策略是基于管道方法的人機(jī)對(duì)話系統(tǒng)的核心組件,能夠根據(jù)對(duì)話狀態(tài)生成響應(yīng)動(dòng)作,進(jìn)而指導(dǎo)對(duì)話生成.對(duì)話策略學(xué)習(xí)常建模為(半)馬爾可夫決策過(guò)程,然后通過(guò)強(qiáng)化學(xué)習(xí)求解.近年來(lái),基于強(qiáng)化學(xué)習(xí)算法解決任務(wù)型對(duì)話策略問(wèn)題的研究層出不窮,而相關(guān)綜述缺乏.因此,本文對(duì)基于強(qiáng)化學(xué)習(xí)的任務(wù)型對(duì)話策略進(jìn)行分析、歸類(lèi)、...