基于擴(kuò)張卷積和Transformer的視聽(tīng)融合語(yǔ)音分離方法
信號(hào)處理
頁(yè)數(shù): 10 2023-10-16
摘要: 為了提高語(yǔ)音分離的效果,除了利用混合的語(yǔ)音信號(hào),還可以借助視覺(jué)信號(hào)作為輔助信息。這種融合了視覺(jué)與音頻信號(hào)的多模態(tài)建模方式,已被證實(shí)可以有效地提高語(yǔ)音分離的性能,為語(yǔ)音分離任務(wù)提供了新的可能性。為了更好地捕捉視覺(jué)與音頻特征中的長(zhǎng)期依賴(lài)關(guān)系,并強(qiáng)化網(wǎng)絡(luò)對(duì)輸入上下文信息的理解,本文提出了一種基于一維擴(kuò)張卷積與Transformer的時(shí)域視聽(tīng)融合語(yǔ)音分離模型。將基于頻域的傳統(tǒng)視聽(tīng)融合語(yǔ)...