基于時(shí)空信息輔助監(jiān)督的語言-視頻對比學(xué)習(xí)模型
計(jì)算機(jī)學(xué)報(bào)
頁數(shù): 17 2024-08-15
摘要: 同時(shí)使用語言和圖像兩種模態(tài)信息的神經(jīng)網(wǎng)絡(luò)模型在計(jì)算機(jī)視覺領(lǐng)域取得了很大進(jìn)展.一些將其用于視頻識(shí)別任務(wù)的工作,存在未考慮視頻中豐富的時(shí)間-空間信息、用于描述類別的文本過于簡單等不足.對此,本文提出了基于時(shí)空輔助信息監(jiān)督的語言-視頻對比學(xué)習(xí)模型.對于視頻編碼,提出了基于類別詞元的時(shí)序加權(quán)位移模塊進(jìn)行時(shí)序建模,使得時(shí)序信息在網(wǎng)絡(luò)從底層到高層的各個(gè)層次傳播;而且還提出了時(shí)空信息輔助監(jiān)督...