一種聚焦于提示的大語言模型隱私評估和混淆方法
信息網(wǎng)絡(luò)安全
頁數(shù): 13 2024-09-10
摘要: 雖然大語言模型在語義理解方面表現(xiàn)優(yōu)異,但頻繁的用戶交互帶來了諸多隱私風(fēng)險(xiǎn)。文章通過部分回憶攻擊和模擬推理游戲?qū)ΜF(xiàn)有的大語言模型進(jìn)行隱私評估,證明了常見的大語言模型仍存在兩類棘手的隱私風(fēng)險(xiǎn),即數(shù)據(jù)脫敏處理可能影響模型響應(yīng)質(zhì)量以及通過推理仍能獲取潛在的隱私信息。為了應(yīng)對這些挑戰(zhàn),文章提出了一種聚焦于提示的大語言模型隱私評估和混淆方法。該方法以結(jié)構(gòu)化進(jìn)程展開,包括初始描述分解、偽造描...