深度神經(jīng)網(wǎng)絡(luò)動態(tài)分層梯度稀疏化及梯度合并優(yōu)化方法
西安交通大學(xué)學(xué)報
頁數(shù): 12 2024-05-28
摘要: 針對數(shù)據(jù)并行方法加速大規(guī)模深度神經(jīng)網(wǎng)絡(luò)時易出現(xiàn)的通信開銷大、訓(xùn)練耗時長、資源利用率不高的問題,提出了一種深度神經(jīng)網(wǎng)絡(luò)動態(tài)分層梯度稀疏化及梯度合并優(yōu)化方法。首先,將梯度稀疏化壓縮與流水線并行技術(shù)相結(jié)合,提出動態(tài)分層梯度稀疏優(yōu)化方法,為每層神經(jīng)網(wǎng)絡(luò)匹配一個合適的閾值,通過在后續(xù)迭代時動態(tài)調(diào)整該閾值,實現(xiàn)對每層網(wǎng)絡(luò)傳輸梯度的自適應(yīng)壓縮。然后,提出了層梯度合并方法,利用動態(tài)規(guī)劃算法對層...