高性能計算檢查點技術(shù)發(fā)展與應(yīng)用綜述
計算機科學(xué)
頁數(shù): 14 2024-04-03
摘要: 隨著高性能計算系統(tǒng)的規(guī)模不斷擴大,復(fù)雜度不斷提升,應(yīng)用的容錯能力成為E級計算面臨的重要挑戰(zhàn)之一。檢查點技術(shù)是實現(xiàn)應(yīng)用程序的容錯能力的主要手段之一,通過定期保存應(yīng)用的執(zhí)行狀態(tài)來實現(xiàn)故障恢復(fù)。文中針對高性能計算檢查點技術(shù)的發(fā)展和應(yīng)用情況展開綜述。首先,整理了高性能計算領(lǐng)域中檢查點技術(shù)的發(fā)展;其次,根據(jù)運行層次的不同,分別闡述了系統(tǒng)層檢查點和應(yīng)用層檢查點的工作,包括主流的工具軟件、可...