當前位置:首頁 > 百科知識 > 工控 > 正文

AlphaGo 又名:機器人AlphaGo

由谷歌DeepMind實驗室研究的圍棋軟件AlphaGo。

以往的下棋電腦程序都是運用傳統(tǒng)的智能運算方法,即對所有可能的落子位置建立搜索樹,但這種方法在對付圍棋時就失靈了。

    “深度思維”公司開發(fā)的A lphaG o電腦程序另辟蹊徑,它將更為先進的搜索樹運算法跟神經(jīng)系統(tǒng)運行模式結(jié)合起來。

    這種類似神經(jīng)系統(tǒng)的運算方法將圍棋棋盤描述為一個“輸入端”,然后運用包含數(shù)百萬類神經(jīng)系統(tǒng)連接的12個不同層面的網(wǎng)絡(luò)系統(tǒng)對其進行處理。

    其中一種“神經(jīng)網(wǎng)絡(luò)系統(tǒng)”叫做“策略網(wǎng)絡(luò)”,它會選擇下一步如何走;另一種“神經(jīng)網(wǎng)絡(luò)系統(tǒng)”叫做“價值網(wǎng)絡(luò)”,它會預(yù)測誰將勝出。

    谷歌公司說:“我們用人類職業(yè)棋手的3000萬步下法來訓(xùn)練‘神經(jīng)網(wǎng)絡(luò)系統(tǒng)’,直到它能以57%的準確率預(yù)測職業(yè)棋手的下一步走法。”

    據(jù)悉,此前的圍棋程序預(yù)測準確率只能達到44%。

    “深度思維”公司的目標可不是僅僅模仿人類,而是要擊敗頂尖圍棋高手。

    為了達到這一目標,A lphaG o電腦程序能夠“自動學習”以發(fā)展出新的下法。A lphaG o電腦程序的“神經(jīng)網(wǎng)絡(luò)系統(tǒng)”運用一種被稱為“強化學習法”的反復(fù)試錯法,進行了數(shù)千次訓(xùn)練,不斷調(diào)整。

    谷歌公司稱,這需要強大的計算能力。

    在進行人機大戰(zhàn)之前,“深度思維”公司拿A lphaG o電腦程序跟其他圍棋程序進行比賽,如著名的圍棋程序“瘋狂石頭”和“禪”,A lphaG o電腦程序每次都能勝出。


內(nèi)容來自百科網(wǎng)