每日經(jīng)濟(jì)新聞
要聞

每經(jīng)網(wǎng)首頁(yè) > 要聞 > 正文

新版阿爾法圍棋橫空出世:自學(xué)3天,100:0碾壓李世石版“舊狗”

2017-10-19 18:46:53

美國(guó)當(dāng)?shù)貢r(shí)間10月18日,谷歌人工智能DeepMind團(tuán)隊(duì)在《Nature》上發(fā)表論文,宣布新版的AlphaGo Zero計(jì)算機(jī)程序可以突破突破人類知識(shí)的局限,迅速實(shí)現(xiàn)自我學(xué)習(xí)。新版阿爾法狗從零開始自學(xué)圍棋,僅用3天時(shí)間,就以100比0的成績(jī)擊敗了舊版的AlphaGo,這是人類人工智能史的重大突破。

每經(jīng)記者 蔡鼎 每經(jīng)實(shí)習(xí)編輯 郭鑫

人工智能程序AlphaGo在先后擊敗世界圍棋冠軍李世石和柯潔之后,宣布退出“棋壇”。

如今,谷歌的深度學(xué)習(xí)團(tuán)隊(duì)又宣布了一個(gè)重磅消息:新版AlphaGo可以徹底擺脫人類的知識(shí)。當(dāng)?shù)貢r(shí)間10月18日,谷歌人工智能團(tuán)隊(duì)DeepMind團(tuán)隊(duì)在著名學(xué)術(shù)期刊《自然》上發(fā)表論文,宣布新版AlphaGo——AlphaGo Zero可以在沒有人類指導(dǎo)的情況下學(xué)習(xí),實(shí)現(xiàn)無師自通!

據(jù)《每日經(jīng)濟(jì)新聞》了解,新版本AlphaGo從零開始自學(xué)圍棋,僅用3天時(shí)間,“阿爾法圍棋-零”就以100比0的成績(jī)打敗了此前戰(zhàn)勝李世石的舊版AlphaGo(舊版AlphaGo在擊敗李世石40天后,又戰(zhàn)勝了世界排名第一的柯潔)。

新AlphaGo Zero完虐舊版“阿爾法狗”

當(dāng)?shù)貢r(shí)間10月18日,谷歌人工智能團(tuán)隊(duì)DeepMind團(tuán)隊(duì)在著名學(xué)術(shù)期刊《自然》上發(fā)表論文表示,在輸入棋盤和棋子信息后,AlphaGo Zero通過與自己對(duì)弈490萬(wàn)次學(xué)會(huì)了如何下出最好的圍棋。

經(jīng)過3天的訓(xùn)練,AlphaGo Zero就以100:0的比分贏下了李世石版AlphaGo,并且只用了1臺(tái)機(jī)器和4個(gè)TPU(谷歌專為加速深層神經(jīng)網(wǎng)絡(luò)運(yùn)算能力而研發(fā)的芯片)。比較而言,李世石版AlphaGo則用了48個(gè)TPU。AlphaGo Zero除了獨(dú)立地學(xué)會(huì)了人類花費(fèi)數(shù)千年時(shí)間發(fā)現(xiàn)的圍棋規(guī)則外,還自行學(xué)會(huì)了非常有趣的圍棋策略,并且許多走法都“極具創(chuàng)造性”。

那么AlphaGo Zero是如何實(shí)現(xiàn)這種飛躍的?《每日經(jīng)濟(jì)新聞》記者注意到,AlphaGo Zero采用的是人工神經(jīng)網(wǎng)絡(luò)。這種人工智能技術(shù)可以計(jì)算出對(duì)手下一步走棋的可能性,并且估算出下棋選手贏的概率。根據(jù)計(jì)算,AlphaGo Zero每一步都會(huì)選擇最大概率贏的走法。整個(gè)訓(xùn)練過程中,不需要人類參與,全程是AlphaGo Zero自我學(xué)習(xí),自我對(duì)弈。在訓(xùn)練過程中,AlphaGo Zero每下一步需要思考的時(shí)間是0.4秒。通過對(duì)圍棋游戲的模擬和訓(xùn)練,神經(jīng)網(wǎng)絡(luò)會(huì)變得越來越好。值得一提的是,AlphaGo Zero相比之前的版本,僅使用了單一的神經(jīng)網(wǎng)絡(luò)。

DeepMind創(chuàng)始人:希望能應(yīng)用到其他結(jié)構(gòu)性問題上

谷歌深度學(xué)習(xí)聯(lián)合創(chuàng)始人兼CEO德米斯·哈比斯(Demis Hassabis)表示,AlphaGo Zero這個(gè)項(xiàng)目之所以如此強(qiáng)大,是因?yàn)樗?ldquo;不再受限于人類知識(shí)的局限”。哈比斯還相信,如果將這個(gè)項(xiàng)目應(yīng)用到治療像老年癡呆癥這樣重大的健康問題上的話,那么在幾周內(nèi),就能找到治愈人類需要花費(fèi)幾百年時(shí)間才能找到的療法。

“最終,我們希望利用這種算法突破,來幫助解決各種緊迫的現(xiàn)實(shí)問題,”哈比斯表示。“如果類似的技術(shù)可以應(yīng)用到其他結(jié)構(gòu)性問題上,例如蛋白質(zhì)折疊、減少能源消耗或?qū)ふ腋锩孕虏牧?,那么取得的突破就具有推?dòng)人類理解的潛力,并對(duì)我們的生活產(chǎn)生積極影響。”

其實(shí),谷歌的深度學(xué)習(xí)團(tuán)隊(duì)已經(jīng)開始使用AlphaGo Zero來研究蛋白質(zhì)折疊,并承諾稱將很快發(fā)表新的研究發(fā)現(xiàn)。錯(cuò)誤折疊的蛋白質(zhì)曾導(dǎo)致了包括老年癡呆癥、帕金森病和囊性纖維化等許多毀滅性的疾病。

《每日經(jīng)濟(jì)新聞》記者注意到,近年來,越來越多的科技公司先后進(jìn)入健康領(lǐng)域。去年,微軟宣布計(jì)劃在10年內(nèi)攻克癌癥。谷歌的秘密部門Calico也在調(diào)查延長(zhǎng)人類壽命甚至停止衰老的方法。

AlphaGo Zero重大突破:“白板理論”

《電訊報(bào)》指出,最新版的AlphaGo Zero最重大的突破在于實(shí)現(xiàn)了“白板理論”。在這個(gè)白板式的學(xué)習(xí)過程中,程序成了自己的老師,通過與自己下圍棋(或其他游戲)取得不斷的提高,這個(gè)過程中不需要人類的知識(shí)、數(shù)據(jù)或任何其他形式的干預(yù)。

AlphaGo的首席研究員戴夫·西爾弗(Dave Silver)博士指出:“如果一個(gè)程序能實(shí)現(xiàn)‘白板學(xué)習(xí)’,那么這個(gè)程序就有一個(gè)代理,這個(gè)所謂代理也可以被移植到任何其他的領(lǐng)域。意思就是說,Alphago Zero可以從圍棋中‘解放’出來,并致力于那種可以應(yīng)用到其他任何地方的算法。”

“對(duì)于我們來說,AlphaGo不是要去在各種領(lǐng)域中打敗人類,而是要去發(fā)現(xiàn)科學(xué)的意義,以及讓一個(gè)能無師自通的程序去進(jìn)行自我學(xué)習(xí)。”西爾弗博士補(bǔ)充道。“在很短的時(shí)間內(nèi),Alphago Zero已經(jīng)理解了人類經(jīng)過數(shù)千年的積累、分析而總結(jié)的圍棋理論。除此之外,Alphago Zero還深入分析圍棋的走法,并自行算出了更多具有創(chuàng)造性的走法。”

責(zé)編 郭鑫

特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

人工智能 阿爾法狗 新版阿爾法狗 AlphaGo-Zero

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

每經(jīng)經(jīng)濟(jì)新聞官方APP

0

0

免费va国产高清不卡大片,笑看风云电视剧,亚洲黄色性爱在线观看,成人 在线 免费