每日經(jīng)濟(jì)新聞
推薦

每經(jīng)網(wǎng)首頁(yè) > 推薦 > 正文

麻將AI算法能用于投資預(yù)測(cè)?微軟揭秘研發(fā)細(xì)節(jié)

每日經(jīng)濟(jì)新聞 2020-07-11 20:07:40

棋盤游戲是人類智能的體現(xiàn),游戲AI成為機(jī)器智能尋找突破的陣地。在過去的30年里,AI在象棋、圍棋等游戲中都逐步戰(zhàn)勝了人類。但AI真的已經(jīng)如此聰明了嗎?

每經(jīng)記者 張韻    每經(jīng)編輯 陳俊杰    

去年,時(shí)任微軟全球執(zhí)行副總裁沈向洋在2019世界人工智能大會(huì)上宣布,微軟亞洲研究院開發(fā)出了世界上最強(qiáng)的“麻將AI”——Suphx,并在國(guó)際知名專業(yè)麻將平臺(tái)“天鳳”上榮升十段,其實(shí)力超越該平臺(tái)公開房間頂級(jí)人類選手的平均水平。

游戲是人工智能算法研究的重要試驗(yàn)田,其環(huán)境的復(fù)雜性和信息的不確定性是機(jī)器學(xué)習(xí)的最佳訓(xùn)練場(chǎng)。

那么麻將AI到底有哪些難點(diǎn)?Suphx 在游戲AI領(lǐng)域的跨越性突破具體是如何實(shí)現(xiàn)的?麻將AI落地的最終目的又是什么?在2020世界人工智能大會(huì)上,《每日經(jīng)濟(jì)新聞》記者嘗試從微軟亞洲研究院方面找到答案。

用麻將AI破譯非完美信息博弈

微軟亞洲研究院副院長(zhǎng)潘天佑向記者表示:“大家都知道下圍棋的AlphaGo,牌類游戲相對(duì)棋類來說更為困難,而牌類游戲中最復(fù)雜的就是中國(guó)人的麻將,麻將中蘊(yùn)含太多不確定因素,但我們的研究員就接受了這樣的挑戰(zhàn)。”

微軟亞洲研究院副院長(zhǎng)劉鐵巖和他的團(tuán)隊(duì)是麻將AI算法的開創(chuàng)者。

“想要訓(xùn)練AI,把麻將真正打好是一件很困難的事情。”劉鐵巖表示,象棋和圍棋雖然看起來很難,但其實(shí)都是完美信息博弈,也就是說對(duì)手的所有信息我們都一覽無余。這種情況下,AI可以通過它強(qiáng)大的計(jì)算力來枚舉各種可能性,從而找到制勝的策略。

而麻將則完全不同,充滿了隨機(jī)性和不確定性。首先玩家只知道自己手里的13張牌和之前打出去的牌,卻無法知道別人的手牌和沒有翻出來的底牌。牌局中存在著大量不可知的隱藏信息,因此麻將屬于非完美信息博弈。

“海量不可見的隱藏信息使得AI很難挖掘出從已知牌面到最優(yōu)策略之間的邏輯鏈路,在非完美信息博弈中,麻將屬于非常復(fù)雜的類型。”劉鐵巖舉了一個(gè)例子,麻將牌有136張,在開局時(shí)的排列組合是6人德州撲克的10的90次方倍;開局后一個(gè)玩家的手牌確定了,但他看不到其他三個(gè)玩家的手牌,這些隱藏信息有高達(dá)10的48次方種可能。

巨大的狀態(tài)空間和隱藏信息及其帶來的不確定性使AI模型很難使用傳統(tǒng)的蒙特卡羅數(shù)搜索算法。劉鐵巖表示,但從另一角度而言,一旦成功可能會(huì)讓AI具備前輩們沒有的新智能。

“微軟亞洲研究院的研究員是一群好奇心很強(qiáng)的人,在這種好奇心的驅(qū)動(dòng)下,我們不斷探索未知,尋求答案,因此決定通過麻將AI來破解非完美信息博弈。”微軟亞洲研究院首席研究員秦濤表示,團(tuán)隊(duì)采用的是基于強(qiáng)化學(xué)習(xí)的自我博弈技術(shù),使得AI能夠自我學(xué)習(xí),自我提高。

目的是解決高度復(fù)雜的現(xiàn)實(shí)問題

棋盤游戲是人類智能的體現(xiàn),游戲AI成為機(jī)器智能尋找突破的陣地。在過去的30年里,AI在象棋、圍棋等游戲中都逐步戰(zhàn)勝了人類。但AI真的已經(jīng)如此聰明了嗎?

秦濤說:“可能大家不太相信,其實(shí)我們這幫研究員都是麻將菜鳥。但是我們也能訓(xùn)練出非常厲害的麻將AI。”

在訓(xùn)練過程中,劉鐵巖團(tuán)隊(duì)利用隱藏的信息,從“上帝視角”對(duì)Suphx進(jìn)行了線下指導(dǎo)。“正是因?yàn)橛刑嗟碾[藏信息,所以我們引入了一個(gè)‘上帝視角’,它知道所有的完美信息,可以利用這個(gè)完美信息下的最優(yōu)打法來指導(dǎo)Suphx的學(xué)習(xí)過程。另一方面,完美信息也可以告訴AI,一個(gè)牌局的輸贏是因?yàn)榇虻煤茫€是因?yàn)榕泼娴倪\(yùn)氣好,這樣可以提供更有效的學(xué)習(xí)方向。”

經(jīng)過一段時(shí)間的線下訓(xùn)練,Suphx可以在專業(yè)麻將平臺(tái)與人類玩家進(jìn)行線上實(shí)戰(zhàn),實(shí)戰(zhàn)中因?yàn)槭峙坪偷着魄ё內(nèi)f化,因此Suphx也需要隨機(jī)應(yīng)變。于是,劉鐵巖團(tuán)隊(duì)又提出了動(dòng)態(tài)自適應(yīng)技術(shù),使得Suphx能夠在牌局中隨時(shí)調(diào)整策略,決定何時(shí)進(jìn)攻何時(shí)防守,提高勝算。

在微軟亞洲研究院看來,麻將AI不是為了在麻將桌上打敗人類,而是讓人類從另一個(gè)角度來看待世界,比如解決問題的全新思路,增強(qiáng)人類智能。就像AI在打麻將時(shí),面對(duì)著巨大的不可知信息,我們的生活也會(huì)在隨時(shí)出現(xiàn)突發(fā)情況或黑天鵝事件。從這個(gè)意義上講,麻將比任何棋牌都要更加接近真實(shí)世界。

潘天佑表示,“這種機(jī)器學(xué)習(xí)的技術(shù)可以應(yīng)用在更多現(xiàn)實(shí)場(chǎng)景中,例如我們將先知教練的算法應(yīng)用在AI投資領(lǐng)域,場(chǎng)景上和麻將也是有類似之處的,都具有相當(dāng)豐富的隱藏信息”。

“我們希望AI在非完美信息博弈領(lǐng)域的突破,有助于解決高度復(fù)雜的現(xiàn)實(shí)問題,幫助人類應(yīng)對(duì)更多更大的挑戰(zhàn)。”劉鐵巖說道。

封面圖片來源:攝圖網(wǎng)

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

世界人工智能大會(huì) 麻將AI 先知算法

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

每經(jīng)經(jīng)濟(jì)新聞官方APP

0

0

免费va国产高清不卡大片,笑看风云电视剧,亚洲黄色性爱在线观看,成人 在线 免费