![]() 賭場(chǎng)穹頂上華麗的枝形吊燈盞盞相接、玻璃水晶反射下的燈光明亮的讓人分不清白天與黑夜!凹幼ⅰ! 加注! “再加注。” 牌桌前很安靜,能聽(tīng)見(jiàn)的只有這幾句話。 你凝視著手里關(guān)鍵的AA,還沒(méi)有思路,荷官給你了KK9。一位深藏不露的玩家從pre-flop就跟住了3-bet,你不得不認(rèn)真地考慮他手握的究竟是AK還是KK?你猶豫極了,不甘心fold掉手上的一對(duì)Aces,卻在此時(shí)無(wú)法跟住對(duì)方的Raise。“咬著牙上吧”你心中暗想。緊接著,轉(zhuǎn)牌竟然發(fā)出了一張A。手握AAAKK Full House,血液在暗涌。下注,對(duì)方毫不猶豫地跟注。河牌,空氣牌。意識(shí)到該你收割了。你check,可是對(duì)方竟然全推all in。對(duì)方真的是KK嗎? 你的目光落在籌碼上,幻想對(duì)手只是AK。棄牌嗎?你腦子一片混沌…… 很難想像,這位招招沉穩(wěn),且步步緊逼的玩家,是臉書(shū)公司與卡內(nèi)基梅隆大學(xué)合作開(kāi)發(fā)的一款新型人工智能系統(tǒng)(下文稱(chēng):六人德?lián)滟神)。它在世界上最流行的撲克游戲——六人德州撲克中擊敗了人類(lèi)職業(yè)玩家。一場(chǎng)為期 12 天的比賽,打出 10000 手牌,15 名頂尖職業(yè)玩家慘淡收?qǐng)觥?/font> 赫赫戰(zhàn)績(jī),不容小覷。 《麻省理工科技評(píng)論》稱(chēng),“一系列策略都令人驚訝:(人工智能)領(lǐng)先下注,或叫牌結(jié)束隨即押注下一場(chǎng)。十分到位的虛張聲勢(shì),很像資深玩家! 。 六人德州撲克被攻陷,人工智能新賭神的故事翻開(kāi)了新的篇章。 (一)人工智能打撲克的歷史 學(xué)術(shù)界研究德州撲克游戲中的人機(jī)對(duì)戰(zhàn)歷史悠久,原因是——在解非完全信息博弈的問(wèn)題上,德州撲克作為其中一個(gè)測(cè)評(píng)基準(zhǔn)(benchmark),非常有代表性。所以,學(xué)術(shù)界喜歡用德州撲克中的勝負(fù)來(lái)衡量算法的進(jìn)展。全球有多個(gè)研究團(tuán)隊(duì)關(guān)注這個(gè)問(wèn)題,另有研究小組和六人德?lián)滟神研發(fā)團(tuán)隊(duì)是競(jìng)爭(zhēng)關(guān)系。 他們?cè)缭谑畮啄昵熬鸵呀?jīng)在領(lǐng)域里聲名鵲起。他們是2007年NIPS論文的作者團(tuán)隊(duì),來(lái)自加拿大頂尖研究型大學(xué)阿爾伯塔大學(xué)。2015年,他們也有一篇《科學(xué)》的論文,基于神經(jīng)網(wǎng)絡(luò)打撲克的算法,也沒(méi)有用超算。 風(fēng)云詭譎,這既是科學(xué)團(tuán)隊(duì)之間的競(jìng)爭(zhēng),也是人機(jī)兩界賭神的戰(zhàn)爭(zhēng)。 2017年卡耐基梅隆大學(xué)團(tuán)隊(duì)又勝一籌。人工智能德州撲克系統(tǒng) Libratus戰(zhàn)勝人類(lèi)。 顯然,這是戰(zhàn)爭(zhēng)高發(fā)地區(qū)。時(shí)隔兩年,硝煙再起。 回到開(kāi)頭一幕,2019年,卡耐基梅隆大學(xué)團(tuán)隊(duì)的人工智能系統(tǒng)再次戰(zhàn)勝人類(lèi),而且是德州撲克六人組。研究人員布朗談到,“六人游戲要復(fù)雜得多,游戲結(jié)果很難預(yù)測(cè)。盡管在任何有限制的對(duì)戰(zhàn)中都會(huì)存在納什均衡,多人玩家游戲中納什均衡難以有效計(jì)算,是否存在單一最優(yōu)策略,即納什均衡,還不能確定。” 研究團(tuán)隊(duì)不公開(kāi)算法源代碼。據(jù)推測(cè),原因可能是,在線賭博和在線游戲平臺(tái)的老板會(huì)非常生氣。不過(guò)為了科研交流,這項(xiàng)研究的細(xì)節(jié)以及與人類(lèi)玩家的對(duì)弈的過(guò)程會(huì)在《科學(xué)》雜志上刊登。《科學(xué)》雜志是全球最權(quán)威的學(xué)術(shù)期刊之一,代表了人類(lèi)自然科學(xué)研究的最高水平。兩個(gè)關(guān)鍵點(diǎn):擊敗人類(lèi)玩家、權(quán)威期刊認(rèn)可。所以,不少中外科技媒體絲毫不吝嗇贊美之詞,評(píng)價(jià)為:“里程碑式的進(jìn)步”,或者“人工智能新突破”。但是,這究竟是多大的進(jìn)步,六人德州撲克淪陷了。下一站是哪?是不是中國(guó)的麻將、撲克升級(jí)、詐金花。 帶著問(wèn)題,我找到了美國(guó)佐治亞理工大學(xué)計(jì)算科學(xué)與工程系終身副教授宋樂(lè)博士。他也是第35屆機(jī)器學(xué)習(xí)技術(shù)國(guó)際會(huì)議(ICML)署名論文數(shù)量排名第三的作者(與三位科學(xué)家并列)。 ![]() ![]() 宋樂(lè)博士 (二)解讀“賭神”算法 理解人工智能打撲克的原理,需要先了解一下,究竟是圍棋難,還是德州撲克難? 第一、德州撲克和圍棋的玩法不一樣,圍棋的棋子在棋盤(pán)上皆可看到,而德州撲克是一種非完全信息問(wèn)題,有公有牌、有私有牌。看得到自己的私有牌,看不到對(duì)手的私有牌,可以簡(jiǎn)單理解為信息不完全問(wèn)題。所以,解決撲克牌的好方法是“非完全信息博弈下的悔恨值最小”這套方法;诤奘且粋(gè)讓人反感的結(jié)果,人生的三個(gè)好詞,久別重逢、虛驚一場(chǎng)與失而復(fù)得,雖然都包含過(guò)悔恨,但是最終都反轉(zhuǎn)了結(jié)局才算是好詞。八卦掌傳人宮二,也是在生命快走到盡頭的時(shí)候從 “人生如棋,落子無(wú)悔”中悟出“如果真無(wú)悔,那該多無(wú)趣! 第二、 從“撲克牌狀態(tài)空間很大”這個(gè)問(wèn)題談起。狀態(tài)空間大就是可能的出牌的組合很大。在幾輪下注的過(guò)程中,比如說(shuō)打多少錢(qián)?要采取什么動(dòng)作?打牌動(dòng)作在這里的意思是,跟還是不跟?加大籌碼還是不加籌碼?籌碼是十塊錢(qián)還是二十塊錢(qián)?這些事組合在一起有很大的一個(gè)空間!盃顟B(tài)空間”越大,問(wèn)題越難解。以狀態(tài)空間為標(biāo)準(zhǔn)來(lái)討論難度,百歲的德州撲克超過(guò)了千年的古老游戲圍棋。 ![]() 宋樂(lè)教授繼續(xù)講解:“回到‘六人德?lián)滟神’這個(gè)話題上,難點(diǎn)在于游戲的狀態(tài)空間很大,并不是在一臺(tái)機(jī)器可以解這么一個(gè)東西,需要用超算。 這次‘賭神’的技術(shù)亮點(diǎn)怎么做到大規(guī)模,算力和存儲(chǔ)都比較有限的情況下,解決一個(gè)大規(guī)模的非完全信息的博弈問(wèn)題! “六人德?lián)滟神”和Counterfactual regret minimization這個(gè)算法有很大的關(guān)系。如前文第一部分“人工智能打德州撲克的歷史”中提到的,這個(gè)算法在2007年人工智能機(jī)器學(xué)習(xí)頂級(jí)會(huì)議NIPS大會(huì)的論文《Regret Minimizationin Games with Incomplete Information》中提出。 人生戲與夢(mèng),賭場(chǎng)風(fēng)與云。 轉(zhuǎn)眼十二年了,諸多研究者依然在解決“非完全信息博弈的問(wèn)題”的道路上不斷前進(jìn)。 宋樂(lè)教授一語(yǔ)道出了這個(gè)十二年前的算法的關(guān)鍵,“亮點(diǎn)就是簡(jiǎn)單、有效,且能在理論上證明可以得到納什均衡。” 十二年前的算法為后人鋪下了道路。 《數(shù)學(xué)簡(jiǎn)史:確定性的消失》一書(shū)曾說(shuō),數(shù)學(xué)不是天然的寶石,只是人工的。那么我們可以理解為,每一步有價(jià)值的研究都是科研工作者用心血打磨的寶石,普通的道路石子鋪成的,而科研之路則由寶石鋪就。 該人工智能系統(tǒng)的研究團(tuán)隊(duì)自己也在文章中寫(xiě)得很清楚,只是把這個(gè)十二年前的算法用在德州撲克上,并且在實(shí)踐中效果好,理論上沒(méi)有任何保證。也就是說(shuō)Counterfactual regret minimization算法在二人德州撲克上具有理論保證,能夠達(dá)到納什均衡,但是用到六人德州撲克上不行。如果記得還不夠清楚,請(qǐng)回到本文開(kāi)頭研究人員布朗原話——“多人玩家游戲中納什均衡難以有效計(jì)算,是否存在單一最優(yōu)策略即所謂的‘納什均衡’,還不能確定! 換句話說(shuō),這次新賭神算法雖然實(shí)現(xiàn)效果好,但是無(wú)理論保證。 宋樂(lè)博士解釋?zhuān)骸翱梢岳斫鉃椋惴ㄊ轻槍?duì)于德州撲克做了一個(gè)提高版!。他進(jìn)一步強(qiáng)調(diào):“算法本身就是寫(xiě)在紙上的這么一個(gè)方法。算法思想是好的,但每個(gè)不同游戲,算法都要適配。”也就是說(shuō)德州撲克賭神的算法并不是說(shuō)直接就可以用到麻將、撲克升級(jí)、炸金花上去。 讀到這里,在線賭博和在線游戲平臺(tái)的老板們默默地在微信里收藏了本文,并轉(zhuǎn)發(fā)給賭場(chǎng)運(yùn)營(yíng)人員。而人工智能的骨干技術(shù)人員則繼續(xù)往下閱讀,找到該技術(shù)的創(chuàng)新亮點(diǎn)。 (三)解讀“賭神”算力 ![]() 很多人可能不清楚,舉行一次人機(jī)對(duì)戰(zhàn)的成本很高,其中一項(xiàng)就高在電費(fèi)。這些機(jī)器人或者人工智能系統(tǒng)都是典型的“用電大戶”。一場(chǎng)比賽對(duì)計(jì)算資源的消耗非常大。網(wǎng)友戲言李世石吃飯,人工智能用電。舉一例來(lái)說(shuō),天河二號(hào)超級(jí)計(jì)算機(jī),如果正常運(yùn)行,每年耗電量約為2億度,電費(fèi)會(huì)超過(guò)1億元。而阿爾法圍棋下一盤(pán)的電費(fèi)成本是3000美元,約合人民幣20000多元。 這位“六人德?lián)滟神”會(huì)不會(huì)也面臨著天價(jià)電費(fèi)賬單? 然而,答案是否定的。這篇《科學(xué)》在職的論文最大的亮點(diǎn)是它不用超算,只需要很少的計(jì)算資源就能完成,少到只需不到150美元的云計(jì)算資源。算法好了,就不用這么多計(jì)算資源,這確實(shí)是算法的進(jìn)步。 《麻省理工科技評(píng)論》也點(diǎn)評(píng)了算力,“值得注意的是,以前的算法都要在超級(jí)計(jì)算機(jī)上運(yùn)行,而人工智能德州撲克選手的算法在單個(gè)服務(wù)器上就能運(yùn)行! 問(wèn)題一:真的用150美元的算力實(shí)現(xiàn)的? 不能用一句話簡(jiǎn)單的概括為,150美元的算力打敗了人類(lèi)選手。過(guò)程分為兩個(gè),一個(gè)是訓(xùn)練的過(guò)程,一個(gè)是實(shí)際打牌的過(guò)程。該研究團(tuán)隊(duì)有一系列打撲克的文章,研究團(tuán)隊(duì)算法以前的版本使用了超算。換句話說(shuō),用超算計(jì)算出一個(gè)精準(zhǔn)、全面的模型。在實(shí)際打牌的過(guò)程中,算力少了是因?yàn)槭褂昧私频乃惴ā?/font> 什么是近似算法呢?簡(jiǎn)單的說(shuō),就是研究人員觀察到一種現(xiàn)象,用近似的算法去做這個(gè)問(wèn)題,換句話說(shuō),改進(jìn)主要是對(duì)原來(lái)的算法做了一個(gè)近似。能達(dá)到同樣的效果,也是一種算法的改進(jìn)。但是如果沒(méi)有前期超算的算力投入,沒(méi)有得出一個(gè)精準(zhǔn)、全面的模型的情況,近似算法就是空中樓閣。沒(méi)有第一層樓,哪有第二層樓? 問(wèn)題二:如何解釋近似算法呢? 宋樂(lè)教授解釋說(shuō):“有點(diǎn)像真實(shí)世界一個(gè)場(chǎng)景,讓不同的畫(huà)家盡量真實(shí)的把它畫(huà)下來(lái)。每個(gè)人的畫(huà)法不同。有的畫(huà)家畫(huà)得特別好,寥寥數(shù)筆在畫(huà)布上呈現(xiàn)景物動(dòng)態(tài)。算法用藍(lán)圖策略模型(blue print strategy)的方法對(duì)游戲的收益函數(shù)做了一個(gè)降維的近似表征。這是《科學(xué)》雜志這篇論文技術(shù)上最大的亮點(diǎn)。在很小的存儲(chǔ)和計(jì)算條件下做到了。但是這個(gè)提高,比較起二人德州撲克變化不大,算法用了在六人德?lián)渖,并且人?lèi)德州撲克選手試了。主要出來(lái)是實(shí)際效果好。文章自己也這么說(shuō),沒(méi)有太多新方法,更不能理解為機(jī)器學(xué)習(xí)和人工智能的里程碑! 講到這里,《人工智能新賭神:六人德州撲克被攻陷》的故事似乎可以落幕了,這并不能認(rèn)為是機(jī)器學(xué)習(xí)的巨大進(jìn)步。 (四)人工智能反思:不要“里程碑”,要日拱一卒。 ![]() 人工智能機(jī)器人阿爾法擊敗韓國(guó)圍棋選手李世石已三年有余。 對(duì)公眾來(lái)說(shuō),人機(jī)對(duì)戰(zhàn)實(shí)錘了人類(lèi)圍棋智慧的脆弱。對(duì)科技界來(lái)說(shuō),深度學(xué)習(xí)技術(shù)的爆發(fā)與廣泛應(yīng)用會(huì)載入科技史冊(cè)。技術(shù)發(fā)展往往會(huì)按月度計(jì)算進(jìn)程。摩爾定律以十八個(gè)月為周期。比爾·蓋茨說(shuō)微軟永遠(yuǎn)離破產(chǎn)只有十八個(gè)月。在人工智能的紀(jì)元,三年已經(jīng)很久了,但是這股自信轉(zhuǎn)化為對(duì)人工智能無(wú)所不能的樂(lè)觀情緒似乎沒(méi)有消散。把舊的生產(chǎn)力給干掉,換成新的生產(chǎn)力。人工智能似乎在狂歡之中開(kāi)上了高速公路。 計(jì)算機(jī)科學(xué)與技術(shù)專(zhuān)家、中國(guó)科學(xué)院院士、清華大學(xué)博士生導(dǎo)師,現(xiàn)任清華大學(xué)人工智能研究院院長(zhǎng),張鈸2019年5月在接受《經(jīng)濟(jì)觀察網(wǎng)》專(zhuān)訪時(shí)公開(kāi)表示: “人工智能奇跡短期難再現(xiàn),深度學(xué)習(xí)技術(shù)潛力已近天花板!焙芏嗳斯ぶ悄苎芯咳藛T、從業(yè)者認(rèn)可這個(gè)觀點(diǎn)。他們對(duì)鼓吹人工智能大踏步前進(jìn)的論調(diào)非常反感:“什么時(shí)候有新算法,降低算力需求才是有意義的! 人工智能的計(jì)算非常非常耗電,對(duì)環(huán)境的負(fù)面效應(yīng)顯著。而加大算力支撐這種勢(shì)頭似乎難以遏制。 有機(jī)構(gòu)一出手就買(mǎi)60塊英偉達(dá)DGX-2超算,近兩億人民幣。 ![]() 微軟亞洲研究院首席研究員劉鐵巖,曾在MSRA,AI講堂2019校園行首站活動(dòng)中談到,“很多研究都在追求 ‘大力出奇跡’”。 另一位重量級(jí)學(xué)者,微軟亞洲研究院副院長(zhǎng)、國(guó)際計(jì)算語(yǔ)言學(xué)協(xié)會(huì)( ACL )主席周明,在雷鋒網(wǎng)2019CCF-GAIR大會(huì)上談到, “(人工智能在發(fā)展)無(wú)休止的計(jì)算資源軍備競(jìng)賽。” ![]() 看來(lái),算法不夠,算力來(lái)湊,成了人工智能的“新款“解決方案。 但是算力真的會(huì)一直奏效嗎? 谷歌AI在一篇新論文《The Evolved Transformer》中提出的神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索技術(shù),將用于英語(yǔ)到德語(yǔ)翻譯的雙語(yǔ)評(píng)估替換(Bilingual Evaluation Understudy,BLEU)分?jǐn)?shù)提高了0.1,為了這點(diǎn)提高,卻花費(fèi)了3.2萬(wàn)TPU小時(shí)。人工智能發(fā)展的車(chē)速在被高昂的算力硬拽,但是加速度卻沒(méi)有相應(yīng)的提升。 機(jī)器學(xué)習(xí)的學(xué)術(shù)進(jìn)步,積其跬步,日拱一卒。 這篇論文并不能帶來(lái)機(jī)器學(xué)習(xí)的突破性發(fā)展。只是在大眾比較關(guān)注的話題——六人德州撲克上取得了很好的效果!犊茖W(xué)》雜志一年十二期,每個(gè)月一期。一般幾篇到十篇左右,并不是每篇都值得被贊頌為里程碑。 宋樂(lè)教授強(qiáng)調(diào)了科學(xué)進(jìn)展的普遍規(guī)律:“前人的方法,加上后來(lái)者的努力,方法積累方法,進(jìn)而帶動(dòng)提高,每一點(diǎn)的提高都非常不容易,科學(xué)研究就是慢慢地一步一步發(fā)展過(guò)來(lái)的! 人工智能已經(jīng)進(jìn)入攻堅(jiān)期,會(huì)有更多的困難等待著技術(shù)推動(dòng)者。 |
免責(zé)聲明:本站部分文章和圖片均來(lái)自用戶投稿和網(wǎng)絡(luò)收集,旨在傳播知識(shí),文章和圖片版權(quán)歸原作者及原出處所有,僅供學(xué)習(xí)與參考,請(qǐng)勿用于商業(yè)用途,如果損害了您的權(quán)利,請(qǐng)聯(lián)系我們及時(shí)修正或刪除。謝謝!
始終以前瞻性的眼光聚焦站長(zhǎng)、創(chuàng)業(yè)、互聯(lián)網(wǎng)等領(lǐng)域,為您提供最新最全的互聯(lián)網(wǎng)資訊,幫助站長(zhǎng)轉(zhuǎn)型升級(jí),為互聯(lián)網(wǎng)創(chuàng)業(yè)者提供更加優(yōu)質(zhì)的創(chuàng)業(yè)信息和品牌營(yíng)銷(xiāo)服務(wù),與站長(zhǎng)一起進(jìn)步!讓互聯(lián)網(wǎng)創(chuàng)業(yè)者不再孤獨(dú)!
掃一掃,關(guān)注站長(zhǎng)網(wǎng)微信