全站搜尋 電子雜誌搜尋

AD

ad970250

不錯過知識訊息,立即加入國家地理官方X

Oct. 18 2024
Sponsored

不只是下棋!遊戲 AI 如何解決現實世界的難題?

  • 不只是下棋!遊戲 AI 如何解決現實世界的難題?

    不只是下棋!遊戲 AI 如何解決現實世界的難題?

  • AlphaGo 與李世乭第一場對弈的最後局面,這場比賽由 AlphaGo 獲勝(白子),李世乭在尚餘約 28 分鐘時投子認輸。 資料來源|Google DeepMind

    AlphaGo 與李世乭第一場對弈的最後局面,這場比賽由 AlphaGo 獲勝(白子),李世乭在尚餘約 28 分鐘時投子認輸。 資料來源|Google DeepMind

  • AlphaGo 與李世乭對弈的第四局,執白子的李世乭下出關鍵的第 78 手。 資料來源|Google DeepMind

    AlphaGo 與李世乭對弈的第四局,執白子的李世乭下出關鍵的第 78 手。 資料來源|Google DeepMind

  • AlphaGo 與李世乭對弈第四局的前 99 手棋局紀錄。 圖|研之有物(資料來源|Wikipedia)

    AlphaGo 與李世乭對弈第四局的前 99 手棋局紀錄。 圖|研之有物(資料來源|Wikipedia)

  • AlphaGO 的成功,在於使用了深度學習與強化學習,讓 AI 可以不斷從回饋獎勵中學習。並且在策略上採用更有效率的蒙地卡羅樹搜索法,改善 AI 的判斷能力。 圖|研之有物(資料來源|吳廸融)

    AlphaGO 的成功,在於使用了深度學習與強化學習,讓 AI 可以不斷從回饋獎勵中學習。並且在策略上採用更有效率的蒙地卡羅樹搜索法,改善 AI 的判斷能力。 圖|研之有物(資料來源|吳廸融)

  • MuZero 的訓練,已經不需要跟真實環境互動,而是另外訓練了一個深度學習的神經網路,用來模擬現實環境。因此,在應用於解決實際問題時,也可以減少許多不必要的耗損。 圖|Google DeepMind

    MuZero 的訓練,已經不需要跟真實環境互動,而是另外訓練了一個深度學習的神經網路,用來模擬現實環境。因此,在應用於解決實際問題時,也可以減少許多不必要的耗損。 圖|Google DeepMind

  • 吳廸融團隊持續探索遊戲與圍棋AI,希望找到更多人工智慧的可能性。 圖|研之有物

    吳廸融團隊持續探索遊戲與圍棋AI,希望找到更多人工智慧的可能性。 圖|研之有物

  • 如何讓圍棋 AI 成為適合練習的對手?調整難度的功能非常重要。吳廸融團隊成功發展出四個 CGI 版本,可以讓不同棋力的選手練習。 圖|研之有物(資料來源|吳廸融)

    如何讓圍棋 AI 成為適合練習的對手?調整難度的功能非常重要。吳廸融團隊成功發展出四個 CGI 版本,可以讓不同棋力的選手練習。 圖|研之有物(資料來源|吳廸融)

1
 

深度強化式學習與遊戲 AI

還記得打敗了人類棋士的 AlphaGo 嗎?為什麼我們要一直教電腦下西洋棋、圍棋,並訓練它們熟悉各式各樣的遊戲?難道是為了追求傳說中的「神之一手」嗎?原來,科學家們努力培養「AI 棋靈王」並不只是為了追求棋藝,更是為了實現更遠大的目標──解決生活中的真實難題。究竟,我們要如何透過遊戲來訓練 AI?這些訓練結果,未來真的能夠運用在現實當中嗎?就讓中央研究院「研之有物」來採訪院內資訊科學研究所的吳廸融助研究員,看看他和團隊平常到底都在跟 AI「玩」什麼花樣。

電腦對上人腦,AI 到底強在哪裡?

2016 年 3 月,電腦圍棋軟體 AlphaGo 與韓國職業九段棋士李世乭展開一系列對弈,五場比賽裡僅僅輸了其中一場,最終以四勝一敗之姿贏下了比賽,不僅宣告著人工智慧終於征服了最艱難的棋類遊戲,也似乎為人類與人工智慧的對決,暫時劃下了一個句點。

AlphaGo 與李世乭第一場對弈的最後局面,這場比賽由 AlphaGo 獲勝(白子),李世乭在尚餘約 28 分鐘時投子認輸。 資料來源|Google DeepMind

AlphaGo 與李世乭第一場對弈的最後局面,這場比賽由 AlphaGo 獲勝(白子),李世乭在尚餘約 28 分鐘時投子認輸。 資料來源|Google DeepMind

不只一般民眾對那次對決印象深刻,當時,吳廸融博士正好在研究室探索圍棋 AI 的相關研究,也為這個突破感到十分振奮。他笑說,自己從小便因動漫《棋靈王》的影響而學習圍棋,直到研究所後,找到一位做棋類 AI 的老師,才得以結合自己興趣,開始研究圍棋 AI。怎知研究到一半,超強的 AlphaGo 就這樣橫空出世,將 AI 帶入了一個全新的紀元。回想當時的感受,吳廸融除了興奮之外,也坦言 Google 所投入的相關計算資源,實在不是一般學校單位可以媲美的。

那麼,為什麼 AlphaGo 能取得如此重大的突破呢?吳廸融博士解釋,其中的關鍵,便在於 AlphaGo 將「深度學習」結合到了原本的圍棋 AI 之中。所謂「深度學習」聽起來雖難,但相關應用在我們的生活中可謂無處不在,在影像類的發展尤為成熟。

比如說,假設今天突然想找一張可愛小狗的照片,我們只需在手機相簿裡搜尋「狗」,手機便能幫我們找出所有含有狗的照片。這簡單的操作背後,其實正是靠著深度學習的幫助,讓電腦判斷單張照片中是狗、是貓、是景色的機率分別是多少,藉由內部的神經網路抓取事物特徵(註1),找出最符合搜尋需求的結果。

而 AlphaGo 在做的事情,便是延伸這樣的概念,只不過是將影像轉換為棋盤類遊戲,我們輸入的資訊不再是貓貓狗狗的照片,而是棋盤的盤面。接著,再讓電腦透過「策略網路」:判斷職業棋手會在該盤面的哪個位置出手;以及「價值網路」:下在該位置的勝率為何,去做出相關決策。

不過,如果只能做到這樣還不夠。吳廸融博士提到,AlphaGo 的第二個特點在於,可以判斷職業棋手下在各個位置的機率,如果機率太低的選擇,就不用特別考慮,如此一來,便不用逐步「窮舉」出所有結果,而能較為深入的分析後續盤面的變化,讓整體判斷更加精準又收斂。

而也是因為 AI 具有這個特性,所以當年 AlphaGo 與李世乭對弈的第四局,李世乭在第 78 手突如其來下出機率較低的選擇,殺得 AI 措手不及,不僅贏得了該次棋局,更被大家稱為「神之一手」。這場敗局,讓 Google 的團隊決心繼續升級,推出了「AlphaGo Zero」的新技術。

AlphaGo 與李世乭對弈的第四局,執白子的李世乭下出關鍵的第 78 手。 資料來源|Google DeepMind

AlphaGo 與李世乭對弈的第四局,執白子的李世乭下出關鍵的第 78 手。 資料來源|Google DeepMind

AlphaGo 與李世乭對弈第四局的前 99 手棋局紀錄。 圖|研之有物(資料來源|Wikipedia)

AlphaGo 與李世乭對弈第四局的前 99 手棋局紀錄。 圖|研之有物(資料來源|Wikipedia)

打敗人類棋手後,AI 還在繼續變強?

「AlphaGo Zero」與「AlphaGo」最大的不同點,在於學習對象的不同。過去,AlphaGo 是在向人類最頂尖的棋士學習,而如今,它本身已經足夠厲害,AlphaGo Zero 便直接跳過了跟人類學習的步驟,而是嘗試自我對弈(Self Play),想像一下:當黑棋是很強的 AlphaGo、白棋也是很強的 AlphaGo,兩邊互相對抗、學習,那訓練出來的 AlphaGo Zero 可就不只是 2 倍的加乘強度,更有可能是 20 倍、100 倍 的強度以上。

吳廸融博士補充道,在自我對弈方面,AI 如果從頭自學,反而會比跟人類學還要更精準。Google 的研究團隊曾經想直接用打敗李世乭的 AlphaGo 版本往下進行自我對弈訓練,結果發現,一開始就跟人類下棋的 AI,也容易學習到人類的一些認知誤區,反而是讓 AI 從頭自學時,可以跳脫人類框架,得到更好的解答。

換言之,在棋類 AI 訓練上,人類範本已經沒什麼用武之地了。後來開發出的「Alpha Zero」的邏輯與「AlphaGo Zero」類似,除了圍棋之外,還將學習範圍拓展到了西洋棋和將棋。

AlphaGO 的成功,在於使用了深度學習與強化學習,讓 AI 可以不斷從回饋獎勵中學習。並且在策略上採用更有效率的蒙地卡羅樹搜索法,改善 AI 的判斷能力。 圖|研之有物(資料來源|吳廸融)

AlphaGO 的成功,在於使用了深度學習與強化學習,讓 AI 可以不斷從回饋獎勵中學習。並且在策略上採用更有效率的蒙地卡羅樹搜索法,改善 AI 的判斷能力。 圖|研之有物(資料來源|吳廸融)

但這還不是終點。DeepMind 後來更開發出了「MuZero」,可以在不給遊戲規則情況下,讓 AI 自己學會圍棋、西洋棋、將棋,還有多款 Atari 主機遊戲的規則。吳廸融博士強調,從 MuZero 就可以看到發展遊戲 AI 的優勢,因為它的訓練不需要跟環境互動,而是另外訓練了一個深度學習的神經網路,用來模擬現實環境,因此,在應用於解決實際問題時,也可以減少許多不必要的耗損。像是我們想要訓練無人機時,與其打造多架無人機去測試、碰撞,倒不如將整個駕駛過程變成演算法,在模擬器中學習、互動與精進。

MuZero 的訓練,已經不需要跟真實環境互動,而是另外訓練了一個深度學習的神經網路,用來模擬現實環境。因此,在應用於解決實際問題時,也可以減少許多不必要的耗損。 圖|Google DeepMind

MuZero 的訓練,已經不需要跟真實環境互動,而是另外訓練了一個深度學習的神經網路,用來模擬現實環境。因此,在應用於解決實際問題時,也可以減少許多不必要的耗損。 圖|Google DeepMind

追求神之一手?棋類 AI 真正想解決的是現實問題

感受到了嗎?同樣是訓練,實體訓練時我們可能會受限於時間、空間、天氣等等環境因素,但這些在遊戲世界中都能被一一解決,甚至可以達到接近無損耗的「0 成本」境界。而這項優勢,也正是吳廸融與團隊之所以持續鑽研圍棋 AI 的原因。吳廸融解釋,他們研究 AI 演算法平台「CGI 圍棋智慧」,並非是想要將圍棋 AI 做到最強,也不是為了追求傳說中的「神之一手」。

"我們是希望,可以藉由圍棋 AI 這個遊戲環境來探索 AI 的各種可能性。"

其實,目前在做遊戲或棋類 AI 的團隊都有著相似的目標,並不完全是為了將遊戲本身玩到頂尖,而是希望可以開發出通用的演算法,可以應用到其他地方,為人類解釋現實中的問題。事實上,有些應用早已出現在我們的生活當中。吳廸融舉例,我們平常愛看的 YouTube,在影片壓縮時就有採用 MuZero 的技術。透過 MuZero 的計算和判斷,不僅可以降低 YouTube 的營運成本,也有機會大幅節省網路流量。

全面升級吧!不斷精進的「CGI 圍棋智慧」

想要解決人類真實的問題,那麼,就得打破一些圍棋 AI 本身的限制。比如說,其中一大限制就在於,會自帶一套「貼目邏輯」,以 AlphaGo 來說,就是固定貼 7.5 目。

這是什麼意思呢?圍棋的規則為黑棋先下,而先下者會有優勢,所以在最後計算時,黑棋就得「貼目」:扣掉一些目數或子數,以求公平。只是,貼目的規則隨著不同國家也有所不同,中國通常會貼 7.5 目,而日韓多貼 6.5 目。但如果一開始就設定好 AI 的貼目規則,那後期想要改變就會非常困難。

為了解決這項難題,吳廸融與研究團隊為「CGI 圍棋智慧」開發出「多標籤價值網路」,可以將各種貼目情形「例如貼 -12.5、1.5、……、27.5」下的勝率通通算出來,這樣的「多任務學習」,除了打破了既有限制,更能協助提升 AI 本身的棋力,如今,多標籤價值網路已經成為圍棋 AI 的常用設定。

吳廸融團隊持續探索遊戲與圍棋AI,希望找到更多人工智慧的可能性。 圖|研之有物

吳廸融團隊持續探索遊戲與圍棋AI,希望找到更多人工智慧的可能性。 圖|研之有物

圍棋 AI 自我訓練的另一項限制,在於很容易陷入自身的盲點,想不出更好的下法。那該怎麼解決呢?團隊提出了「超參數自動優化方法」,同時用不同的超參數訓練多個 AlphaGo AI、增加亂度,再隨機挑出幾個互博,留下最強的,再進行下一輪對抗。咦?增加多樣性來提升存活機會,聽起來是不是有點像「物競天擇、適者生存」的味道呢?

圍棋 AI 的另一個挑戰處在於本身的規則較為複雜,重點在於「圍地」,而不只是要在盤面上擁有更多棋子,因此很難在中間輕易確認輸贏。那該如何做呢?可以運用數學統計上的「蒙地卡羅方法」(Monte Carlo method)來解答,先把需要統計的目標劃出來,然後讓電腦隨機且大量地射出飛鏢,最後透過真正中靶的部分,去估算相關數值。

而在「CGI 圍棋智慧」上,研究團隊進一步使用「蒙地卡羅樹搜尋」演算法(Monte Carlo tree search),可以得出來各種盤面的勝率,並藉此去設定不同強度的圍棋 AI。比起「百戰百勝」的超強存在,能夠隨棋士程度調整、可以和棋士互有勝負的圍棋 AI 反而能成為絕佳的圍棋助教。更有趣的是,我們也可以反過來,透過讓棋士跟 AI 對弈,來推測棋士本身的棋力(Elo rating)。

如何讓圍棋 AI 成為適合練習的對手?調整難度的功能非常重要。吳廸融團隊成功發展出四個 CGI 版本,可以讓不同棋力的選手練習。 圖|研之有物(資料來源|吳廸融)

如何讓圍棋 AI 成為適合練習的對手?調整難度的功能非常重要。吳廸融團隊成功發展出四個 CGI 版本,可以讓不同棋力的選手練習。 圖|研之有物(資料來源|吳廸融)

好還要更好!努力尋找最佳解!

打破了這種種限制,追求之路卻仍未結束。以 AlphaGo 來說,思考策略時主要偏向啟發法(Heuristic)而非精準解答,雖然在對弈時多有勝算,但如果在現實生活中,我們可不希望 AI 會忽然出現錯誤,假如我們在製造晶片時,萬一放錯位置,可能就是千萬以上的損失,正因如此,找出完美解就變得非常重要。

現在,吳廸融與團隊便在尋找「7×7」棋盤範圍內的完美解答(Solving a game),困難度更甚於精通遊戲(Mastering a game)。目前,團隊已經開發出新型在線學習方法,可以挑出 AlphaGo 較為弱勢的部分,直接進行「動態增強」,大幅減少訓練時間,而這些被挑出來的誤區,也可以讓我們更理解 AI,在可解釋性上面獲得新的突破。

至於這個超強系統能在何時真正協助 AI 在各種優秀解答中找出最佳解?還有待團隊繼續鑽研。

內容強大還不夠!能夠解釋更重要

除了以「超參數自動優化方法」來改進 AI 演算法、以在線學習來增加 AI 的可解釋性,吳廸融分享到,團隊的另一大重點在於,將 AI 作為助人學習的工具。怎麼讓 AI 幫助學習呢?可以透過程度控制來輔助人類,也可以串聯 ChatGPT 等語言模型,來解釋、幫助人類理解 AI 下棋策略背後的邏輯。

未來,AI 的應用範圍可能非常廣泛,但如果只是知其然而不知其所以然,容易造成隱患,比如像是軍事國防上,如果一味信任 AI 的防守策略,卻不去理解策略背後的原因,可能就不會發現 AI 的盲點,因而造成後續的損失。吳廸融認為,AI 發展至今已經十分強大,而在下一個階段,真正理解 AI、讀懂機器邏輯將是關鍵,也因此,AI 的「可解釋性」相關研究十分重要。

"怎麼從 AI 的腦袋變出我們人類聽得懂的話,這其實是個非常非常大的挑戰。"

接下來,吳廸融期待團隊能在演算法上持續精進,也希望研究成果可以用於更多現實場景,比如工業排程、道路規劃等等。最後,也期待能透過與棋士的合作及其他方法,將 AI 擁有的知識透過人類能懂的方式,解釋出來。

 

Q. 您進行研究之後,會跟 AI 下棋嗎?棋力有大幅進步嗎?

A. 一開始的時候會下,但後來下不贏就不下了(笑)。

Q. 研究團隊成員都需要會下棋?

A. 早期研究棋類 AI 通常需要有相關知識,才可以判斷結果並理解研究,但現在的 AI 通用性愈來愈高,所以不一定要會圍棋也可以做。只是對於做研究的學生來說,通常還是會喜歡看得懂的東西,如果完全沒有接觸過,他可能看不懂 AI 在進步的感覺,就沒有辦法體會到那個感動的部分。

Q. 遊戲 AI(例如 MuZero)出來之後,原本的棋類 AI(例如 Alpha Zero)會被完全取代嗎?

A. 首先,AlphaZero 與 MuZero 出來後,的確許多傳統的棋類 AI 方法都漸漸被取代,畢竟 AlphaZero 與 MuZero 可以自動探索出超越人類知識的學習方法,實在太方便了!

然而,MuZero 並不會完全取代 AlphaZero,因為 MuZero 需要依賴 AI 自行學會環境規則,所以在一些複雜的環境下,會需要比 AlphaZero 花費更多的學習時間。

Q. 目前有研究說,如果大型語言模型或圖片生成 AI 只靠自我學習會崩潰。為什麼圍棋 AI 不會有這種情況呢?

A. 圍棋因為有絕對的勝負,只要把一盤棋完整下完,根據規則一定可以得到一方獲勝以及一方失敗,所以 AI 可以不斷利用自我對弈來學習比較好的走法。

但對於大型語言模型或是圖片生成的 AI,這類的東西並沒有一個絕對的標準,像是一篇文章或圖片的好壞很難清楚定義出來,不同的人可能也會有不同的觀點或想法。

因此我們很難用類似圍棋的方式去制定出一個標準(如圍棋的勝負),這也造成了在大型語言模型條件下,如果要讓 AI 不斷的自我學習,它會比較難有一個明確的目標去學習,最終可能會學習出我們無法預期的結果。

 


註1:神經網路是模仿大腦神經連結的複雜數學函數,為深度學習演算法的運作核心。

本文轉載自中央研究院《研之有物》,為中研院廣告。

 

採訪撰文|沙珮琦
責任編輯|簡克志
美術設計|蔡宛潔

DEC. 2024

2024年度精選影像

跟著國家地理攝影師回顧全年精采故事

2024年度精選影像

AD

熱門精選

AD

AD

Subscribe
立即訂閱
keyboard_arrow_up

AD

ad970250