不只是下棋！遊戲 AI 如何解決現實世界的難題？

深度強化式學習與遊戲 AI

還記得打敗了人類棋士的 AlphaGo 嗎？為什麼我們要一直教電腦下西洋棋、圍棋，並訓練它們熟悉各式各樣的遊戲？難道是為了追求傳說中的「神之一手」嗎？原來，科學家們努力培養「AI 棋靈王」並不只是為了追求棋藝，更是為了實現更遠大的目標──解決生活中的真實難題。究竟，我們要如何透過遊戲來訓練 AI？這些訓練結果，未來真的能夠運用在現實當中嗎？就讓中央研究院「研之有物」來採訪院內資訊科學研究所的吳廸融助研究員，看看他和團隊平常到底都在跟 AI「玩」什麼花樣。

電腦對上人腦，AI 到底強在哪裡？

2016 年 3 月，電腦圍棋軟體 AlphaGo 與韓國職業九段棋士李世乭展開一系列對弈，五場比賽裡僅僅輸了其中一場，最終以四勝一敗之姿贏下了比賽，不僅宣告著人工智慧終於征服了最艱難的棋類遊戲，也似乎為人類與人工智慧的對決，暫時劃下了一個句點。

AlphaGo 與李世乭第一場對弈的最後局面，這場比賽由 AlphaGo 獲勝（白子），李世乭在尚餘約 28 分鐘時投子認輸。資料來源｜Google DeepMind

不只一般民眾對那次對決印象深刻，當時，吳廸融博士正好在研究室探索圍棋 AI 的相關研究，也為這個突破感到十分振奮。他笑說，自己從小便因動漫《棋靈王》的影響而學習圍棋，直到研究所後，找到一位做棋類 AI 的老師，才得以結合自己興趣，開始研究圍棋 AI。怎知研究到一半，超強的 AlphaGo 就這樣橫空出世，將 AI 帶入了一個全新的紀元。回想當時的感受，吳廸融除了興奮之外，也坦言 Google 所投入的相關計算資源，實在不是一般學校單位可以媲美的。

那麼，為什麼 AlphaGo 能取得如此重大的突破呢？吳廸融博士解釋，其中的關鍵，便在於 AlphaGo 將「深度學習」結合到了原本的圍棋 AI 之中。所謂「深度學習」聽起來雖難，但相關應用在我們的生活中可謂無處不在，在影像類的發展尤為成熟。

比如說，假設今天突然想找一張可愛小狗的照片，我們只需在手機相簿裡搜尋「狗」，手機便能幫我們找出所有含有狗的照片。這簡單的操作背後，其實正是靠著深度學習的幫助，讓電腦判斷單張照片中是狗、是貓、是景色的機率分別是多少，藉由內部的神經網路抓取事物特徵（註1），找出最符合搜尋需求的結果。

而 AlphaGo 在做的事情，便是延伸這樣的概念，只不過是將影像轉換為棋盤類遊戲，我們輸入的資訊不再是貓貓狗狗的照片，而是棋盤的盤面。接著，再讓電腦透過「策略網路」：判斷職業棋手會在該盤面的哪個位置出手；以及「價值網路」：下在該位置的勝率為何，去做出相關決策。

不過，如果只能做到這樣還不夠。吳廸融博士提到，AlphaGo 的第二個特點在於，可以判斷職業棋手下在各個位置的機率，如果機率太低的選擇，就不用特別考慮，如此一來，便不用逐步「窮舉」出所有結果，而能較為深入的分析後續盤面的變化，讓整體判斷更加精準又收斂。

而也是因為 AI 具有這個特性，所以當年 AlphaGo 與李世乭對弈的第四局，李世乭在第 78 手突如其來下出機率較低的選擇，殺得 AI 措手不及，不僅贏得了該次棋局，更被大家稱為「神之一手」。這場敗局，讓 Google 的團隊決心繼續升級，推出了「AlphaGo Zero」的新技術。

AlphaGo 與李世乭對弈的第四局，執白子的李世乭下出關鍵的第 78 手。資料來源｜Google DeepMind

AlphaGo 與李世乭對弈第四局的前 99 手棋局紀錄。圖｜研之有物（資料來源｜Wikipedia）

打敗人類棋手後，AI 還在繼續變強？

「AlphaGo Zero」與「AlphaGo」最大的不同點，在於學習對象的不同。過去，AlphaGo 是在向人類最頂尖的棋士學習，而如今，它本身已經足夠厲害，AlphaGo Zero 便直接跳過了跟人類學習的步驟，而是嘗試自我對弈（Self Play），想像一下：當黑棋是很強的 AlphaGo、白棋也是很強的 AlphaGo，兩邊互相對抗、學習，那訓練出來的 AlphaGo Zero 可就不只是 2 倍的加乘強度，更有可能是 20 倍、100 倍的強度以上。

吳廸融博士補充道，在自我對弈方面，AI 如果從頭自學，反而會比跟人類學還要更精準。Google 的研究團隊曾經想直接用打敗李世乭的 AlphaGo 版本往下進行自我對弈訓練，結果發現，一開始就跟人類下棋的 AI，也容易學習到人類的一些認知誤區，反而是讓 AI 從頭自學時，可以跳脫人類框架，得到更好的解答。

換言之，在棋類 AI 訓練上，人類範本已經沒什麼用武之地了。後來開發出的「Alpha Zero」的邏輯與「AlphaGo Zero」類似，除了圍棋之外，還將學習範圍拓展到了西洋棋和將棋。

AlphaGO 的成功，在於使用了深度學習與強化學習，讓 AI 可以不斷從回饋獎勵中學習。並且在策略上採用更有效率的蒙地卡羅樹搜索法，改善 AI 的判斷能力。圖｜研之有物（資料來源｜吳廸融）

但這還不是終點。DeepMind 後來更開發出了「MuZero」，可以在不給遊戲規則情況下，讓 AI 自己學會圍棋、西洋棋、將棋，還有多款 Atari 主機遊戲的規則。吳廸融博士強調，從 MuZero 就可以看到發展遊戲 AI 的優勢，因為它的訓練不需要跟環境互動，而是另外訓練了一個深度學習的神經網路，用來模擬現實環境，因此，在應用於解決實際問題時，也可以減少許多不必要的耗損。像是我們想要訓練無人機時，與其打造多架無人機去測試、碰撞，倒不如將整個駕駛過程變成演算法，在模擬器中學習、互動與精進。

MuZero 的訓練，已經不需要跟真實環境互動，而是另外訓練了一個深度學習的神經網路，用來模擬現實環境。因此，在應用於解決實際問題時，也可以減少許多不必要的耗損。圖｜Google DeepMind

追求神之一手？棋類 AI 真正想解決的是現實問題

感受到了嗎？同樣是訓練，實體訓練時我們可能會受限於時間、空間、天氣等等環境因素，但這些在遊戲世界中都能被一一解決，甚至可以達到接近無損耗的「0 成本」境界。而這項優勢，也正是吳廸融與團隊之所以持續鑽研圍棋 AI 的原因。吳廸融解釋，他們研究 AI 演算法平台「CGI 圍棋智慧」，並非是想要將圍棋 AI 做到最強，也不是為了追求傳說中的「神之一手」。

"我們是希望，可以藉由圍棋 AI 這個遊戲環境來探索 AI 的各種可能性。"

其實，目前在做遊戲或棋類 AI 的團隊都有著相似的目標，並不完全是為了將遊戲本身玩到頂尖，而是希望可以開發出通用的演算法，可以應用到其他地方，為人類解釋現實中的問題。事實上，有些應用早已出現在我們的生活當中。吳廸融舉例，我們平常愛看的 YouTube，在影片壓縮時就有採用 MuZero 的技術。透過 MuZero 的計算和判斷，不僅可以降低 YouTube 的營運成本，也有機會大幅節省網路流量。

全面升級吧！不斷精進的「CGI 圍棋智慧」

想要解決人類真實的問題，那麼，就得打破一些圍棋 AI 本身的限制。比如說，其中一大限制就在於，會自帶一套「貼目邏輯」，以 AlphaGo 來說，就是固定貼 7.5 目。

這是什麼意思呢？圍棋的規則為黑棋先下，而先下者會有優勢，所以在最後計算時，黑棋就得「貼目」：扣掉一些目數或子數，以求公平。只是，貼目的規則隨著不同國家也有所不同，中國通常會貼 7.5 目，而日韓多貼 6.5 目。但如果一開始就設定好 AI 的貼目規則，那後期想要改變就會非常困難。

為了解決這項難題，吳廸融與研究團隊為「CGI 圍棋智慧」開發出「多標籤價值網路」，可以將各種貼目情形「例如貼 -12.5、1.5、……、27.5」下的勝率通通算出來，這樣的「多任務學習」，除了打破了既有限制，更能協助提升 AI 本身的棋力，如今，多標籤價值網路已經成為圍棋 AI 的常用設定。

吳廸融團隊持續探索遊戲與圍棋AI，希望找到更多人工智慧的可能性。圖｜研之有物

圍棋 AI 自我訓練的另一項限制，在於很容易陷入自身的盲點，想不出更好的下法。那該怎麼解決呢？團隊提出了「超參數自動優化方法」，同時用不同的超參數訓練多個 AlphaGo AI、增加亂度，再隨機挑出幾個互博，留下最強的，再進行下一輪對抗。咦？增加多樣性來提升存活機會，聽起來是不是有點像「物競天擇、適者生存」的味道呢？

圍棋 AI 的另一個挑戰處在於本身的規則較為複雜，重點在於「圍地」，而不只是要在盤面上擁有更多棋子，因此很難在中間輕易確認輸贏。那該如何做呢？可以運用數學統計上的「蒙地卡羅方法」（Monte Carlo method）來解答，先把需要統計的目標劃出來，然後讓電腦隨機且大量地射出飛鏢，最後透過真正中靶的部分，去估算相關數值。

而在「CGI 圍棋智慧」上，研究團隊進一步使用「蒙地卡羅樹搜尋」演算法（Monte Carlo tree search），可以得出來各種盤面的勝率，並藉此去設定不同強度的圍棋 AI。比起「百戰百勝」的超強存在，能夠隨棋士程度調整、可以和棋士互有勝負的圍棋 AI 反而能成為絕佳的圍棋助教。更有趣的是，我們也可以反過來，透過讓棋士跟 AI 對弈，來推測棋士本身的棋力（Elo rating）。

如何讓圍棋 AI 成為適合練習的對手？調整難度的功能非常重要。吳廸融團隊成功發展出四個 CGI 版本，可以讓不同棋力的選手練習。圖｜研之有物（資料來源｜吳廸融）

好還要更好！努力尋找最佳解！

打破了這種種限制，追求之路卻仍未結束。以 AlphaGo 來說，思考策略時主要偏向啟發法（Heuristic）而非精準解答，雖然在對弈時多有勝算，但如果在現實生活中，我們可不希望 AI 會忽然出現錯誤，假如我們在製造晶片時，萬一放錯位置，可能就是千萬以上的損失，正因如此，找出完美解就變得非常重要。

現在，吳廸融與團隊便在尋找「7×7」棋盤範圍內的完美解答（Solving a game），困難度更甚於精通遊戲（Mastering a game）。目前，團隊已經開發出新型在線學習方法，可以挑出 AlphaGo 較為弱勢的部分，直接進行「動態增強」，大幅減少訓練時間，而這些被挑出來的誤區，也可以讓我們更理解 AI，在可解釋性上面獲得新的突破。

至於這個超強系統能在何時真正協助 AI 在各種優秀解答中找出最佳解？還有待團隊繼續鑽研。

內容強大還不夠！能夠解釋更重要

除了以「超參數自動優化方法」來改進 AI 演算法、以在線學習來增加 AI 的可解釋性，吳廸融分享到，團隊的另一大重點在於，將 AI 作為助人學習的工具。怎麼讓 AI 幫助學習呢？可以透過程度控制來輔助人類，也可以串聯 ChatGPT 等語言模型，來解釋、幫助人類理解 AI 下棋策略背後的邏輯。

未來，AI 的應用範圍可能非常廣泛，但如果只是知其然而不知其所以然，容易造成隱患，比如像是軍事國防上，如果一味信任 AI 的防守策略，卻不去理解策略背後的原因，可能就不會發現 AI 的盲點，因而造成後續的損失。吳廸融認為，AI 發展至今已經十分強大，而在下一個階段，真正理解 AI、讀懂機器邏輯將是關鍵，也因此，AI 的「可解釋性」相關研究十分重要。