圖｜iStock - 國家地理雜誌官方網站｜探索自然、科學與文化的最佳權

圖｜iStock

古倫維說，語言模型就是用數學方式去模擬人類語言的行為。圖｜研之有物

OpenAI 的網站可以親自測試一段話如何被拆解成 Token，我們可以清楚看到圖上關於 LLM 的文字簡介，已經被機器細部拆解，每個 Token 也都賦予了特定 ID 標記。圖｜OpenAI

詞嵌入的示意圖。假設我們輸入 school、ball 或 food，語言模型會根據自己的資料狀態，自動帶出附近的語境。圖｜研之有物（資料來源｜Towards Data Science）

Transformer 的自注意力機制示意圖，可以看到 LLM 如何理解上面和下面的「it」，顏色越深代表注意力權重越重。上面的「it」會疲累，代表動物；下面的「it」很寬，代表街道，LLM 根據上下文關係正確分配了注意力權重。要注意，實際上 LLM 會根據機率來理解 Token 之間的對應關係，所以不一定會呈現這麼整齊的單詞對應關係。圖｜研之有物

Google 最新版的 Infini-Transformer 因為壓縮記憶體的巧妙設計，可以保留整個上下文的歷史，記住全部過程。較舊的 Transformer-XL 雖然記憶力也不錯，但每個段落只能保留一部分。圖｜研之有物（資料來源｜Google）

圖｜iStock

古倫維認為，要對付假新聞，並減輕事實查核人員的負擔。我們可以運用資訊科學和大型語言模型，自動產生帶有人工查核事實的真新聞，讓使用者易於接收。圖｜研之有物

1