如何用數學探討因果關係？先學會處理無限多個平行宇宙吧！

採訪撰文／郭雅欣、簡克志
美術設計／蔡宛潔

因果關係怎麼研究？

在日常生活的經驗裡，我們往往習慣以主觀的角度來認定因果關係的存在，但在數理統計的協助下，因果關係可以擁有科學定義，並且可以驗證。中央研究院「研之有物」專訪院內統計科學研究所黃彥棕研究員，他的主要研究便是以數理統計的方式來探討因果關係（例如生物體的複雜機轉）。有了統計方法，人類也能接近上帝視角，找出因果關係的存在。

中研院統計所研究員黃彥棕，擅長以數理統計的方式來思考因果關係。圖│研之有物

以數理統計驗證因果關係

我們絕大多數人相信「凡事必有因果」這句話，例如今天腹瀉，是因為昨天晚餐吃壞肚子；考試沒考好，是因為書念得不夠。但是仔細想想，造成今天拉肚子的原因，除了昨天的晚餐之外，還有沒有別的可能？影響考試成績的因素，除了書念得夠不夠之外，考試環境、考題難易度也都會影響。

所以，我們究竟該如何確定兩件事有因果關係？有沒有什麼科學方法，可以讓我們帶著十足的把握，說出「X 就是造成 Y 結果的原因」這樣的話語？

中研院統計所研究員黃彥棕，擅長以數理統計的方式來思考因果關係，除此之外他更進一步在數學上探討「X 透過何種機制造成 Y」，也就是所謂的「因果中介效應」。有興趣的讀者，可以參考「研之有物」之前專訪黃彥棕老師的文章〈喝酒臉紅易罹癌？小時候家裡窮會胖？統計學家黃彥棕來解答〉。

回到因果關係，黃彥棕說到：「因果關係是屬於上帝視角。」也就是說，兩件事之間究竟有無因果關係，理論上只有全知者才知道，而我們能做的，是以數理統計的方式，「從人類視角盡可能地逼近上帝視角，來判斷因果關係是否存在。」

何謂因果關係？

為什麼說「因果存在與否只有上帝才知道」？因果關係建立在「反事實」，如果有一個事實是「打疫苗，就不容易感染 COVID-19」，則我們必須驗證是否「不打疫苗，就容易感染 COVID-19」，這就是反事實。有了事實與反事實的比對，我們才能說「打疫苗」與「不易感染 COVID-19」有因果關係。

不過，除非有時光機或平行宇宙，否則我們不可能讓全世界的人打疫苗，並觀察感染情況；然後又讓全世界的人都不打疫苗，並再次觀察染病狀況。只有全知者才能同時觀察這兩個平行宇宙，得知因果關係。黃彥棕說，身處現實世界的我們，只能盡可能地逼近這個結果。

用數學語言來描述因果關係，最被廣泛使用的架構是由美國統計學家 Donald Rubin 提出的反事實結果（counterfactual outcome）或潛在結果（potential outcome）。值得一提的是，過去 Rubin 也曾與 2021 年諾貝爾經濟學獎得主 Joshua Angrist 和 Guido Imbens 共同發表重要論文〈使用工具變量確認因果效應〉。

以下我們就以疫苗和傳染病為例，以反事實架構來說明「X 導致 Y」的群體因果效應。先假設 X 為民眾施打疫苗與否（ 0：不打疫苗，1：打疫苗），而 Y 為得傳染病與否（0：不染病，1：染病），並使用期望值 E 來描述群體平均效應，詳細如下圖。

為了要取得因果關係，我們必須有兩個獨立的平行世界，分別是 X= 1 和 X=0，再去比較這兩個世界中 X 如何導致 Y 的發生。圖│研之有物（資料來源│黃彥棕）

如果我們觀察到 E[Y(X=1)] = 0.1，也就是有打疫苗的人染病機率是 10 %。那麼在反事實因果推論的基礎上，我們必須檢驗 E[Y(X=0)] 等於多少，也就是不打疫苗的染病機率。只要 E[Y(X=1)] ≠ E[Y(X=0)]，就代表 X 和 Y 之間具有因果關係。

然而，實務上打完疫苗的人不可能再回復到沒打疫苗的狀態，因此我們沒有辦法再次對同一群母體樣本做實驗來驗證因果關係，僅能退而求其次，「盡量貼近」因果關係。那麼，要怎麼做呢？

"有反事實的對照，才有因果關係。"

逼近神的因果視角

如果我們把全世界的人分成兩半，其中一半打疫苗、另一半不打疫苗，然後用打疫苗的那一半代表一個宇宙（事實），不打疫苗的代表另一個宇宙（反事實），不就創造出兩個平行宇宙了嗎？

這是一種很直觀的逼近方法，但若要讓一半的人能夠代表一整個宇宙，則有一個重要的前提：這兩個宇宙裡的人是隨機分配的，也就是這兩群人在各個層面都很相似，例如年齡、性別、健康狀況甚至政治傾向等，以專業術語來說就是必須具有可互換性（exchangeability）。藥廠在做疫苗人體實驗時，就必須以非常嚴謹的方式讓受試者盡可能達到隨機分配，才能得到「疫苗是否有效」的科學結果。

不過，在大多數狀況下，我們很難做到隨機分配。舉例來說，臺灣開放施打 COVID-19 疫苗後，截至 2021 年 10 月 29 日為止，有將近 1700 萬人施打第一劑疫苗，但我們不能把這 1700 萬人視為有打疫苗的宇宙，而另一群沒打疫苗的 600 萬人視為沒打疫苗的宇宙，因為打不打疫苗是人民自由選擇的結果，有很多因素會影響個人選擇，例如比較有健康意識，或是比較年輕、不擔心副作用的人，可能就比較傾向打疫苗。

即使統計結果顯示出打疫苗的人，感染 COVID-19 的比例真的比較低，我們也很難分辨是因為打疫苗，還是他們本來就比較年輕？或本來就比較健康？「這是所謂的『觀察型研究』，容易出現因果推論謬誤的原因。」黃彥棕說。

然而，我們可以用數理統計的方式逼近真實的因果效應，例如控制年齡、健康狀況──兩方都取 50-60 歲的年齡層，並且都是沒有心血管疾病的人等。黃彥棕說：「我們依據自己的背景知識，知道有哪些因素會影響隨機性，然後使用統計的方式，把它們抓出來做控制。」

"理論上統計學家可以把所有可能造成偏誤的因子都舉出來，透過一層層地篩選、限縮，最後得出許多個小小的族群，讓隨機性成立。"

之後，透過每一組小小的隨機族群（例如年齡 50-60 歲、沒有心血管疾病、男性、具健康意識……等，統稱為 C），讓 Y 的發生和特定條件 C 之下的 X 群體無關，我們就可以得到逼近兩個平行宇宙的資料（有打疫苗、沒打疫苗），最後再把各族群的結果加權平均回來。就可以貼近上帝視角的因果效應。

以數學語言來說，就是讓條件期望值（E[Y|X=x, C=c)]）的計算透過加權平均等同於反事實結果之期望值（E[Y(X=x)]）的效果。我們沒有時光機，無法透過事實／反事實結果之期望值檢驗全體打疫苗和不打疫苗的因果關係（E[Y(X=1)] ≠ E[Y(X=0)] 嗎？）；但是我們可以透過各種條件的篩選和限縮，去計算每個具備可互換性小群體的條件期望值，最後加權平均回來，檢視打疫苗與得病與否的因果關係（∑_c E[Y|X=1, C=c]*P(C=c) ≠ ∑_c E[Y|X=0, C=c]*P(C=c) 嗎？），這才是實務上的作法。

"問題來了，要怎麼知道我們是否窮舉了所有可能造成偏誤的因子？我們的確不知道，只有上帝知道，這是個假設，而且是個很難驗證的假設。"

實務上，我們不可能同時觀察 X= 1 和 X=0 的世界，只能分別獲得 X 和 Y 的相關性。要如何從相關性去檢視因果關係呢？透過統計學上的篩選和限制，我們如果可以讓 X=1 vs. X=0 的隨機性成立，就可以進一步驗證 X 和 Y 的因果關係。為方便說明，圖片的數學式為簡單條件期望值計算，不考慮加權平均。圖│研之有物（資料來源│黃彥棕）

"「在控制了年齡、性別、健康狀況等條件的情況下，我們希望可以讓隨機性成立。」"

黃彥棕的研究讓因果關係在嚴謹的數學架構下，得以辨證、溝通，而不是只仰賴直觀的思考。因果的存在變得更加科學化，而這也使因果的探討可以進入更深的層次。

被競爭結果和時間擾亂的因果關係

更進階的因果探討層次，是將時間因素考慮進來。黃彥棕以「B 型肝炎」造成「肝癌」，然後導致「死亡」為例，若想探討這三者間的因果關係時，會發生一個問題，那就是有B型肝炎的人，有可能容易因猛爆性肝炎而直接死亡，而這樣的個案在統計上，因為他並沒有得到肝癌，而對「肝癌」這個中介因子造成了「保護」的效果。

「這就是肝癌和死亡這兩個競爭結果造成的影響，而這個競爭關係又會隨著時間推移而改變。肝癌、死亡有時間進程關係，一旦 B 型肝炎患者因猛爆性肝炎死亡了，他就不可能再得肝癌。」更清楚地說，B 型肝炎患者可能還「來不及」得肝癌，就因猛爆性肝炎直接跳到死亡。在界定 B 型肝炎與肝癌之間的因果關係時，這樣的結果會造成偏誤。

黃彥棕將時間因素考慮進來的方法，是把整個時程切割成非常多小段，在每個小段創造一個反事實架構，也就是分析每一位在某小段時間活著的 B 型肝炎患者，把他們分成已得到肝癌及還沒得到肝癌，並考慮這兩組患者在下一個瞬間死亡的可能性，再將這些結果積分起來，得到在隨機過程架構之下的平行宇宙們。

"「我等於是在每一個瞬間都製造多個平行宇宙（無 B 肝／無肝癌、無 B 肝／有肝癌、有 B 肝／無肝癌、有 B 肝／有肝癌）出來，這樣做可以避免前面說的蓋牌效應。但你可以想像我所得到的平行宇宙數量……嗯，就跟《奇異博士》看到的差不多。」"

「我認為我在這領域的部分貢獻，或許是提出了這樣一個會隨著時間推移的反事實架構。」黃彥棕說。他的論文發表出來後不久，也引起了期刊的興趣，邀請了相關領域的許多專家，探討他所提出的因果模型。

研究因果的動機

談起對因果關係研究的動機，黃彥棕說，以前在醫學系實習時，會看到開同樣的藥給病人，有些病人會好，有些人不會。這種「不確定性」開始讓他覺得好奇。他說：「我可以接受事情就是會有隨機性，但還是很想搞清楚這樣的不確定性是怎麼來的。」

最近，黃彥棕也發現許多人會把「預測」和「因果」搞混，尤其是現在人工智慧（AI）發展出的預測模型表現愈來愈好，有些做 AI 預測模型的人，會誤以為能夠用預測表現良好的模型，來得到因果關係。

舉例來說，一個模型可以透過一個人是否抽菸，來預測他得肺癌的機率，也可以透過一個人身上是否攜帶著打火機，來預測肺癌機率。「但我們知道抽菸與肺癌有因果關係，而帶打火機與否應該是不會造成任何增加肺癌風險的生物效應的。」黃彥棕說。

「抽菸」與「帶打火機」都能成為 AI 模型預測肺癌時採用的因子，但顯然並非代表它們與肺癌都有因果關係。黃彥棕接著說：「雖然預測未必需要因果關係，但是，決策就需要因果關係的支持。若要降低肺癌風險，政府較合理的做法是下令禁菸，而不是禁打火機。但要看到因果是比較困難的，它先天上的限制使它難以驗證，這個挑戰也是因果推論的迷人之處。」

最後，黃彥棕切身感受到因果關係的重要性，尤其是藥廠研發藥物或是臨床醫學等領域的應用。而他在反事實架構上考慮時間因素的突破，讓因果推論的知識又更往前推進。反事實因果推論的數學模型，讓人類能夠有深刻的思考，去檢視深藏在直觀表面之下的因果性與相關性。