2020年7月28日 星期二

因果革命的新科學








「相關不等於因果」是正確的,可是有時候被濫用到幾乎成了廢話。有些相關性即使有明確的因果關係,可是仍盲目相信「相關不等於因果」,只會劃地自限、固步自封。

的確有許多相關真的不等於因果關係,例如冰淇淋的銷量和溺斃的人數成正相關──並不是吃了冰淇淋會讓人溺斃,或者溺斃的人會吃冰淇淋(誤),而是天氣變熱時,吃冰淇淋和玩水的人同時變多。如果要用「相關不等於因果」來反駁,也是因為我們清楚了真正的因果關係,而非盲目堅信「相關不等於因果」。

當然,有許多複雜事物的因果關係並非上述那麼簡單明瞭,而是混沌不清。我們要怎麼樣看清楚事物的因果關係?或者退一步問,我們該看清楚事物的因果關係嗎?

美國電腦科學家朱迪亞.珀爾(Judea Pearl)的《因果革命:人工智慧的大未來》(The Book of Why: The New Science of Cause and Effect)就是要來談一場他和許多科學家領導的所謂的「因果革命」,試圖讓讀者理解因果革命的內涵,以及它將如何影響我們的生活及未來。

珀爾是以色列裔美國電腦科學家,因為研發貝氏網路,而獲得有「電腦科學界諾貝爾獎」之稱的圖靈獎(ACM A.M. Turing Award)以及許多重要的獎章,他是美國國家科學院院士,任教於加州大學洛杉磯分校。他的獨子丹尼爾.珀爾(Daniel Pearl,1963-2002)是《華爾街日報》(The Wall Street Journal)的美國記者。2002年,因為丹尼爾是美國人和猶太人,他在巴基斯坦被基地組織和國際伊斯蘭陣線涉嫌的武裝部隊所劫持和殺害。

《因果革命》這本書的原文書名其實是「The Book of Why」,而探討的就是「為什麼」這個問題。我們從小就愛問為什麼,可是之前興盛的「大數據分析」卻指明別管「為什麼」,只要從海量的資料中找到相關性夠好用就好。然而,朱迪亞.珀爾想告訴我們,資料本身一點也不智慧,還得靠人的智慧主觀地探究。據我粗淺的觀察,近年也有愈來愈多研究發現,不問因果關係的「大數據分析」,有時候反而有更糟糕的誤導性。

珀爾指出,統計學始祖法蘭西斯.高爾頓(Sir Francis Galton,1822-1911)與卡爾.皮爾森(Karl Pearson,1857-1936)原本要運用跨世代資料解答他們對於遺傳的疑問,可惜沒有成功,但是他們發展出統計學。「相關不是因果」的觀念影響科學界長期探究「關聯」而不問「因果」。

珀爾研究機器學習時了解,因果學習者至少必須掌握三個層級的認知能力,分別是:(一)觀看與觀察,以探知環境中的規律,觀察A發生了,B是否也會發生;(二)實行,亦即預測刻意改變環境的效果,並選擇適當改變以獲得想要的結果,所以我們在實驗室中,總是要籍由改變變量來看看干預會造成什麼樣的結果;以及(三)想像,假想如果不那樣做,又會怎麼樣。因果階梯有三個層級——「觀察」、「介入」和「反事實」每個層級都具備前一層級缺少的能力。

珀爾等別介紹了遺傳學大師西瓦爾.萊特(Sewall G. Wright,1889-1988)的故事,他於1920年代首先繪製因果圖,假設三種因素可能影響天竺鼠的毛色,分別是發育(d)、傳傳(h)和環境(e),還進行實驗量化這三種因素的相對大小,多年來一直是少數認真看待因果性的科學家。萊特的方法明顯迴異於統計學追求純客觀的無模型方法,而統計學界也出現了允許主觀機率的貝氏統計學(Bayesian statistics)。

1980年代初,珀爾原本認為不確定性是人工智慧(AI)所欠缺的最重要的能力,於是運用機率,開發出處理不確定性推理的貝氏網路(Bayesian network),這是首先讓電腦以「灰階」方式思考的工具,能自動用新的資料來計算條件機率並更新置信度,迄今有許多實際的運用,例如在語音識別、垃圾郵件過濾、油井探勘、氣象預測、醫材審批、電動遊戲評分等等。

珀爾指出,統計學大師費雪(Sir Ronald A. Fisher,1890-1962)提出的隨機對照試驗(random controlled trail,RCT)是統計學對因果推論的重大貢獻,目的是把要探討的變項與可能影響它們的其他變項分開。如何去除這些潛在變項造成的失真或「干擾」,是已經存在超過百年的難題,現在我們在進行研究時仍是最為困擾的問題。但是珀爾認為,科學家直到最近才體認到,解決這問題需要的不是統計學方法,而是因果方法,在數學上發明的「do運算子」,能夠更簡單、準確地決定到底該控制哪些變量,用簡單的方式解決一般干擾問題。

《因果革命》舉了二十世紀「吸菸是否會致癌」的爭議為例,由於無法隨機強迫某些人冒著健康風險吸菸數十年以進行對照(除非活在某極權國家的再改造營中吧),統計學家不只對答案難有共識,連如何理解問題都有能爭執不休。後來美國衛生總署委員會採用一連串非正式指導方針「希爾準則」(Bradford Hill’s criteria),考量了時序性(Temporality)、強度(Strength)、一致性(Consistency)、劑量反應關係(Dose-response relation)、可逆性(Reversibility)、生物合理性(Biological plausibility)、同調性(Coherence)、類比性(Analogy)、特異性(Specificity),終於得出「吸菸會導致癌症」這結論,但這已花費了近十五年時間。珀爾表示,這爭議顯示出認清因果的重要性,如果科學家早就有適合的語言或方法來解答因果問題,得出結論將不再曠日廢時,更多人命將可被捥救。

《因果革命》接著舉了更多案例探討設想反事實登上因果階梯的頂層,利用許多因果圖示範釐清常見爭議的實情。「反事實」最常見的應用是中介分析,中介(或中介變項)是把處理效應傳遞給結果的變項,目的是釐清直接效應和間接效應。舉例來說,英國皇家海軍外科醫生詹姆斯.林德(James Lind,1716-1794)的壞血病研究雖然是史上極早的對照實驗,然而因為不知道其機制,一個世紀之後,英國遠征隊開始探察極地時,這種完全可以預防的疾病仍出乎意料地捲土重來,就是當時尚未發現真正的中介變項(維生素C),因此「柑橘類水果可預防壞血病」的原因沒被搞清楚,於是帶酸味的其他低維生素C的水果,或者煮熟的檸檬汁被試圖用於預防壞血病,可是卻毫無成效。

最後,珀爾相信,無論自由意志真實存在與否,自由意志的幻覺,推想自己的信念、意圖和需求的能力,是讓機器能以人類語言與我們溝通,乃至自己做出道德決策的關鍵。為了讓機器人有自由意志的幻覺,需要讓它們有一個關於世界的因果模型,還需要把自己也當成環境的一部分,考慮自己和環境的因果互動。

《因果革命》儘量用非數學語言來討論「因果革命」,可是這本「科普書」的難度和硬度不是一般的高,而是相當高!雖然這本書在國外的評價很高,可是即使有理工背景,只要是非統計或資訊背景的讀者,讀起來應該會覺得很吃力。

老實說,我也是啃了頗久,有些地方讀了不止一遍,也勉強略懂冰山一角上的皮毛而已。建議相關背景不夠強的讀者,可以先讀其他好書。當然,智識超群(可惜我絕不是)的非相關領域的朋友倒是可以來挑戰一下哦。




本文原刊登於閱讀‧最前線【GENE思書軒】

沒有留言:

張貼留言