2013年12月9日 星期一

精準預測的訊號與雜訊

精準預測:如何從巨量雜訊中,看出重要的訊息?

The Signal and the Noise: Why So Many Predictions Fail—but Some Don’t


《精準預測:如何從巨量雜訊中,看出重要的訊息?》The Signal and the Noise: Why So Many Predictions Fail—but Some Don’t)是一本非常值得期待的好書,Amazon.com就把《精準預測》評選為2012年最佳非文字書籍第一名!這不意外,因為Amazon.com就是精準預測顧客品味而稱霸零售業的XD 《精準預測》長居《紐約時報》(The New York Times)和Amazon.com的暢銷排行榜。

以一本談統計和預測的書而言,《精準預測》暢銷得異常。可是讀了《精準預測》之後,就完全不意外了,因為《精準預測》真的是本很好看的書!雖然是處女作,不過席佛卻能把統計預測這看似乏味的事,解說成是世界上最有趣的玩意兒之一!他對統計預測在經濟學、政治學、氣候學、地震學、流行病學、電腦科技、棒球、德州撲克、體育賭博等等領域,都有獨到和精闢的見解,讀這本《精準預測》是一趟樂趣無窮的知性之旅!

討論大數據的書開始變多,所以有了大數據,我們對這個世界的各方面,就能做出更好的預測嗎?各行各業和各學門,是否都要擁抱大數據呢?《大數據》Big Data: A Revolution That Will Transform How We Live, Work, and Think)告訴我們,在大數據時代,可以不必在乎因果的問題,還有不擔心雜訊(請參見〈快準狠的大數據(Big Data)〉)。

可是預測天才奈特.席佛(Nate Silver)卻在《精準預測》指出,其實關鍵還是人的解讀,不是純粹的數字而已。而最難預測之處在於,我們要懂得分辨出哪些是無意義的雜訊,哪些才是關鍵的訊號。如果誤把雜訊當訊號,做出來的預測,不管用的數據有多龐大,都不會準確,而且嚴重的謬誤與損失還會迎面而來!數據導向的預測會成功也會失誤,數據並非多就是美,要求更多數據之際,人更應該自我要求模型的正確。

席佛是美國當代知名的統計與預測鬼才。據說他從小就對數字與思考展現興趣與天分,六歲便開始預測棒球賽事。他進入芝加哥大學主修經濟學,並在大三前往倫敦政經學院研修一年。大學畢業後,進入安侯建業事務所(KPMG)擔任顧問。在安侯建業雖然他有一份穩定高薪的工作,可是卻不是他真正想要的。

席佛利用工作之餘,偷偷研發出一套創新的棒球賽事預測系統PECOTA,因為準確率不賴,Baseball Prospectus於2003年向他收購。席佛也將他統計與預測的天賦應用在玩德州撲克撈錢,後來玩到無心正業,乾脆辭職當起賭徒,至到那些遊走在法律邊緣的德州撲克網路被美國國會新立的法搞到關門大吉為止。

他在2008年美國總統大選之前成立了「五三八」網站(FiveThirtyEight.com,五三八是美國總統大選的選舉人票總數),發表他的選情預測,獲得廣泛注意。他在「五三八」網站公布預測,成功預測歐巴馬勝選,而且是在50州的個別選舉結果中,49州預測正確,35名參議員選舉更完全命中。2009年《時代雜誌》(Time)並將他列入「世界最有影響力的百大名人」。

「五三八」網站在2010年由《紐約時報》經營至今年中轉至ESPN。2012年的總統大選,他再度成功預測歐巴馬勝選,並且50州全部命中。許多人,包括我自己,對於他的統計模型與精準預測的技術都非常折服與好奇。很讚的是,他在《精準預測》公開預測祕訣,以及他對各領域預測的研究與思考。

《精準預測》的中文書名雖然叫作「精準預測」,可是席佛在《精準預測》中,也花了相同的篇幅在討論,如何「不精準預測」。其實,其原文書名The Signal and the Noise更有意思,因為要精準預測,辨認出雜訊恐怕也更為重要。席佛在《精準預測》也不試圖誇大他預測的能力,而且很老實地說明他的各種極限。

席佛在《精準預測》中不斷提醒預測者:

一、預設立場或過度自信,對預測來說,是非常可怕的事;
二、預測不是在追求是與非,而是估算事情發展的「機率」。有精準的機率,才能做出有利的決策;
三、做預測時,最怕一看見「有相關」就解釋成「因果關係」(冰淇淋 vs. 森林大火);
四、預測時不能忽略「誤差」,並要勇於承認有「不確定性」 不然你會過度解釋,變成不精準的預測;
五、根據預測出來的機率,做了最有利的選擇,即使最後結果不好,仍然是好預測;
六、在很多情境中,不是一定要追求終極完美的預測,只要預測比競爭對手好,你就贏了;
七、當大家不免被雜訊迷惑時,問問自己,你有什麼法寶,能讓自己更接近真相?跟著法寶走,不要跟著群眾走;
八、有新的重大資訊進來時,能保持客觀,隨時更新的預測,才有可能是精準的預測。

席佛在《精準預測》第一章就指出,錯誤的模型,就會導致錯誤到離譜的預測,並批判經濟學家和信評機構建構的模型有多離譜。他在第二章指出,最常出錯的就是過度自信、被稱為「刺蝟」型的預測者,他們很會歸納、喜歡大原則、很有膽識,他們把預測當作嘴砲,模糊了追求精準預測的動機。刺蝟的典型代表就是名嘴!而相對的,是能包容不確定性、複雜局面和異議的「狐狸」。

棒球迷席佛在《精準預測》中陳述了他如何建立棒球預測系統。棒球界在《魔球:一個勇敢面對自己,逆轉勝的真實故事》Moneyball: The Art of Winning an Unfair Game)這本影響力深遠的暢銷書推出後,已有很大的改變,似乎統計預測已勝過傳統的球探。不過儘管席佛本人也在玩棒球的統計預測,他卻也告訴讀者,統計預測並非萬靈丹,而球探還是有其價值,事實上《魔球》為主角的奧克蘭運動家隊(Oakland Athletics)也增加了球探的預算。

接著《精準預測》花了一章來探討在這廿卅年預測能力有很大進步的氣象預報。儘管有混沌原理的蝴蝶效應,可是美國國家氣象局經過長年來的努力,所取得的氣象資料以及他們的預測,準確率已經大有進展。過去25年內氣象預報的準確率已提高了350%!然而,為何大家仍覺得氣象預報不準?這是因為美國商業氣象頻道,為了顧客服務的經濟動機,有時會在資料的呈現上做些操弄。而且,氣象預報很難呈現出 「不確定性」,有人認為誠實展現出預測中的不確定或者誤差,也會有損預報的權威感,而一般民眾也不喜愛氣象預報呈現的不確定性,台灣政客和媒體也愛馬後砲地在颱風和豪雨過後攻擊氣候預報。

相對的,他也花了一章介紹地震預測的頻頻失誤。失誤頻頻的還不僅是地震預測,還有經濟學家的預測能力,以及華爾街投機客試圖投敗市場的失敗,在這些領域,預測能力還停留在二戰時期。台灣經建會主委在頻頻下修經濟預測後,居然還指說「沒考第1名,腿就要被打斷嗎?」,務虛學問遇上務實民生,可是「做爺們怎會在乎 ?」。

除了經濟學,他還用流感疫情來說明正確模型的重要。不過《精準預測》要探討的,當然是要如何精準預測,所以他在後半部花了不少篇幅在不同的領域探討貝氏定理(Bayes' theorem)的實際應用及其哲學,貝氏定理告訴我們該如何來待機率這玩意兒,也告訴我們對世界愈有真實的瞭解才能讓我們更精準地預測。

在德州撲克賭局、股市、氣候變遷、恐怖主義的例子中,席佛告訴我們,如何用貝氏定理來看待這世界。關於氣候變遷,席佛用他的預測專才,告訴我們人類排放的二氧化碳確實是造成全球暖化的主因,並且為何過去十年卻的平均氣溫卻不再增加。同樣有趣的,是他分析電腦對西洋棋手的比賽,以及他當生計的德州撲克賭博。

《精準預測》真的是不容錯過的好書,能改變你對這世界的一些成見,學會從不同學科採納意見,不管意見來自啥政治立場,不要過於專注在自己專業上,也別總是對「外人」的意見持懷疑態度;如果不確定原來的方法有用,就去找出新方法,別堅持用同一套方法解決問題;有時候儘管不樂意,也要願意承認自己的錯誤,並承擔責任,別總是怪運氣不好;包容複雜的狀況,承認有些基本問題很難或無法預測,切務一味強迫試圖從雜訊中尋找出訊號;該用機率表達預測,就別妄下肯定的結論;實際的觀察,有時候比偉大的理論還重要!

沒有留言:

張貼留言