Statistics,多少惡行假汝之名而行?(一)

試想想,你一個星期會收到多少個電話訪問?又想想,有多少個調查的結果,最後沒有被有既定立場的壓力團體騎劫?

統計之所以吊詭,是因為手頭上的資料夠多的話,你可以用相同的數據去支持或者反對同一個議題。再低一個水平的,就將數據胡亂解讀,普羅大眾生吞活剥,情況慘不忍睹。下列的例子雖然誇張,但其演示出的謬誤其實每日都可以碰見。

相關不蘊涵因果(Correlation does not imply causation)是統計學裡一個重要課題。先引一個來自xkcd的笑話:

Boy: “I used to think correlation implied causation.Then I took statistics class. Now I don’t.”
Girl: “Sounds like the class helped.”
Boy: “Well. Maybe.”

當然這是否定因果關係到極致而來開的玩笑。但要是在報章雜誌看到以下的例子,你又看得透箇中吊詭之處嗎?

  • 海盜數目隨時間下降而同期全球平均溫度隨時間上升。
  • 美國加州的肺結核患者比例比其他州份為高。
  • 長期吸煙人士患柏金遜病的比例較非吸煙人士為低。
  • 腳掌較大的人的智商比較高。

巧合(Coincidence):海盜跟全球暖化

海盜的數目自十五世紀 大航海時代以來,而全球平均溫度不斷上升。更可笑的是,近年來配備重型槍械的「海盜」又有蓬勃起來的跡象,而剛巧亦有研究發現全球溫度正開始穩定甚至回落。好事之徒便把這數百年的海盜數目跟全球溫度放到圖表上,然後宣稱海盜數目的減少是全球暖化的主因之一。圖表上的數據趨向分明,要是戈爾把它放到《絕望真相》裡的話,也許連菲爾茲獎也是他的囊中物。這因果甚至是關聯關係當然是諷刺的成份居多,但普及科學或者大眾傳媒去報道兩件事情的因果關係時,你又如何去分辨其中巧合與否呢?

因果互換(Reverse causation):肺結核跟加州

假設有人跟你說美國某個州份的肺結核病人比例偏高的話,你大概會想像這州份空氣混濁、人煙稠密,總會有點不妥。但如果跟你說那個州份是加州呢?加州四季陽光明媚,你大概會一頭霧水,以為某種不知名病毒在加州散播。這歸咎於我們假設因為加州空氣污濁,所以導致肺結核病;而沒有想起因為那些人患了肺結核,所以才走來吸加州的新鮮空氣。

推論缺環(Missing deduction):吸煙跟柏金遜病

要是明天醫學期刊發表一篇「煙民比非煙民更少患有柏金遜病」,各大煙草商恐怕要預備借題發揮、大造文章。可是箇中原因卻是因為煙民比非煙民早歸天國,所以不能等到患柏金遜病的正常年紀。諸如此類,因果關係確實存在,卻欠缺中間的連繫,便變成似是而非的結論。而更嚴重的問題是,採用的統計數據極可能條理分明,全沒有挑剔的地方。要看穿其中缺漏,非要引用專業的知識不可。

成因不全(Incomplete cause):腳掌跟智商

如果有些「科學家」發現腳掌大的人比較聰明(「科學」點的說法是腳掌長度跟智商成正比例),哪怕某些「社會學家」又會走出來大發謬論,然後到極右激進分子宣稱某些人種比另一些人種優越,繼而跟「人類學家」在電視上罵戰,好不熱鬧。到頭來,這個研究其實只是涵蓋一歲至三歲的小童,而那統計原來只是得出「年紀較大的小孩比較聰明」。不論故意與否,若果隱去了最基礎的因素,其結論可以是完全正確,卻也毫無意義可言。

很可笑,是嘛?可是要伸手向大學或政府拿經費的「科學家」,或者要爭取銷量或收視而去嘩眾取寵的「傳媒」,可不認為這樣可笑。

另文再續。