鍾庭耀的統計學

(原文寫於柬埔寨回港途中。爛尾至今,又見鍾庭耀博士捲入政治風波,續寫如下。原題《Statistics,多少惡行假汝之名而行?(二)》,而今借此文章向鍾致敬。)

當年鍾庭耀博士在他大學的辦公室內,侃侃而談了兩個多小時,我大概只有聽的份兒。那時候走出來的感覺是吁了一口氣。心想各方對這學者一向譽多毁少,卻猜不到他會這麼囉嗦。今天想來,他大概是有點知音難求的感慨。難得有學生如我對象牙塔以外的統計學有興趣,自然傾囊相授。雖然我肯定他連我的名字也忘了,但我還是欠他這一個人情。

現在我再把自己的意見綜合起來,在飛機上寫上四個小時來博各位看兩分鐘,也有一點姜太公釣魚的滄涼了。

  • 九成牙醫選用某牌子牙膏/牙刷/牙綫/牙籤
  • 八成被訪者贊成全港禁煙
  • 候選人認為豬也能勝任特首一職
  • 六成市民不滿意政府表現

有償採訪 (Paid Survey):牙醫跟牙刷

論據顯而易見,是統計本身跟受訪對象有直接利益衝突。當然不能一概說有償採訪便不可靠。就如小組訪問(focus group)、長時間觀察(數日至數年計)或者專業人士意見(e.g. 腦外科醫生)等,適度的金錢或其他形式的補貼可以令受訪對象更能代表一般普羅大眾,而不偏向於一小撮熱衷於該統計項目的人。反之,如果將一箱雜牌牙刷跟一箱某牌子牙刷,放在牙醫面前讓他選擇為「試用品」,然後宣稱「九成」牙醫都選用其牌子--這不只是直接利害關係,更犯了答案導向的錯誤。下文再續。

不完整/不正確抽樣 (Incomplete/Incorrect sampling):反對吸煙

如果聽到「高達八成」(1)被訪者贊成一件事情,你可能會想這個統計結果也頗有說服力。但假如八成被訪者是非吸煙人士,而同一批人又贊成全港禁煙的話,結果仍只是「一個立場、各自表述」。統計與否,並無新數據去支持或反對全港禁煙。

又,假設明天所有香港人要回答一條問題:「你贊成李嘉誠先生拿七百萬元出來,分給七百萬個香港人嗎?」如果有「高達八成」受訪者贊成的話,我們是否要立法監管李嘉誠的資產?我們大部份人也許會覺得可笑,因為毫無理據地將某人賺回來的錢強行收起,然後分給別人的話,那差不多是共產主義社會的表現。可是當下仍堅守資本主義的香港,卻仍然有「高達八成」人贊成向富人大幅徵稅,然後補助窮人。

(這裡也有少數服從多數的吊詭--就是民主投票卻讓大多數人搾取了一少撮人的自由或利益。此觀點暫且按下不表。)

混合問題 (Composite questions):候選人不認為豬不能勝任特首一職

問:「像你豬一樣蠢的人,如何能夠勝任特首一職?」
答一:「我是龍年出世的(2)……」這代表你真的像豬一樣蠢。

答二:「我深信、我確信、我自信我有能力勝任……」這代表你未必像豬一樣蠢,但你既然已經回答,便算是默認了提問者的假設。

答三:「我不能回答你的提問,因為你的問題混合了我不認同的假設。真理越辯越明,何需動輒拿文字遊戲出來嘩眾取寵?」這代表你明白邏輯學跟統計學上的謬誤。但當面識破別人的詭計,沒留有下餘地,亦不算是當特首的好材料。只好怪我不是屬龍。

答案誤導(Biased answers): 政府表現與港人認知

有做過類似的問卷調查嗎?

你覺得近三個月的政府表現如何?

  • 完全不能接受
  • 非常差
  • 頗差
  • 一般
  • 頗好
  • 非常好

答案裡正、負面的比例明顯地不對稱。這例子小學生也懂。再看一下城中的焦點問題:

你會稱自己為 (訪問員讀出首四個答案)

  • 香港人
  • 中國人
  • 香港的中國人
  • 中國的香港人
  • 其他 (請列明)
  • 唔知/難講
  • 拒絕回答

http://hkupop.hku.hk/chinese/popexpress/qre/que_18/que_18_q02.html

郝鐵川說不合邏輯,你說是不是?有趣的是,鍾庭耀博士說其實一早認同郝鐵川的說法。

鍾又稱,由於「香港人」、「中國人」、「香港的中國人」及「中國的香港人」四者或有意識重疊,民研後來改良,利用0至10分的評分準則,測試市民對「香港人」及「中國人」的認同程度。 (擇自明報,2011年12月30日)

如果所有有心人都親自走上香港大學民意研究計劃的網站,找《巿民的身分認同感》的調查來一看的話,便不會有這麼多風波。鍾明知答案或有重疊,經改良後仍保留原有問題,其箇中原因大概是為了保持研究連貫。其實早於1997年已經設有此問題,而2008年奧運其間選擇「中國人」的比例升至38.6%歷史新高。為甚麼那時候沒有人走出來罵鍾庭耀博士親中媚共呢?

很多人說鍾庭耀的民意調查常有他本人的政治取態。但更多的情況是,當民意調查的結果跟批評鍾庭耀的人的政治取態不同時,他們才會走出來罵。這叫做輸打贏要。

See also:(1): 「高達八成」已經被濫用而變成了網絡上的潮語。
(2): 當記者問到有人把他跟梁振英的特首選舉看成「豬狼之戰」時,唐英年如此回應。

Statistics,多少惡行假汝之名而行?(一) 

希格斯玻色子 vs 六合彩頭獎

大眾媒體常常大幅報道尋找「上帝粒子」——希格斯玻色子(Higgs boson)——的故事。也許是因為歐洲粒子物理研究所(CERN)花費之鉅,也許是因為「上帝」一詞符合某些報章一貫的渲染手法。 事實上當中牽涉的Standard Model (of particle physics)已大多被驗證,不及String Theory 或者 M-theory 般大膽精彩、引人入勝。這裡先放下物理不管,日後再談。

明報這篇報道我笑了一整個早上,以fair use 引用整篇如下:

「發現」嚴格定義 如擲公字20次相同

何謂「發現」,在粒子物理學界其實有一套獨特的定義,那就是「肯定程度」達到統計學上5個標準差(standard deviations)的極嚴格程度(另一個說法,達到5級sigma程度的肯定)。聽起來雖然艱澀,但可以換一個常人較易理解的說法﹕肯定程度達到5個 標準差,大致相當於連續擲20次公字,都擲出同一面向上。這意味觀察結果,極不可能是運氣使然。若達不到這水平,便只能稱作「觀察」,不能稱作「發現」。 消息指目前科學家在尋找上帝粒子上所得出的觀察,達到「3個標準差」水平,相當於連續8次擲公字擲出同一面。 (來源:http://news.mingpao.com/20111213/tba2.htm

粒子物理學界有甚麼獨特的定義我不清楚,但該報的定義則令人大開眼界。統計學上,one-tailed test 要達到5 個標準差或以上的可信程度(或置信區間、confidence interval),那大概是說實驗結果要有99.99997%的確認機率。而「連續擲20次公字,都擲出同一面向上」的出現機率,是0.00019%。(1)

99.99997%跟0.00019%相差可不謂不大。嘿,以為一味誇張就可以愚惑大眾嗎?

再想多一層,該報應該沒人會想得到擲毫的比喻(又,「連續擲毫20次」 比「連續擲20次公字」順眼多了)。Google了一下,找到了以下報道。Benefit of doubt--該報是否把報道搬字過紙,有待讀者決定。

(粗體由我所加)

Discovery has a technical definition in the world of physics: a discovery must have a certainty of 5-sigma. That means that the chances of being wrong are about the same as flipping a coin and having it come up heads 20 times in a row – less than one in a million. In other words, discoveries must have a fantastically low probability of being wrong. The results to be presented on Dec. 13 are not yet at that level of certainty, but perhaps as early as next year, CERN expects to get there.  (Source: http://www.ksl.com/?sid=18426801&nid=1012)

差之毫釐,謬之千里也。

同情地了解,該報可能只是漏了「誤差」二字。但其實「同一面向上」跟「come up heads」分別也大。「同一面向上」,可公可字也。連續二十個公或字機會,是連續二十個公的一倍。就英文版本而言,意譯應為「五個標準差的嚴格程度,其誤差大概為連續擲毫20次都出現公字向上的機率」 。(2)

Reuters 的比喻其實更加生動:

In the jargon, this level is described as 5 sigma. […] As one scientist explained, that level of accuracy would equate to the 17th-century discoverer of gravity, Isaac Newton, sitting under his apple tree and a million apples one after another falling on his head without one missing. (Source: http://www.reuters.com/article/2011/12/13/us-science-higgs-brick-idUSTRE7BB27K20111213)

於我來看,其實五個標準差的嚴格程度也不算是甚麼。你中不了六合彩頭獎的可信程度,還要比他朝一日「發現」希格斯玻色子時的可信程度高。(3)

 

(1): (1/2 ^ 20) x 2 x 100% = 0.00019%

(2): 再說,最接近的誤差實為二十二次公字向上,(1/2 ^ 22) x 100% = 0.000023% 。但數據上之錯漏為訛誤,邏輯上的錯漏為謬誤。承李天命博士之習慣,指出謬誤為重,糾正訛誤次之。更何況,這裡用的全是大學一年級的統計學。旨在演示,未有深究粒子物理學的數理。

(3): 1-[1/C(49,6)] = 99.9999928%--這是你中不了六合彩頭獎的機率--大概5.26個標準差。

Statistics,多少惡行假汝之名而行?(一)

試想想,你一個星期會收到多少個電話訪問?又想想,有多少個調查的結果,最後沒有被有既定立場的壓力團體騎劫?

統計之所以吊詭,是因為手頭上的資料夠多的話,你可以用相同的數據去支持或者反對同一個議題。再低一個水平的,就將數據胡亂解讀,普羅大眾生吞活剥,情況慘不忍睹。下列的例子雖然誇張,但其演示出的謬誤其實每日都可以碰見。

相關不蘊涵因果(Correlation does not imply causation)是統計學裡一個重要課題。先引一個來自xkcd的笑話:

Boy: “I used to think correlation implied causation.Then I took statistics class. Now I don’t.”
Girl: “Sounds like the class helped.”
Boy: “Well. Maybe.”

當然這是否定因果關係到極致而來開的玩笑。但要是在報章雜誌看到以下的例子,你又看得透箇中吊詭之處嗎?

  • 海盜數目隨時間下降而同期全球平均溫度隨時間上升。
  • 美國加州的肺結核患者比例比其他州份為高。
  • 長期吸煙人士患柏金遜病的比例較非吸煙人士為低。
  • 腳掌較大的人的智商比較高。

巧合(Coincidence):海盜跟全球暖化

海盜的數目自十五世紀 大航海時代以來,而全球平均溫度不斷上升。更可笑的是,近年來配備重型槍械的「海盜」又有蓬勃起來的跡象,而剛巧亦有研究發現全球溫度正開始穩定甚至回落。好事之徒便把這數百年的海盜數目跟全球溫度放到圖表上,然後宣稱海盜數目的減少是全球暖化的主因之一。圖表上的數據趨向分明,要是戈爾把它放到《絕望真相》裡的話,也許連菲爾茲獎也是他的囊中物。這因果甚至是關聯關係當然是諷刺的成份居多,但普及科學或者大眾傳媒去報道兩件事情的因果關係時,你又如何去分辨其中巧合與否呢?

因果互換(Reverse causation):肺結核跟加州

假設有人跟你說美國某個州份的肺結核病人比例偏高的話,你大概會想像這州份空氣混濁、人煙稠密,總會有點不妥。但如果跟你說那個州份是加州呢?加州四季陽光明媚,你大概會一頭霧水,以為某種不知名病毒在加州散播。這歸咎於我們假設因為加州空氣污濁,所以導致肺結核病;而沒有想起因為那些人患了肺結核,所以才走來吸加州的新鮮空氣。

推論缺環(Missing deduction):吸煙跟柏金遜病

要是明天醫學期刊發表一篇「煙民比非煙民更少患有柏金遜病」,各大煙草商恐怕要預備借題發揮、大造文章。可是箇中原因卻是因為煙民比非煙民早歸天國,所以不能等到患柏金遜病的正常年紀。諸如此類,因果關係確實存在,卻欠缺中間的連繫,便變成似是而非的結論。而更嚴重的問題是,採用的統計數據極可能條理分明,全沒有挑剔的地方。要看穿其中缺漏,非要引用專業的知識不可。

成因不全(Incomplete cause):腳掌跟智商

如果有些「科學家」發現腳掌大的人比較聰明(「科學」點的說法是腳掌長度跟智商成正比例),哪怕某些「社會學家」又會走出來大發謬論,然後到極右激進分子宣稱某些人種比另一些人種優越,繼而跟「人類學家」在電視上罵戰,好不熱鬧。到頭來,這個研究其實只是涵蓋一歲至三歲的小童,而那統計原來只是得出「年紀較大的小孩比較聰明」。不論故意與否,若果隱去了最基礎的因素,其結論可以是完全正確,卻也毫無意義可言。

很可笑,是嘛?可是要伸手向大學或政府拿經費的「科學家」,或者要爭取銷量或收視而去嘩眾取寵的「傳媒」,可不認為這樣可笑。

另文再續。