輸了不要怪民調——論統計、博弈及其他

立法會選舉民意調查跟實際投票結果,落差頗為顯著。朱凱迪、鄺俊宇成為票王,民調預測不到;也有以為自己穩贏連任的議員,卻差幾百票輸給了初試啼聲的新人。

民調有誤差,所以選前有人批評民調不可信、有人則叫做民調的人不要「書生誤國」。二十年來,鍾庭耀被左中右派都罵過了,還是繼續堅守統計學這個學術堡壘,不得不敬佩他的魄力。至於「當民意調查的結果跟批評鍾庭耀的人的政治取態不同時,他們才會走出來罵。這叫做輸打贏要。」這句話寫於四年前,至今仍然適用。

著名美國政治民調網FiveThirtyEight於2008年,準確預測所有國會參議員選舉的結果而為熟悉,而總統大選亦成功預測印第安纳州以外的所有州份的選舉人票。2012年,亦再次成功預測所有選舉人票。但來到2016年總統選舉共和黨初選,開始時卻得出特朗普只有2%獲得提名參選的機會;民主黨方面,希拉莉在密芝根州勝出的機會超過99%,但最後桑德斯卻比希拉多出僅1.4%選票。後來FiveThirtyEight的創辦人Nate Silver更說,這是美國初選民調史上最大的落差。

由此可見,民調一直應作參考用途。而Nate Silver亦有說過,統計學上的「可推翻性」(falsifiability),是實證科學裡不可或缺的一部份。

至於要解釋香港民調的誤差,先要了解社會心理學上的「自我應驗預言」(Self-fulfilling Prophecy)。自我應驗預言所說的,就是預言的出現,會影響預言裡的所提及的內容,使之變成真實或正確。譬如說,如果一個風水師跟你預言,你下星期將會有煩惱。當你一直所想下星期會有甚麼煩惱時,這預言本身便成為了你的「煩惱」,也令風水師的預言成真。

並不是所有預測都會影響結果。天文台預測明天將會下雨,這預測本身並不會影響明天下雨的機率。而「自我應驗預言」另一個極端,則是「自我推翻預言」(Self-defeating Prophecy)。自我推翻預言的出現,會讓原來真的東西變假、或者正確的事情變為錯誤。

香港的選舉制度、加上民意調查,便容易孕育這種情況。於單議席單票制或者多議席多票則的選舉制度下,選民並無動機去投票支持於落選邊緣,但又跟原來的選擇相近的候選人。比例代表制(或更切合現況的多議席單票制)下,選民則有意欲去與其他理念相近的人,去「配票」讓最多理念相近的候選人當選。而選舉期間最具參考性的,便是民意調查。

如是說來,民意調查可以算是一種自我推翻預言——民調中越大機會當選的候選人,其支持者便越大誘因,去轉而選取民調中支持度較低的候選人。所以那些在象牙塔裡,奉民調為真理以去發動甚麼配票計劃的人,固然不懂選舉運作;那些說某某吸票能力太強,導致另人候選人落選的說法,也未免把「理念相近」看得太過二元分立、一廂情願。

撇除以上種種,在現行制度下,選民把選票投給落選邊緣,卻反成票王票后的例子,仍是會繼續存在,問題只在於效率的高低。這是博弈理論的實證例子。

公民黨比例代表制下寶貴的一課

這次不談政治,只談統計。

1.每屆立法會選舉,靠最大餘額當選的議員數目:

  • 1998年:五位
  • 2000年:六位
  • 2004年:六位(其中一位排列第三)
  • 2008年:三位
  • 2012年:零位

2.用現行的「黑爾數額」計算餘額,陳淑莊獲得23,205票。假設用「特羅普數額」計算餘額,陳淑莊將獲得29,125票,會在平行時空裡,比王國興多出1,789票而當選。

3.用現行的「黑爾數額」計算餘額,余若薇獲得16,784票。假設用「特羅普數額」計算餘額,余若薇將獲得22,504票,比奪得最後一席的梁志祥仍要少11,273票。

4.民建聯地區直選九張名單全部當選。

如此看來,比例代表制今屆名存實亡,幾等同於多議席單票制。當然,我們看到合組名單而不夠票令排第二當選的例子(如陳淑莊)、也有分拆名單卻雙雙落選的例子(如李永達/陳樹英),故此不能就此一鎚定音。但挾著國民教育、一簽多行、梁振英的弱勢政府等勢頭,卻因為建制派懂得遊戲規則,而令個別泛民候選人變成贏氣勢輸議席的罪人,可不是大家選舉前所預期的。

See also:
從比例代表制到立法會政治騷

畸型社會裡的M型社會

之前已經演示過有關統計的謬誤,近日又有浸會大學傳理學院懷疑以未完成的民意調查誤導市民。事件還未有定論,但卻帶出一個很重要的--嗯,套用唐英年的話--核心價值。

謬誤可能是因為無意弄錯基本邏輯;也有時是手民之誤、有時是不知者不罪。但有一種情況,就是惡意扭曲統計結果去遷就自己的論點。把弄數字遊戲,視普羅大眾為愚民看待者,比前者禍害更大。

每當提起M型社會,後續往往接著一句「由趨勢大師大前研一的《M型社會:中產階級消失的危機與商機》一書帶出……」。M型社會的論調在歐美並不盛行,但在中港台日向成為政客、報章的cliché。先不管不甚麼是「趨勢大師」、也不管大前研一的其他論述--今天我們主要要研究的是:M型社會究竟是否存在?

簡單來說,M型社會就是中產階層越來越少、而非常富裕與非常貧窮的人數則增多。在圖表中看來就像一個英文字母「M」。這一點,中學生也看得懂。但直覺有異,因為社會學的統計數字裡,M型圖表極為罕見,而最常見的應是正態分佈

一如以往,我找來了最原本的數據來確認一下。大部份關於M型社會的研究,都是建基於日本的勞動人口於1992年跟2002年的收入對照(《M型社會:中產階級消失的危機與商機》中譯本第七十頁)。1992年確實有更多的人更貧窮,但這是普遍的民生問題,跟M型社會無關。M型社會是指年收入950萬日圓至1000日圓的那個凹位。讀者們再看清楚點。由0到999萬日圓的每項數據的間隔為50萬日圓(1),但1000到1099萬日圓的間隔是100萬日圓,1200-1499萬日圓的間隔是300萬日圓,1500-1999是500萬日圓。發生甚麼事了?

間隔愈大,所包含的潛在人數愈多。不同單位不能比較,也是中學生也能明白的道理。沒有更精確的數據在手,我不能說日本沒有出現M型社會的情況。但照一般常理的把1000萬日圓以上的數據平分(例如把1000到1099萬日圓分成兩個參考數據,1000-1049跟1050-1099的人數平分為二),我們得到的,恰好是正態分佈。不是最科學的驗證方法,但起碼是蘋果跟蘋果的比較。當然,要是有政府干預,統計結果還是有可能出現M型分佈的。最低工資、甚至異想天開的最高工資,都會影響圖表的分佈。這是市場運作的例外,跟有意操縱統計結果的本質不同。

所以近年來大渲染的「M型社會」,原來只是等於人類有統計資料以來一直沒大變動的「鐘型社會」。大前研一是麻省理工的核子工程博士,也於McKinsey 工作二十多年。這樣明顯的錯誤,不太可能是無心大意之失。

但如果--我只是說如果--他是有心嘗試用科學去「改進」社會的話,那就是混淆了實證科學(positive/descriptive science)及價值科學(normative science)。要是他想去「改進」社會的時候甚或歪曲了統計數字的話,那就更加令人可惜了。我對大前研一的認識不深,所以不便妄下結論,也讓自己他日有個下台階。

寫到這裡,還未入手去說「畸型社會」。反正是完全不同範疇的論點,另文再續。

See also: M型社會?M型你個大頭!

(1): 文字上的寫法為300-349、350-399等,數學上的表示方法應為[300, 350), [350, 400)等。所以間隔為50萬日圓,而不是49萬日圓。

指正「一成大學畢業生 月入少於五千」的謬誤與訛誤

(此文原屬《鍾庭耀的統計學》的一部份。下筆不久,找來資料查對一下。尋根究底、好事之徒者如我應該不多。可是一看之下不禁拍案而罵,需另文發砲。又可算是《Statistics,多少惡行假汝之名而行?》系列之三。)

話說某調查發現有一成的大學畢業生,全職工作收入每月少於五千港幣(經濟日報,2010年11月24日)。沒有人覆核新聞,只顧爭相轉截。事後各方少不免大事張揚,一時間各路人馬指指點點。一些說要改革教育、一些說要創造就業機會。有說政府的錯、有說大學的錯、有說大學生「高學歷、低收入」,唯恐天下不亂。

該調查由青年事務委員會委託嶺南大學社會學及社會政策系進行。調查報告資料充分、準則客觀,沒甚麼挑剔的地方。該報選了有關全職青年的收入作為題材,算是迎合讀者口味,亦是無可厚非。

先說忽略正態分佈的謬誤(Ignoring the normal distribution)。(1)

統計學上有種東西叫正態分佈(Normal distribution),大學生差不多一定會讀到。物理學、生物學、社會科等常見的現象。舉個例子,一百個學生考試,最通常出現的情況是大部份人得到中間的分數,少部份會拿較高或較低的分數。兩邊不一定完全對稱,但鐘型分佈大都是屬於正態分佈。

要是有一成大學生真的月入低於五千的話,我們要問:「中位數在哪?」、「這是否正態分佈?」、「在相同的標準誤差下,是否有一成大學生高於中位數?」只抽取其中一部份來解讀而不看整個圖案的話,得出來的結論只會是一啖笑。

如果該調查報告是正態分佈、而又有一成大學生月入低於五千,那我們(1)其實不用再大呼小叫,和(2)我們亦不可能有一種社會政策可以把某批大學生的收入增加,而不影響到整個鐘型分佈。試問歷史上有哪個政府可以把所有人的收入都固定在一點?中國搞過共產,辦甚麼人民公社、大鍋飯,最後只得出一鑊粥。

*                                     *                                     *

戲肉來了。

閒人管閒事,我找來了原來的《香港青年發展指標》一看。節錄第49頁相關數據如下:

全職月入學士學位或以上
沒有0.30%
$3,000 以下0.60%
$3,001 – $5,0003.30%
$5,001 – $7,0001.50%
$7,001 – $9,00018.20%
$9,001 – $12,00043.80%
$12,001 – $15,00022.30%
$15,001 – $18,0005.40%
$18,000以上4.80%
合計(人數)336

月入五千以下百分比為4.2%;七千以下為5.7%,是中學生都讀得懂的數字。哪麼10%從何而來?

再看一看第50頁的調查結論:

「……就收入方面,香港勞工及福利局發佈2009 年貧窮指標報告以每月就業收入中位數為$11,000作標準,而對於15-24 歲就業人士的貧窮定義為「每周工作35 小時或以上而每月就業收入少於中位數50%」—即收入少於$5,500……我們以最接近這指標的收入範圍代替,分別是以「$9,001-$12,000」作收入標準、及以收入等於「$3,001-$5,000」或以下視為收入貧窮……」

「 根據這兩項準則,受訪者中每周工作35 小時或以上的收入貧窮青年佔5.3%……此外……學士學位或以上的受訪者之中約有1 成是收入貧窮……」

看出箇中玄機嗎?原來撰文者花了大篇篇幅去界定何為「收入貧窮」,卻在最後用「此外」一詞全部推翻。有一些擁有大學學位或以上的受訪者是被界定為兼職,而當中多達六成收入少於五千元,而全職跟兼職兩組人月入低於五千的平均數剛好就是10%。撰文著突然撇開了「每周工作35 小時或以上」的定義而去無矢放的,不知是有心或無意。但是大學畢業後兼職工作的人,大部份是去攻讀其他學位。兼職月薪低可以理解,卻不代表香港有嚴重的「高學歷、低收入」需要去解決。

所以昨日字字鏗鏘的「一成大學畢業生 月入少於五千」標題,原來只是訛誤一場。三人成虎而又覆水難收,今日大家早已盲從附和,各抒自見。最後恐怕就如達明一派的《十個救火的少年》一歌:「亂說亂說 愈說只有愈遠」……

Update on 5th Jan 2012 : 送佛送到西--發了電郵給青年事務委員會、嶺南大學社會學及社會政策系和經濟日報,告知他們上述有關錯誤。如有回覆將會在此更新。tl;dr – 全職大學畢業生月入五千以下的百分比為4.2%而非10%;所有人都只是以訛傳訛,沒想過去嘗試覆核數據。

(1): 承李天命博士之習慣,指出謬誤為重,糾正訛誤次之。

See also:
Statistics,多少惡行假汝之名而行?(一) 
鍾庭耀的統計學

鍾庭耀的統計學

(原文寫於柬埔寨回港途中。爛尾至今,又見鍾庭耀博士捲入政治風波,續寫如下。原題《Statistics,多少惡行假汝之名而行?(二)》,而今借此文章向鍾致敬。)

當年鍾庭耀博士在他大學的辦公室內,侃侃而談了兩個多小時,我大概只有聽的份兒。那時候走出來的感覺是吁了一口氣。心想各方對這學者一向譽多毁少,卻猜不到他會這麼囉嗦。今天想來,他大概是有點知音難求的感慨。難得有學生如我對象牙塔以外的統計學有興趣,自然傾囊相授。雖然我肯定他連我的名字也忘了,但我還是欠他這一個人情。

現在我再把自己的意見綜合起來,在飛機上寫上四個小時來博各位看兩分鐘,也有一點姜太公釣魚的滄涼了。

  • 九成牙醫選用某牌子牙膏/牙刷/牙綫/牙籤
  • 八成被訪者贊成全港禁煙
  • 候選人認為豬也能勝任特首一職
  • 六成市民不滿意政府表現

有償採訪 (Paid Survey):牙醫跟牙刷

論據顯而易見,是統計本身跟受訪對象有直接利益衝突。當然不能一概說有償採訪便不可靠。就如小組訪問(focus group)、長時間觀察(數日至數年計)或者專業人士意見(e.g. 腦外科醫生)等,適度的金錢或其他形式的補貼可以令受訪對象更能代表一般普羅大眾,而不偏向於一小撮熱衷於該統計項目的人。反之,如果將一箱雜牌牙刷跟一箱某牌子牙刷,放在牙醫面前讓他選擇為「試用品」,然後宣稱「九成」牙醫都選用其牌子--這不只是直接利害關係,更犯了答案導向的錯誤。下文再續。

不完整/不正確抽樣 (Incomplete/Incorrect sampling):反對吸煙

如果聽到「高達八成」(1)被訪者贊成一件事情,你可能會想這個統計結果也頗有說服力。但假如八成被訪者是非吸煙人士,而同一批人又贊成全港禁煙的話,結果仍只是「一個立場、各自表述」。統計與否,並無新數據去支持或反對全港禁煙。

又,假設明天所有香港人要回答一條問題:「你贊成李嘉誠先生拿七百萬元出來,分給七百萬個香港人嗎?」如果有「高達八成」受訪者贊成的話,我們是否要立法監管李嘉誠的資產?我們大部份人也許會覺得可笑,因為毫無理據地將某人賺回來的錢強行收起,然後分給別人的話,那差不多是共產主義社會的表現。可是當下仍堅守資本主義的香港,卻仍然有「高達八成」人贊成向富人大幅徵稅,然後補助窮人。

(這裡也有少數服從多數的吊詭--就是民主投票卻讓大多數人搾取了一少撮人的自由或利益。此觀點暫且按下不表。)

混合問題 (Composite questions):候選人不認為豬不能勝任特首一職

問:「像你豬一樣蠢的人,如何能夠勝任特首一職?」
答一:「我是龍年出世的(2)……」這代表你真的像豬一樣蠢。

答二:「我深信、我確信、我自信我有能力勝任……」這代表你未必像豬一樣蠢,但你既然已經回答,便算是默認了提問者的假設。

答三:「我不能回答你的提問,因為你的問題混合了我不認同的假設。真理越辯越明,何需動輒拿文字遊戲出來嘩眾取寵?」這代表你明白邏輯學跟統計學上的謬誤。但當面識破別人的詭計,沒留有下餘地,亦不算是當特首的好材料。只好怪我不是屬龍。

答案誤導(Biased answers): 政府表現與港人認知

有做過類似的問卷調查嗎?

你覺得近三個月的政府表現如何?

  • 完全不能接受
  • 非常差
  • 頗差
  • 一般
  • 頗好
  • 非常好

答案裡正、負面的比例明顯地不對稱。這例子小學生也懂。再看一下城中的焦點問題:

你會稱自己為 (訪問員讀出首四個答案)

  • 香港人
  • 中國人
  • 香港的中國人
  • 中國的香港人
  • 其他 (請列明)
  • 唔知/難講
  • 拒絕回答

http://hkupop.hku.hk/chinese/popexpress/qre/que_18/que_18_q02.html

郝鐵川說不合邏輯,你說是不是?有趣的是,鍾庭耀博士說其實一早認同郝鐵川的說法。

鍾又稱,由於「香港人」、「中國人」、「香港的中國人」及「中國的香港人」四者或有意識重疊,民研後來改良,利用0至10分的評分準則,測試市民對「香港人」及「中國人」的認同程度。 (擇自明報,2011年12月30日)

如果所有有心人都親自走上香港大學民意研究計劃的網站,找《巿民的身分認同感》的調查來一看的話,便不會有這麼多風波。鍾明知答案或有重疊,經改良後仍保留原有問題,其箇中原因大概是為了保持研究連貫。其實早於1997年已經設有此問題,而2008年奧運其間選擇「中國人」的比例升至38.6%歷史新高。為甚麼那時候沒有人走出來罵鍾庭耀博士親中媚共呢?

很多人說鍾庭耀的民意調查常有他本人的政治取態。但更多的情況是,當民意調查的結果跟批評鍾庭耀的人的政治取態不同時,他們才會走出來罵。這叫做輸打贏要。

See also:(1): 「高達八成」已經被濫用而變成了網絡上的潮語。
(2): 當記者問到有人把他跟梁振英的特首選舉看成「豬狼之戰」時,唐英年如此回應。

Statistics,多少惡行假汝之名而行?(一) 

希格斯玻色子 vs 六合彩頭獎

大眾媒體常常大幅報道尋找「上帝粒子」——希格斯玻色子(Higgs boson)——的故事。也許是因為歐洲粒子物理研究所(CERN)花費之鉅,也許是因為「上帝」一詞符合某些報章一貫的渲染手法。 事實上當中牽涉的Standard Model (of particle physics)已大多被驗證,不及String Theory 或者 M-theory 般大膽精彩、引人入勝。這裡先放下物理不管,日後再談。

明報這篇報道我笑了一整個早上,以fair use 引用整篇如下:

「發現」嚴格定義 如擲公字20次相同

何謂「發現」,在粒子物理學界其實有一套獨特的定義,那就是「肯定程度」達到統計學上5個標準差(standard deviations)的極嚴格程度(另一個說法,達到5級sigma程度的肯定)。聽起來雖然艱澀,但可以換一個常人較易理解的說法﹕肯定程度達到5個 標準差,大致相當於連續擲20次公字,都擲出同一面向上。這意味觀察結果,極不可能是運氣使然。若達不到這水平,便只能稱作「觀察」,不能稱作「發現」。 消息指目前科學家在尋找上帝粒子上所得出的觀察,達到「3個標準差」水平,相當於連續8次擲公字擲出同一面。 (來源:http://news.mingpao.com/20111213/tba2.htm

粒子物理學界有甚麼獨特的定義我不清楚,但該報的定義則令人大開眼界。統計學上,one-tailed test 要達到5 個標準差或以上的可信程度(或置信區間、confidence interval),那大概是說實驗結果要有99.99997%的確認機率。而「連續擲20次公字,都擲出同一面向上」的出現機率,是0.00019%。(1)

99.99997%跟0.00019%相差可不謂不大。嘿,以為一味誇張就可以愚惑大眾嗎?

再想多一層,該報應該沒人會想得到擲毫的比喻(又,「連續擲毫20次」 比「連續擲20次公字」順眼多了)。Google了一下,找到了以下報道。Benefit of doubt--該報是否把報道搬字過紙,有待讀者決定。

(粗體由我所加)

Discovery has a technical definition in the world of physics: a discovery must have a certainty of 5-sigma. That means that the chances of being wrong are about the same as flipping a coin and having it come up heads 20 times in a row – less than one in a million. In other words, discoveries must have a fantastically low probability of being wrong. The results to be presented on Dec. 13 are not yet at that level of certainty, but perhaps as early as next year, CERN expects to get there.  (Source: http://www.ksl.com/?sid=18426801&nid=1012)

差之毫釐,謬之千里也。

同情地了解,該報可能只是漏了「誤差」二字。但其實「同一面向上」跟「come up heads」分別也大。「同一面向上」,可公可字也。連續二十個公或字機會,是連續二十個公的一倍。就英文版本而言,意譯應為「五個標準差的嚴格程度,其誤差大概為連續擲毫20次都出現公字向上的機率」 。(2)

Reuters 的比喻其實更加生動:

In the jargon, this level is described as 5 sigma. […] As one scientist explained, that level of accuracy would equate to the 17th-century discoverer of gravity, Isaac Newton, sitting under his apple tree and a million apples one after another falling on his head without one missing. (Source: http://www.reuters.com/article/2011/12/13/us-science-higgs-brick-idUSTRE7BB27K20111213)

於我來看,其實五個標準差的嚴格程度也不算是甚麼。你中不了六合彩頭獎的可信程度,還要比他朝一日「發現」希格斯玻色子時的可信程度高。(3)

 

(1): (1/2 ^ 20) x 2 x 100% = 0.00019%

(2): 再說,最接近的誤差實為二十二次公字向上,(1/2 ^ 22) x 100% = 0.000023% 。但數據上之錯漏為訛誤,邏輯上的錯漏為謬誤。承李天命博士之習慣,指出謬誤為重,糾正訛誤次之。更何況,這裡用的全是大學一年級的統計學。旨在演示,未有深究粒子物理學的數理。

(3): 1-[1/C(49,6)] = 99.9999928%--這是你中不了六合彩頭獎的機率--大概5.26個標準差。

Statistics,多少惡行假汝之名而行?(一)

試想想,你一個星期會收到多少個電話訪問?又想想,有多少個調查的結果,最後沒有被有既定立場的壓力團體騎劫?

統計之所以吊詭,是因為手頭上的資料夠多的話,你可以用相同的數據去支持或者反對同一個議題。再低一個水平的,就將數據胡亂解讀,普羅大眾生吞活剥,情況慘不忍睹。下列的例子雖然誇張,但其演示出的謬誤其實每日都可以碰見。

相關不蘊涵因果(Correlation does not imply causation)是統計學裡一個重要課題。先引一個來自xkcd的笑話:

Boy: “I used to think correlation implied causation.Then I took statistics class. Now I don’t.”
Girl: “Sounds like the class helped.”
Boy: “Well. Maybe.”

當然這是否定因果關係到極致而來開的玩笑。但要是在報章雜誌看到以下的例子,你又看得透箇中吊詭之處嗎?

  • 海盜數目隨時間下降而同期全球平均溫度隨時間上升。
  • 美國加州的肺結核患者比例比其他州份為高。
  • 長期吸煙人士患柏金遜病的比例較非吸煙人士為低。
  • 腳掌較大的人的智商比較高。

巧合(Coincidence):海盜跟全球暖化

海盜的數目自十五世紀 大航海時代以來,而全球平均溫度不斷上升。更可笑的是,近年來配備重型槍械的「海盜」又有蓬勃起來的跡象,而剛巧亦有研究發現全球溫度正開始穩定甚至回落。好事之徒便把這數百年的海盜數目跟全球溫度放到圖表上,然後宣稱海盜數目的減少是全球暖化的主因之一。圖表上的數據趨向分明,要是戈爾把它放到《絕望真相》裡的話,也許連菲爾茲獎也是他的囊中物。這因果甚至是關聯關係當然是諷刺的成份居多,但普及科學或者大眾傳媒去報道兩件事情的因果關係時,你又如何去分辨其中巧合與否呢?

因果互換(Reverse causation):肺結核跟加州

假設有人跟你說美國某個州份的肺結核病人比例偏高的話,你大概會想像這州份空氣混濁、人煙稠密,總會有點不妥。但如果跟你說那個州份是加州呢?加州四季陽光明媚,你大概會一頭霧水,以為某種不知名病毒在加州散播。這歸咎於我們假設因為加州空氣污濁,所以導致肺結核病;而沒有想起因為那些人患了肺結核,所以才走來吸加州的新鮮空氣。

推論缺環(Missing deduction):吸煙跟柏金遜病

要是明天醫學期刊發表一篇「煙民比非煙民更少患有柏金遜病」,各大煙草商恐怕要預備借題發揮、大造文章。可是箇中原因卻是因為煙民比非煙民早歸天國,所以不能等到患柏金遜病的正常年紀。諸如此類,因果關係確實存在,卻欠缺中間的連繫,便變成似是而非的結論。而更嚴重的問題是,採用的統計數據極可能條理分明,全沒有挑剔的地方。要看穿其中缺漏,非要引用專業的知識不可。

成因不全(Incomplete cause):腳掌跟智商

如果有些「科學家」發現腳掌大的人比較聰明(「科學」點的說法是腳掌長度跟智商成正比例),哪怕某些「社會學家」又會走出來大發謬論,然後到極右激進分子宣稱某些人種比另一些人種優越,繼而跟「人類學家」在電視上罵戰,好不熱鬧。到頭來,這個研究其實只是涵蓋一歲至三歲的小童,而那統計原來只是得出「年紀較大的小孩比較聰明」。不論故意與否,若果隱去了最基礎的因素,其結論可以是完全正確,卻也毫無意義可言。

很可笑,是嘛?可是要伸手向大學或政府拿經費的「科學家」,或者要爭取銷量或收視而去嘩眾取寵的「傳媒」,可不認為這樣可笑。

另文再續。