拿到數據后,很多人總是習慣馬上作圖、計算,然后得出結論馬上上報或發布。我在搜集資料時看到的很多醫學論文經常這樣,對一種新藥或者新的治療方法進行試驗,建個試驗組,再找個對照組,經過一段時間治療和觀察,分別收集一下治愈、顯效、有效、無效數據,用卡方檢驗一算,p值小于0.05,效果顯著,很快一篇論文報告甚至論文就出來了。
但是等等,你真的確認你的分析是恰當的嗎?數據收集是否遵循了隨機抽樣的原則?是否采用雙盲試驗?方法是不是得當?結論是不是合理?有沒有遺漏的細節?異常的數據應該如何處理?試驗中有沒有其它因素干擾如更換治療、意外退出等等的影響?如果不能保證這些試驗條件,如果不能保證對數據分析謹慎的態度,這樣的分析結論就談不上可信。
另外,對于異常數據的處理也是經常碰到的棘手問題。在《女士品茶》這本書里就提到,包括因為確定了光速而獲得1907 年諾貝爾獎的艾伯特·邁克遜(Albert Michelson)在內,很多科學家在開始他們的計算前已經剔除了一些數據。17 世紀初就發現行星繞太陽以橢圓軌道運行的科學家約翰尼斯·開普勒(Johannes Kepler),他在研究古希臘天文學家的記錄時,發現有一些觀測位置記錄不符合他正在計算的橢圓軌道,于是他就忽略了這些缺損數據(faulty value)。雖然現在人們不再輕易剔除數據,但這些異常數據往往會造成分析模型的變化,如數據不再服從正態分布,這就給分析帶來了困難,因此有的人困難就會悄悄將其剔除掉或者修改一下數字。
在我看來,這些異常數據可能蘊含著豐富的信息,應該考慮的是首先探究異常數據產生的原因。如果是記錄錯了人員信息統計進單位時間的意義,可以改過來,并且探討一下如何更好地記錄數據。如果是一個有效的數據,要仔細了解產生這個數據的條件,是否在試驗時條件發生了變化;如果繼續試驗,能不能重現結果;是否有必要修改試驗計劃,進行補充試驗,也許新的發現就因這個異常數據誕生了。總之對待異常數據的處理要非常慎重。
1975—1977年擔任英國皇家統計學會第一任女會長斯特拉·坎利夫(Stella Cunliffe),在1970 年被調到英國內務部(the British Home Office)調查局,這個單位負責警察、法院和監獄的監督工作。
在刑事犯罪學這一領域的主要研究工作,就是積累長期的數據資料,進行分析,以發現公共政策對其可能的影響。如有一項分析是針對男性囚犯進行的,即研究不同刑期的男性囚犯出獄后兩年內重新犯罪的概率有多大。分析結果清楚地表明,刑期越短,重新犯罪的概率越高。從而作為一個證明:長刑期可以把慣犯從街頭清除。坎利夫并不滿足于重犯率與刑期間簡單對比的數表。她要進一步分析數表背后所隱藏的東西。這種明顯強關聯關系主要是刑期在三個月之內的犯人重犯率高,經過仔細檢查,這些人“幾乎都是些年老的、處境悲慘的、精神不正常的人,他們被精神病醫院拒之門外,所以才一次又一次地反復犯罪后再進監獄?!倍y計表所反映的數字人員信息統計進單位時間的意義,實際都是這同一撥人,被當作不同人重復統計,才將短期犯罪的重犯率夸大了。統計表中的另一個極端表現是,刑期在10 年以上的犯人出獄后只有15%的人又重新犯罪。坎利夫認為,“這里有一個很大的年齡因素,一個很大的環境因素和一個很大的犯罪程度因素。刑期長的都是些犯大案的人,他們出獄后重新犯同樣大案的可能性也不大了。”因此,在她用兩個極端的情況將數表調整這后,重犯率和刑期間明顯的關系消失了。
曾任過英國首相的著名作家迪斯雷利說:有三種謊言,謊言,糟糕透頂的謊言和統計資料。
總之拿到數據一定要小心處理,提防得出錯誤的結論。