前一篇文章提到了單一科學文章證據強度不夠的問題,這樣的狀況,其實和科學方法的本質有很大的關係。在科學上,我們很重要的一個工具是統計,但是統計卻有很多弱點,也常常沒辦法回答我們想問的問題。
☛ ⟪統計沒有回答你的問題⟫
關於這個統計上的問題,我以前在這個blog也提過(請參考:Evidence-based, but still subjective),不過這樣寫好像太硬了,也不是那麼好懂。所以在這篇文章裡,我想換個方式,用一些故事,和一些比喻,來說明統計的一些問題。
不過在講故事前,我們還是必須解釋一些工具名詞但意義。
我們在科學上最常用的一個工具,是hypothesis testing,也就是我們常常在科學文章上看到的p> 0 .05的那個significant test。
Hypothesis testing本身的概念,其實是非常非常科學的東西。因為他的建立基礎,在於證偽你的null hypothesis。在EBM這個setting裡面,通常我們的null hypothesis會是控制組和實驗組之間沒有差異,譬如【打了A疫苗的病人們和只打安慰劑的病人在得到流行性感冒的比例上,沒有差別】,這就是一個很標準的null hypothesis。
而統計用的方法,是用創造出一個工具,讓我們可以用小樣本,去推論如果null hypothesis成立,這個data的母體分佈會長怎麼樣,然後我們再比較兩個不同的sample groups,像不像都來自於這個母體。
我有時候喜歡用瞎子摸象來說這件事。我們隨手摸了A和B兩個地方,想看看是不是都是來自同隻動物(在這裡這隻動物就是大象)。我摸到的A感覺起來像是個長長的鼻子,我覺得他長得很像大象的鼻子。我摸到的B感覺起來則像是一個小小毛毛的耳朵,不太像大象的耳朵,所以我認定A和B來自不同動物,也因此推翻了A和B來自於同一隻動物的null hypothesis。我們如果用一個數字來表示這件事,譬如說B實在有夠不像大象,大概只有小於5%的機率,你隨便摸一個點,會比這個摸起來更不像大象,那這時候我就說我的p>0.05。
請注意這是一個主觀拒絕null hypothesis的動作,因為我們是覺得B長得很不像大象,所以主動認為他不是大象的一部分,但客觀事實上我們其實不知道這件事是否為真。所以統計其實無法回答我們本來問的問題,也就是A和B是否都來自大象。他回答的是B真的不太像大象,然後交由你自己去判斷他是不是來自於大象。
可是通常我們在科學研究上,想要做的論述,並不只是A和B不是來自同一個動物。我們還想說,A和B一個是來自於大象,另一個是來自於老虎。然而即使我們利用統計幫助我們主觀推翻了null hypothesis,也就是A和B都來自大象,而A和B也真的是來自不同動物,我們也無法保證B是來自於老虎。
用統計上的名詞來說,就是推翻了null hypothesis,不等於alternative hypothesis為真。
現在讓我們想像一個狀況。
今天我做了一個研究,非常成功的推翻了我的null hypothesis。然後我心中,有兩個alternative hypotheses,其中一個,非常合理,但也沒什麼特別。另外一個,還算合理,但是非常令人驚艷。大家覺得,哪一個alternative hypothesis被寫出來會比較容易被Nature, Cell, Science (CNS)給接受呢?
我想答案應該很明顯,那些fancy, eye-catching的假說,會比較容易被這些期刊接受。可是你的significant test並沒有證明這個超酷炫的alternative hypothesis為真,且按照常理推斷,這些合理但是令人驚豔的假說,很多都是相對unlikely的狀況,所以才會讓人覺得又酷又炫。也因此,他們是錯的機率,其實也很高。這是某一些科學家,對於CNS retraction rate高的解釋:當你要提出驚世駭俗的假說,其實也就是讓自己身陷於「這個假說其實很可能不是真的」這樣的窘境。
喔,對了,我在這裡使用的是假說這個詞。因為這些單一論文的研究,按照科學方法的角度去解讀,都只能被視為「仍待驗證」的假說而已。
☛ ⟪樣本數常常都不夠⟫
受限於資源和時間等種種因素,還有power calculation計算上的困難(詳情請參照:樣本夠大不夠大?這篇文章),這些單一一篇的研究,常常都處於under power的狀況。
從很多經驗之中,我們都知道小樣本容易出現極端數值。譬如說Steph Curry會在MSG對上NYK的比賽裡砍進54分,也會在對Mavs的比賽裡砍進51分,但他生涯的平均每場得分也才20.7而已。這兩場比賽Steph都砍進了10顆三分球以上,但這位可能是NBA史上最好的射手,生涯平均一場大概也才進3顆分球而已。
假設我們對Curry生涯的比賽做隨機抽樣,譬如說抽兩場,然後很不幸剛好有一場是上述兩場50分以上的比賽,這樣就會大幅拉高我們取樣後得到他的單場平均得分數值。但如果我們改抽100場,即使這兩場50分以上的比賽都在其中,他們也會被稀釋掉,影響力就不會這麼大了。
同樣的道理在棒球場上也常常看到。波士頓紅襪隊的王牌投手Josh Beckett在2007年Red Sox拿下四年內第二座冠軍時,季後賽的表現根本是見神殺神,遇佛斬佛。光看他那幾場的表現,你會以為他是一個比Pedro Martinez還要厲害的投手。可是如果你比較兩人的生涯數據,Pedro Martinez很快就會跳到史上最強那個層級的討論,Beckett卻只是一個非常不穩定的好投手。
再舉一個最貼近我們生活的例子。譬如說我最討厭的馬英九,我相信如果你在他總統生涯做過的所有事情裡面隨機抽樣三件,搞不好還會抽到兩件他做得不錯的事情。但如果你review他整個總統生涯,要覺得他是個好總統大概很困難吧。
科學研究上面,我們遇到的經嘗就是這樣的狀況。小樣本常常會出現false positive,等到樣本數累積足夠,這樣的false positive就會被抓出來,這也是systematic review和meta-analysis會被視為較高階證據的原因之一:他們比單一研究集合了更多的樣本數。
不只是false positive,在樣本數不足的情況下,很可能genuine difference也不會被抓出來。一個很有名的例子是β-blokers在myocardial infarction (MI,心肌梗塞)上的使用。
在一開始的時候,臨床研究發現β-blokers對於anterior MI有效,但對於inferiror MI卻是沒有效果。這個研究的特色是,在做這個分析的時候,總MI的病人數量是夠的,但是如果把MI病人分成anterior MI和inferiror MI,樣本數就變得太小,變成under power的研究了。
後來隨著越來越多這類型的研究被完成,讓我們可以做mata-analysis之後,很快我們就發現,其實β-blokers對inferiror MI也一樣是有效的。如果我們只用單一一篇研究結果做結論(我這裡引用的還是有做randomisation的臨床研究!),那麼我們就會做出β-blokers不應被使用在有inferiror MI的病人身上,那這樣這些病人就無法享受β-blokers帶來的好處了!
* 最近Nature也有一篇相當好的文章在說小樣本的問題,值得一看:Power failure: why small sample size undermines the reliability of neuroscience
☛ ⟪光靠統計證實不了的因果⟫
今年諾貝爾獎得主,也是美國能源部部長的朱隸文(Steven Chu,剛聽到的時候耳背,還以為是周星馳要來演講 XD),受邀到Univeristy of Oxford有名的Romanes Lecture演講,主題當然就是新能政策和氣候變遷。
朱隸文在演講中提到他們當初做相關能源政策研究時,其實是偷了epidemeology(流行病學)的概念。為了說明流行病學的研究概念,他很禮貌的舉了當年很有名的香菸與肺癌研究當作說明。很禮貌是因為找出這個關係的Richard Doll是Oxford的教授,Oxford還有一棟以Richard Doll為名的大樓,最酷的是Richard Doll本來是個老菸槍,但做出這個研究之後,就戒煙了,這就是真正身體力行的evidence-based practise啊!XD
由於Romanes Lecture的演講slides並沒有開放給聽眾下載,所以我手邊也沒有,不過還是可以簡單描述一下。朱隸文說,當時其實有好幾條線的發現,都指向吸煙和肺癌的關聯性,譬如香菸的普及度和肺癌的盛行率高度相關,以及吸菸者和非吸煙者肺癌盛行率的顯著不同等等。
但我們這些做研究的人,當然不會只滿足於「相關」這個概念。我們想看到的是「因果」,也就是吸菸會導致肺癌這樣的概念。
但事實上光靠epidemiology的correlation研究,是永遠做不到這件事情的。也因此,儘管當時這樣的因果關係很明顯,仍然有很多科學家不買單,認為correlation does not imply causation。
很多科學家為了證實這件事情,就開始進行mechanistic的研究,想找到相關的mechanism,去back up這個吸菸和肺癌間非常robust的correlation。
Mechanistic studies雖然很少能夠真正完全證明因果關係,但通常會讓我們更有信心A和B兩件事情,是有因果關係的。中央研究與TWAS院士,現任陽明大學校長,專長為生物統計學的梁賡義教授,也曾經在演講時說,不管統計做得再好,都要提供機轉上的解釋,才能真正算得是一個好的研究。
於是這些科學家前仆後繼的用各種不同的models,老鼠、細胞培養等等一大堆,慢慢提供了越來越多、越來越充足的科學證據,讓我們相信,吸菸和肺癌之間,是有因果關係存在的。
等這些證據累積到一個程度,有天美國政府覺得,這些證據夠可信了,於是他們決定,要試試看用政策去減少吸菸的人數,看看能不能降低肺癌的盛行率(請注意這又是一個主觀認知)。很不幸的是他在講政策這段的時候我不小心把旁邊的人的包包給掃到地上了,正忙著道歉,所以沒有聽到政策是怎麼執行的,只知道似乎和警語之類的有關。Anyway,政策執行的結果,是吸菸的人數降了,而肺癌的盛行率也跟著降了。
一直到了這個時候,我們才能夠真正相對有信心的說(又是一個主觀判斷!Evidence-based decision making仍是一個充滿主觀判斷的過程!),吸菸會導致肺癌。
這樣的過程也是我們通常在臨床上最後能夠確定因果關係的方式:利用intervention來看看能否達到預期的改變,而不是光靠統計上的correlation。
對我們來說,correlation常常是最好做的研究,特別是在這個omics盛行(genomics, transcriptomics, proteomics),big data好好用的年代,更是如此。Mechanistic studies就難多了,常常是一個PhD以上的研究計畫,所以很難只用一篇論文就做出詳細的mechanism。在這種情況下,光靠一篇paper當證據,你看到的很可能只是correlation,或著是mechanistic studies的冰山一角,甚至是錯誤或spurious的部分,在這樣的狀況下下結論,自然就是相當error-prone的,這也是單一paper證據力不足的原因。
在講科學的時候,常常很多人都以為科學家是一群象牙塔裡的專家,知識異常淵博。但其實大部份的專家,也只有在某些地方,比一般人厲害一些些而已。也因此,他們在自己沒那麼熟的領域,其實常常也是理解有限。這樣的結果,就是造成他們在這些地方會不小心犯錯。
而統計作為一個科學上非常重要的工具,被使用的量非常大。但是它又很難,大多數的科學家也都不是專業的統計學者,是以會犯錯,也是常有的事。下面我就講一個非常有趣,關於專家對統計不夠瞭解,因此被人惡作劇的故事。
Peter Sleight是一個非常厲害的cardiologist(心臟專科醫師,也是心血管疾病研究的大頭),同時,他也是少數精通統計的研究者。他和前面提到那個Richard Doll Building裡的Richard Peto教授,都是臨床實驗設計和流行病學的高手,也是大力反對"sub-group analysis"分析法的人。
我們在做臨床測試時,都會先做一些估計,大概抓出這個臨床試驗,需要多少病人和多少對照組,才能夠得到統計上具有效力的結果,這個就是前面提到過的power calculation。而所謂的sub-group analysis,意思是說,在招募完試驗參與者並做完臨床測試之後,再去把這些病人,依照某些特色分組,然後再做其他的統計分析。
舉例來說,本來我的臨床測試,是要研究某一個藥物對於治療心肌梗塞(MI)的影響。我經過power calculation之後,算出我要500個健康參與者,和500個病人,這樣做出來的統計才有效力。
等到這個試驗做完之後,我又根據這些參與者的年紀,去做詳細的分析,看看我的藥是不是對於不同年紀的病人,有不同的效果。於是我就把這1000個病人,又依年紀分成5組,這五組就是sub-groups,而這樣的分析,就是sub-group analysis。前面講到beta-blockers對inferior和anterior MI有沒有效的分析,就是一種sub-group analysis。
這樣的分析會有很多問題,其中一個是你的樣本數就變少了,所以統計的效力可能會跟著降低。另外一個問題是,如果你一直重複做hypothesis testing,你得到false positive的機率就會增加。例如我把一個做出來藥物和安慰劑沒有顯著差異的臨床測試參與者,用sub group分成四十組,然後狂做hypothesis testing,在把顯著差異的標值準設在P < 0.05的情況下,你就會預期只少會有兩組會做出positive result*。
因為這樣的原因,所以Peter Sleight他們才會大力反對sub-group analysis,這是他們在上epidemiology時一直強調的概念,也是他們發paper時非常堅持的原則。
有一回,Peter Sleight主導一個很大型,很經典的心臟病臨床試驗(ISIS trials)。試驗做完之後,他投稿到The Lancet(對,就是那個潘建志醫師口中的權威期刊The Lancet),沒想到The Lancet的審稿人,居然希望Peter Sleight他們做sub-group analysis,提供更多資訊。
氣急敗壞的Peter Sleight和The Lancet的審稿人(通常都是醫學研究的專家學者)溝通失敗之後,想出了個壞主意。
因為當初他們招募參與者的時候,有登記每個人的出生年月日,因此他可以很輕鬆的找出每個參與者的星座。於是他就把每個參與者依照星座分組,分出了12個sub-groups。
而即使是像ISIS這樣超級顯著的臨床試驗(P < 0.00001),他們還是在12組裡面,做出了他們研究的藥,對於雙子座和天枰座的人無效,這樣好笑的結果。
Peter Sleight把這個最新的結果投到The Lancet(對,真真確確就是那個潘建志醫師口中的權威期刊The Lancet),本來還要刊了。也因此後來這個變成Peter Sleight每次都拿來恥笑The Lancet的笑話。
這個例子因為真的太蠢,所以他每次講,大家都笑翻了,星座怎麼可能會影響藥物對人的效果呢?但如果今天是個沒那麼蠢的分法,譬如按照國籍分成12組,或著按照年紀分成12組,大家還能夠這麼容易發現問題嗎?
依照我自己的經驗,其實是沒那麼容易的。我唸博士班的過程,有一些機會幫老闆審別人的paper。過程中還滿常發現別人統計上的錯誤,一度我還真的覺得科學真是沒救了。
直到有一天,我自己在設計實驗的時候,設計到一半去喝杯茶,喝完回來,忽然發現我分析之前,忘了先確認一個很重要的假設。
那時候忽然我就明白了,因為統計這東西真的很複雜也很難,其實犯錯是常常有的事情。而別人在審paper的時候,不一定都會拿原始的數據來分析,審paper的人可能也跟權威期刊The Lancet的審稿人一樣,會在統計思考上不夠小心,那這樣一些分析效力不夠強的paper**,就會被刊出來。
而如果我們不明所以,抓起paper,只看結果就當成決定性的證據,就會造成拿著雞毛,以為是令箭的慘劇。而按照這樣不夠扎實的基礎做出來的決定,很可能就不是一個最佳的決定。這樣就違反了evidence-based的本意了。
*P < 0.05,代表只有5%的機率取到比這個更極端的值。因為機率很小,所以我們主觀認定null hypothesis為假,我們比較的兩個東西,例如兩個平均,不是來自同個母體。但這也代表還是有5%的機率我們會在這個母體內取到比這個更極端的值,因而錯誤的否決null hypothesis。所以我們至少有5%的機率會犯下false postiive的錯誤(type I error)。所以在上面那個例子裡,犯下false positive的機率是5%,40*0.05=2,所以我們預期會有兩組出現positive result。這個不懂就算了,當作是統計好難的證明吧 XD
** 統計效力弱不代表結論就是錯的。譬如說我們看到一個分成12個sub-group的研究,顯示出當中有兩個是positive。如果是按照星座分,因為太蠢,所以我們知道這八成是假的。但如果是比較make sense的分類法,例如血液中血小板的比例,那這時候我們就不知道到底這是假陽性,還是真的是positive。
在臨床測試的setting底下,randomisation和blinding是避免系統性偏誤的重要工具。
理想狀態下,當我們要做統計時,我們應該進行的動作是random sampling。所謂的random sampling,就是說在族群(population)中,每一個sample被抽到的機會,都是均等的。在這樣的狀況下,平均而言,這個些samples的特色,會和母體高度相似。
朱隸文在演講中提到他們當初做相關能源政策研究時,其實是偷了epidemeology(流行病學)的概念。為了說明流行病學的研究概念,他很禮貌的舉了當年很有名的香菸與肺癌研究當作說明。很禮貌是因為找出這個關係的Richard Doll是Oxford的教授,Oxford還有一棟以Richard Doll為名的大樓,最酷的是Richard Doll本來是個老菸槍,但做出這個研究之後,就戒煙了,這就是真正身體力行的evidence-based practise啊!XD
由於Romanes Lecture的演講slides並沒有開放給聽眾下載,所以我手邊也沒有,不過還是可以簡單描述一下。朱隸文說,當時其實有好幾條線的發現,都指向吸煙和肺癌的關聯性,譬如香菸的普及度和肺癌的盛行率高度相關,以及吸菸者和非吸煙者肺癌盛行率的顯著不同等等。
但我們這些做研究的人,當然不會只滿足於「相關」這個概念。我們想看到的是「因果」,也就是吸菸會導致肺癌這樣的概念。
但事實上光靠epidemiology的correlation研究,是永遠做不到這件事情的。也因此,儘管當時這樣的因果關係很明顯,仍然有很多科學家不買單,認為correlation does not imply causation。
很多科學家為了證實這件事情,就開始進行mechanistic的研究,想找到相關的mechanism,去back up這個吸菸和肺癌間非常robust的correlation。
Mechanistic studies雖然很少能夠真正完全證明因果關係,但通常會讓我們更有信心A和B兩件事情,是有因果關係的。中央研究與TWAS院士,現任陽明大學校長,專長為生物統計學的梁賡義教授,也曾經在演講時說,不管統計做得再好,都要提供機轉上的解釋,才能真正算得是一個好的研究。
於是這些科學家前仆後繼的用各種不同的models,老鼠、細胞培養等等一大堆,慢慢提供了越來越多、越來越充足的科學證據,讓我們相信,吸菸和肺癌之間,是有因果關係存在的。
等這些證據累積到一個程度,有天美國政府覺得,這些證據夠可信了,於是他們決定,要試試看用政策去減少吸菸的人數,看看能不能降低肺癌的盛行率(請注意這又是一個主觀認知)。很不幸的是他在講政策這段的時候我不小心把旁邊的人的包包給掃到地上了,正忙著道歉,所以沒有聽到政策是怎麼執行的,只知道似乎和警語之類的有關。Anyway,政策執行的結果,是吸菸的人數降了,而肺癌的盛行率也跟著降了。
一直到了這個時候,我們才能夠真正相對有信心的說(又是一個主觀判斷!Evidence-based decision making仍是一個充滿主觀判斷的過程!),吸菸會導致肺癌。
這樣的過程也是我們通常在臨床上最後能夠確定因果關係的方式:利用intervention來看看能否達到預期的改變,而不是光靠統計上的correlation。
對我們來說,correlation常常是最好做的研究,特別是在這個omics盛行(genomics, transcriptomics, proteomics),big data好好用的年代,更是如此。Mechanistic studies就難多了,常常是一個PhD以上的研究計畫,所以很難只用一篇論文就做出詳細的mechanism。在這種情況下,光靠一篇paper當證據,你看到的很可能只是correlation,或著是mechanistic studies的冰山一角,甚至是錯誤或spurious的部分,在這樣的狀況下下結論,自然就是相當error-prone的,這也是單一paper證據力不足的原因。
☛ ⟪統計,好難!⟫
在講科學的時候,常常很多人都以為科學家是一群象牙塔裡的專家,知識異常淵博。但其實大部份的專家,也只有在某些地方,比一般人厲害一些些而已。也因此,他們在自己沒那麼熟的領域,其實常常也是理解有限。這樣的結果,就是造成他們在這些地方會不小心犯錯。
而統計作為一個科學上非常重要的工具,被使用的量非常大。但是它又很難,大多數的科學家也都不是專業的統計學者,是以會犯錯,也是常有的事。下面我就講一個非常有趣,關於專家對統計不夠瞭解,因此被人惡作劇的故事。
Peter Sleight是一個非常厲害的cardiologist(心臟專科醫師,也是心血管疾病研究的大頭),同時,他也是少數精通統計的研究者。他和前面提到那個Richard Doll Building裡的Richard Peto教授,都是臨床實驗設計和流行病學的高手,也是大力反對"sub-group analysis"分析法的人。
我們在做臨床測試時,都會先做一些估計,大概抓出這個臨床試驗,需要多少病人和多少對照組,才能夠得到統計上具有效力的結果,這個就是前面提到過的power calculation。而所謂的sub-group analysis,意思是說,在招募完試驗參與者並做完臨床測試之後,再去把這些病人,依照某些特色分組,然後再做其他的統計分析。
舉例來說,本來我的臨床測試,是要研究某一個藥物對於治療心肌梗塞(MI)的影響。我經過power calculation之後,算出我要500個健康參與者,和500個病人,這樣做出來的統計才有效力。
等到這個試驗做完之後,我又根據這些參與者的年紀,去做詳細的分析,看看我的藥是不是對於不同年紀的病人,有不同的效果。於是我就把這1000個病人,又依年紀分成5組,這五組就是sub-groups,而這樣的分析,就是sub-group analysis。前面講到beta-blockers對inferior和anterior MI有沒有效的分析,就是一種sub-group analysis。
這樣的分析會有很多問題,其中一個是你的樣本數就變少了,所以統計的效力可能會跟著降低。另外一個問題是,如果你一直重複做hypothesis testing,你得到false positive的機率就會增加。例如我把一個做出來藥物和安慰劑沒有顯著差異的臨床測試參與者,用sub group分成四十組,然後狂做hypothesis testing,在把顯著差異的標值準設在P < 0.05的情況下,你就會預期只少會有兩組會做出positive result*。
因為這樣的原因,所以Peter Sleight他們才會大力反對sub-group analysis,這是他們在上epidemiology時一直強調的概念,也是他們發paper時非常堅持的原則。
有一回,Peter Sleight主導一個很大型,很經典的心臟病臨床試驗(ISIS trials)。試驗做完之後,他投稿到The Lancet(對,就是那個潘建志醫師口中的權威期刊The Lancet),沒想到The Lancet的審稿人,居然希望Peter Sleight他們做sub-group analysis,提供更多資訊。
氣急敗壞的Peter Sleight和The Lancet的審稿人(通常都是醫學研究的專家學者)溝通失敗之後,想出了個壞主意。
因為當初他們招募參與者的時候,有登記每個人的出生年月日,因此他可以很輕鬆的找出每個參與者的星座。於是他就把每個參與者依照星座分組,分出了12個sub-groups。
而即使是像ISIS這樣超級顯著的臨床試驗(P < 0.00001),他們還是在12組裡面,做出了他們研究的藥,對於雙子座和天枰座的人無效,這樣好笑的結果。
Peter Sleight把這個最新的結果投到The Lancet(對,真真確確就是那個潘建志醫師口中的權威期刊The Lancet),本來還要刊了。也因此後來這個變成Peter Sleight每次都拿來恥笑The Lancet的笑話。
這個例子因為真的太蠢,所以他每次講,大家都笑翻了,星座怎麼可能會影響藥物對人的效果呢?但如果今天是個沒那麼蠢的分法,譬如按照國籍分成12組,或著按照年紀分成12組,大家還能夠這麼容易發現問題嗎?
依照我自己的經驗,其實是沒那麼容易的。我唸博士班的過程,有一些機會幫老闆審別人的paper。過程中還滿常發現別人統計上的錯誤,一度我還真的覺得科學真是沒救了。
直到有一天,我自己在設計實驗的時候,設計到一半去喝杯茶,喝完回來,忽然發現我分析之前,忘了先確認一個很重要的假設。
那時候忽然我就明白了,因為統計這東西真的很複雜也很難,其實犯錯是常常有的事情。而別人在審paper的時候,不一定都會拿原始的數據來分析,審paper的人可能也跟權威期刊The Lancet的審稿人一樣,會在統計思考上不夠小心,那這樣一些分析效力不夠強的paper**,就會被刊出來。
而如果我們不明所以,抓起paper,只看結果就當成決定性的證據,就會造成拿著雞毛,以為是令箭的慘劇。而按照這樣不夠扎實的基礎做出來的決定,很可能就不是一個最佳的決定。這樣就違反了evidence-based的本意了。
*P < 0.05,代表只有5%的機率取到比這個更極端的值。因為機率很小,所以我們主觀認定null hypothesis為假,我們比較的兩個東西,例如兩個平均,不是來自同個母體。但這也代表還是有5%的機率我們會在這個母體內取到比這個更極端的值,因而錯誤的否決null hypothesis。所以我們至少有5%的機率會犯下false postiive的錯誤(type I error)。所以在上面那個例子裡,犯下false positive的機率是5%,40*0.05=2,所以我們預期會有兩組出現positive result。這個不懂就算了,當作是統計好難的證明吧 XD
** 統計效力弱不代表結論就是錯的。譬如說我們看到一個分成12個sub-group的研究,顯示出當中有兩個是positive。如果是按照星座分,因為太蠢,所以我們知道這八成是假的。但如果是比較make sense的分類法,例如血液中血小板的比例,那這時候我們就不知道到底這是假陽性,還是真的是positive。
☛ ⟪沒有randomisation也非blinding⟫
在臨床測試的setting底下,randomisation和blinding是避免系統性偏誤的重要工具。
理想狀態下,當我們要做統計時,我們應該進行的動作是random sampling。所謂的random sampling,就是說在族群(population)中,每一個sample被抽到的機會,都是均等的。在這樣的狀況下,平均而言,這個些samples的特色,會和母體高度相似。
譬如說一個箱子裡有10顆紅球,100顆藍球,和30顆黃球,在純隨機的狀況下,我們抽到籃球的機率,會是紅球的十倍,抽到黃球的機率,則會是紅球的三倍。所以平均而言,我抽球抽十次,看到的比例,應該是紅球:藍球:黃球 = 1:10:3,這個就是random sampling出來的sample會貼近母體特色的概念(統計這叫做smaple representativeness)。
但這樣的方式在實際上是不可行的。以臨床測試來說,我們只能在某些醫學中心做,你可以想像這樣的狀況,會讓我們受到很多限制,讓我們沒辦法隨機的接觸到每個族群中的人,譬如離醫學中心很遠的人,可能就有比較低的機率會特地來參加臨床測試。
在這個情況下,我們只好退而求其次,進行randomisation。
Randomisation的基本概念是在消除可能由人為造成的bias。舉例來說,如果我們要研究抽菸對中樞神經的影響,但其實喝咖啡也會影響中樞神經。如果我們今天用完全隨機的方式將參與受試者分配到A和B兩個組別,理論上喝咖啡者被分配到A組和B組的機率是一樣的。
舉例來說如果我們的受試者有10個抽菸者,平均而言,隨機被分配到A組和B組的機會是50%-50%,所以我們可以期望兩組各會有5個抽菸者,至樣抽菸的影響就被消除了,因為兩組都會看到一樣程度由抽菸造成的影響。如果說剛好出現極端的狀況,譬如說A組9個抽菸者,B組只有1個,我們會知道這是運氣造成的,而不是人為產生的bias。
Blinded test的目的也一樣是在避免人為偏誤。一樣以臨床測試來解釋,一個blinded test,在最理想的狀態下,參與者不會知道自己是分配在安慰劑組,還是新藥組。這樣就可以避免安慰劑效應。而執行臨床測試和分析數據的人*,在最理想的狀態下,也不會知道這樣的資訊。這樣就可以避免先入為主的狀況。
但這樣的方式在實際上是不可行的。以臨床測試來說,我們只能在某些醫學中心做,你可以想像這樣的狀況,會讓我們受到很多限制,讓我們沒辦法隨機的接觸到每個族群中的人,譬如離醫學中心很遠的人,可能就有比較低的機率會特地來參加臨床測試。
在這個情況下,我們只好退而求其次,進行randomisation。
Randomisation的基本概念是在消除可能由人為造成的bias。舉例來說,如果我們要研究抽菸對中樞神經的影響,但其實喝咖啡也會影響中樞神經。如果我們今天用完全隨機的方式將參與受試者分配到A和B兩個組別,理論上喝咖啡者被分配到A組和B組的機率是一樣的。
舉例來說如果我們的受試者有10個抽菸者,平均而言,隨機被分配到A組和B組的機會是50%-50%,所以我們可以期望兩組各會有5個抽菸者,至樣抽菸的影響就被消除了,因為兩組都會看到一樣程度由抽菸造成的影響。如果說剛好出現極端的狀況,譬如說A組9個抽菸者,B組只有1個,我們會知道這是運氣造成的,而不是人為產生的bias。
Blinded test的目的也一樣是在避免人為偏誤。一樣以臨床測試來解釋,一個blinded test,在最理想的狀態下,參與者不會知道自己是分配在安慰劑組,還是新藥組。這樣就可以避免安慰劑效應。而執行臨床測試和分析數據的人*,在最理想的狀態下,也不會知道這樣的資訊。這樣就可以避免先入為主的狀況。
先入為主即使對科學家而言都是很恐怖的偏誤,我最近剛好深有所感。前陣子有回我把某種酵素(trypsin-EDTA)從-20℃的冰箱拿出來退冰,結果忘了放回一般的冰箱。第二天有個同事發現,就一直大驚小怪,還跟我說他試了好幾次,那罐trypsin都沒有活性,一定是因為沒收進冰箱,所以trypsin「死了」。
這種事情我在臺灣看過無數次了,從來也沒遇過有人的trypsin會因為這樣就死掉,所以我當時覺得怪,難道英國的trypsin比較爛嗎?
不過畢竟是自己犯了錯,我就沒跟他爭,不斷道歉以後自己把那罐trypsin收起來用,用起來根本也不覺得有差 XD
前幾天,那個當初一直抱怨的同事,因為自己的trypsin用完了,就借我的去用,拿的剛好就是那罐「死了」的trypsin。我看他按照平常的方式操作,也是做得很好,沒發現有什麼trypsin死了的問題,這樣你就知道先入為主多恐怖。
所以在實驗時,如果我們先預期哪一個組別會看到怎樣的結果,我們可能就會出現先入為主,把不存在的差異,自己腦補出來的狀況。
有了randomisation跟blinded test這兩個工具,我們就可以盡量把所有的人為bias剔除,那這樣看到的結果,除了運氣之外,就是真正受我們想要研究的因子造成的。
可是在一般的實驗室,也就是非臨床測試的setting下,這兩件事情,受限於資源和操作,基本上是不太可能達成的。事實上,就連在臨床測試的setting底下,也還是有randomisation和blinding 不可能達成的狀況。
舉例來說,末期癌症的新藥,是不可能做randomisation和blinding的。因為來的病人都是已經藥石罔效了,給他們安慰劑等於宣判他們死刑,這種trial根本沒辦法做。所以癌症新藥根本不會有安慰劑組,或做新藥與舊藥的比較,自然也沒辦法用這兩個工具。
另一種無法blinding的狀況,會發生在病人可以明確知道自己有沒有受過operation的狀況。譬如說,我想比較對於退化性關節炎的病人,服用新藥A的效果,和換人工關節的效果,哪個比較能夠回復行動能力。因為我們通常不會做shame operation(假開刀,也就是刀開了卻沒做任何事就縫起來),畢竟這有道德疑慮,所以在這樣的setting裡,blinding根本不可能達成。
實驗室裡頭,則有更多這樣的理由,會讓我們無法做randomisation跟blinded experiments,有時候則存粹是資源不夠(這兩件事情做起來,都很耗人力、金錢,和時間),而這也會影響生物實驗室裡面實驗結果的可信度。
*實務上分析數據的人,特別是統計學家,要blinding會有些困難,因為他們分析有時候會需要un-blind,才有辦法做到好的統計分析跟設計。
☛ ⟪Publication bias⟫
學術界的另一個問題,是通常能夠發表在好期刊的文章,都是要做出差異的文章。也就是說,同樣一個研究,如果我的group在實驗室做出來,是有差異存在的,譬如說服A藥的老鼠,比對起服用安慰劑的控制組,阿茲海默症的進程都減緩了,這樣的研究結果,就會比另一個group,做同樣的研究,做出來沒有差異,要容易登上期刊。
而這樣的問題就會造成一個publication bias:按照p > 0.05的標準,我們有5%的機會錯誤的拒絕null hypothesis,也就是服A藥和服用安慰劑的組別其實沒差,但是我們錯誤的否絕了這個假說的機率是5%。可倘若只有這5%做出來是有差異(false positive)的實驗,能夠被期刊接納,剩下95%的文章,都會被拒絕,那麼就會造成閱讀文章的人,做出A藥真的有效果,這樣的錯誤判斷。
而我們在做systematic review的時候,一個很重要的準則,就是納進來review的文章,不能只有出版的,沒出版的如果能夠拿得到,也要放進來參考,這就是在避免publiscation bias。
而事實上,在現在的科學界,因為大家都在追求速度,所以一個重要的發現出來,大家一定都會想要replicate這個發現。如果能夠重現,就可以以這個為基礎,繼續深入研究下去。而replicate的過程,也可以順便建立起自己的expertise,有益無害。在這樣的情況下,多少可以減低publication bias造成的影響,這點在下一篇文章,我會做進一步的說明。
而這樣的問題就會造成一個publication bias:按照p > 0.05的標準,我們有5%的機會錯誤的拒絕null hypothesis,也就是服A藥和服用安慰劑的組別其實沒差,但是我們錯誤的否絕了這個假說的機率是5%。可倘若只有這5%做出來是有差異(false positive)的實驗,能夠被期刊接納,剩下95%的文章,都會被拒絕,那麼就會造成閱讀文章的人,做出A藥真的有效果,這樣的錯誤判斷。
而我們在做systematic review的時候,一個很重要的準則,就是納進來review的文章,不能只有出版的,沒出版的如果能夠拿得到,也要放進來參考,這就是在避免publiscation bias。
而事實上,在現在的科學界,因為大家都在追求速度,所以一個重要的發現出來,大家一定都會想要replicate這個發現。如果能夠重現,就可以以這個為基礎,繼續深入研究下去。而replicate的過程,也可以順便建立起自己的expertise,有益無害。在這樣的情況下,多少可以減低publication bias造成的影響,這點在下一篇文章,我會做進一步的說明。
☛ ⟪巷子內人的遊戲⟫
單一科學論文做EBM,沒有那麼值得相信的原因,還有一個,那就是大多數刊載於學術期刊的研究,其實都已經太專精了,專精到即使是受過科學訓練,但不是在同一個領域的人,都不一定有辦法看出一篇研究論文到底做得好不好。
這點其實有時候在FDA, EMA或著MHRA這類審核藥物上市的機構,也會見到。一種狀況是,他們在審藥的時候,請的顧問,可能和做臨床測試的藥商有利益衝突。這並不是說他們不知道要利益迴避,而是在某些罕見疾病的領域裡,可能專家就那幾個,而一個新藥,可能就是這幾個人的研究成果累積出來的。因為他們是專家,所以很多地方你還是得請教他們的意見,也因為這領域太專精,其他領域類似的人不一定有辦法做出好的判斷。
接著讓我們回到實驗室。我前陣子就經歷過一個很有趣的「巷子內人才知道」的事情,不過開始之前,我得先說一點點高中化學。
讓我們來假設一個情況:今天有一個蛋白酶E,他可以把他的substrate S切成S'和S''兩個部分。這時候我們就可以寫出一個等式:⟪E+S ⇌ E+S'+S''⟫。
這個過程,是由酵素先和substrate結合,變成一個ES的複合物,然後再由酵素把S給切掉,變成ES'S'',然後酵素再和S'與S''分離,變成E+S'+S''的狀況。
而按照我們學過的化學原理,在S的濃度固定的情況下,我們加入E,E的濃度,會決定最終達到平衡時,S和S'+S''的量。
但如果說今天E對於S的affinity很高,那只要濃度相對低的E,就可以把這個平衡式往右邊推。反之,如果affinity很低,那就要很高濃度的E,才能把這個平衡式往右推。
這就告訴我們,只要濃度給得夠高,就算是專一性很高的酵素,也可以切一些本來在生理狀況下,不是他substrate的東西。這個在生科實驗待過的人應該都知道,有些restriction enzymes,如果給的時間夠久,濃度放夠高,他們就會亂切你的DNA。
那現在問題來了。今天我們看到一篇paper,他用10mM的酵素濃度,加上1mM的substrate濃度,發現這個酵素可以切這個substrate,所以宣稱他們找到了這個酵素的substrate。這時候你要怎麼判斷,他們用的濃度合不合理?
這幾乎是一個沒法回答的問題,因為每一個酵素,都有他自己特別的特色,所以怎樣的濃度合理,是一個case by case的狀況。但我隔壁實驗室的人,他們就很有概念,因為他們有很多研究酵素的經驗,所以他們對於幾種特殊的蛋白酶,在怎麼樣的濃度底下,會開始亂切,怎樣的濃度下則專一性很好,就會有比較正確的認知。
我剛到這個研究機構時,有一次因為研究的需要,拿了一篇類似這種蛋白酶切他substrate的paper去請教他們,我當時以為,那篇paper找到了一個還不錯的substrate,我可以拿來用在我的實驗。
結果那間實驗室的PI,馬上翻到materials and methods的部分,看了他們用的濃度,然後再翻到paper的開頭,看了作者的名字,google了一下,接著就哈哈笑兩聲,跟我說不要太相信這篇paper的結果,因為那個酵素的濃度太高了,跟他們的經驗不符,然後這篇paper的作者不是來自做酵素的group,所以他們很可能沒有這個sense。
為求保險起見,他們還是幫我試了一下,然後過了一個禮拜,就跑來跟我說,那個結果真的不太reliable,在那個濃度和反應時間下,酵素甚至會自己切自己。
這個就是很典型,巷子內的人才會有辦法判斷的狀況。我的領域雖然和他們相去不遠,但他們沒跟我說之前,我也對於怎樣是合理的濃度沒概念,甚至他們自己,也只對某一類的蛋白有概念,其他的類別他們也沒那麼了解。
舉這個例子,並不是說科學就只有該領域的科學家能玩,paper只有少數人看得懂。而是說當你不是那個領域的專家時,看paper要很小心,要多收集資料和多問人。只憑藉一篇paper,就很可能會遇到類似我上面的情況,把一篇rubbish paper當成支持你論點的證據。
我大學時上過一門羅輯課,整系列的課我都在混,只有一個故事被我聽進去了,但光這個故事,就非常值回票價。
這個故事叫做天下的貓,都是黑的。
故事是這這樣的:
有一天,馬小九和陳小扁打賭,說全天下的貓,都是黑的。
有一天,馬小九和陳小扁打賭,說全天下的貓,都是黑的。
陳小扁很高興的賭了,他跟馬小九說,你是不可能贏的。
馬小九不相信,就帶陳小扁去附近,連續抓了五隻貓。果然,五隻都是黑的。
馬小九得意地說:「怎麼樣?我贏了吧?」
陳小扁說:「還早勒,才五隻而已。你說的是全天下的貓都是黑的。你只要找到一隻貓不是黑的,你就輸了。」
固執的馬小九聽了很不高興,就開始他的無窮無盡的抓貓之旅。旅程中,每隻他抓到的貓,都是黑的。可是每次他拿去給陳小扁看,陳小扁都會說,那是因為你還沒有抓完全天下的貓。
堅持抓完全天下的貓,是大是大非、利大於弊的馬小九,就繼續抓、繼續抓、繼續抓。有一天,他覺得自己抓完全天下的貓了,就跑去跟陳小扁說,真的全天下的貓都是黑的。
陳小扁卻說:「你怎麼知道你真的抓完全天下的貓了?我說還有一隻不是黑的你沒抓到。你再努力找找。」
找了數十年,已經從帥氣小馬哥變成垂奶九趴馬小囧的馬小九,卻怎麼也找不到另一隻貓,於是他就回去跟陳小扁說,他真的把全天下的貓都抓完了。
陳小扁卻說:「你找不到,不代表不存在,你要繼續找,拼命找,但你永遠也不會知道是不是真的還有一隻不是黑色的貓你沒找到。所以你是不可能證明你是對的,這場打賭,是我贏了。」
這當然是一個很智障的故事,不過他說明了關於論述的不可證實性。我們要證偽一個論述,非常簡單,只要找到一個反例就行了。譬如「天下的貓,都是黑的」這個論述,只要你找得到一隻不是黑色的貓,這個論述就被證偽了。可是當你找不到反例,或無法證偽這個論述,卻不代表這個論述就是對的,因為永遠都有可能,只是你還沒找到那隻不是黑色的貓而已。
這個就是科學方法的侷限。我們做科學的人,都想要提出理論。這些fancy的理論,才是讓我們感到興奮的東西,是所謂的eye-catching results。但是我們最多,也只能做到證偽其他我們想得到的可能性(也就是其他的alternatives),並用一些間接的證據,來支持我們的提出的理論。
所以我們這些做實驗的科學家,不會說我的data證實了(proved)某件事,而會說"our data support/indicate/suggest"我們的理論。這不是說我們比較保守,不喜歡把話說死,而是科學方法上,我們真的就沒辦法證實我們的理論是不是正確的。
這個侷限和統計的hypothesis teating,其實是一曲同工之妙,而受限於這兩個我們在實驗科學上最重要的工具,讓我們很難只靠單一個paper下很紮實結論,因為大多數的paper,都只是一篇提出假說的paper,而不是證實了一個理論。是以,based on單一paper的EBM,自然也就可信度很低了。
這篇說了很多關於科學的弱點,好像科學證據,是很不可信賴的東西一樣。不過這絕對是一種誤解。我在這篇要強調的,是單一一篇paper,並不是證據力很強的證據,而不是說科學產生的證據,是不可信的。這個論述看起來好像有點矛盾,不過等下一篇我說明完了之後,各位就會明白為什麼了。
Evidence-biased misunderstanding (3)- individually weak, collectively robust
Evidence-biased misunderstanding (1) --- what is EBM?
馬小九不相信,就帶陳小扁去附近,連續抓了五隻貓。果然,五隻都是黑的。
馬小九得意地說:「怎麼樣?我贏了吧?」
陳小扁說:「還早勒,才五隻而已。你說的是全天下的貓都是黑的。你只要找到一隻貓不是黑的,你就輸了。」
固執的馬小九聽了很不高興,就開始他的無窮無盡的抓貓之旅。旅程中,每隻他抓到的貓,都是黑的。可是每次他拿去給陳小扁看,陳小扁都會說,那是因為你還沒有抓完全天下的貓。
堅持抓完全天下的貓,是大是大非、利大於弊的馬小九,就繼續抓、繼續抓、繼續抓。有一天,他覺得自己抓完全天下的貓了,就跑去跟陳小扁說,真的全天下的貓都是黑的。
陳小扁卻說:「你怎麼知道你真的抓完全天下的貓了?我說還有一隻不是黑的你沒抓到。你再努力找找。」
找了數十年,已經從帥氣小馬哥變成垂奶九趴馬小囧的馬小九,卻怎麼也找不到另一隻貓,於是他就回去跟陳小扁說,他真的把全天下的貓都抓完了。
陳小扁卻說:「你找不到,不代表不存在,你要繼續找,拼命找,但你永遠也不會知道是不是真的還有一隻不是黑色的貓你沒找到。所以你是不可能證明你是對的,這場打賭,是我贏了。」
這當然是一個很智障的故事,不過他說明了關於論述的不可證實性。我們要證偽一個論述,非常簡單,只要找到一個反例就行了。譬如「天下的貓,都是黑的」這個論述,只要你找得到一隻不是黑色的貓,這個論述就被證偽了。可是當你找不到反例,或無法證偽這個論述,卻不代表這個論述就是對的,因為永遠都有可能,只是你還沒找到那隻不是黑色的貓而已。
這個就是科學方法的侷限。我們做科學的人,都想要提出理論。這些fancy的理論,才是讓我們感到興奮的東西,是所謂的eye-catching results。但是我們最多,也只能做到證偽其他我們想得到的可能性(也就是其他的alternatives),並用一些間接的證據,來支持我們的提出的理論。
所以我們這些做實驗的科學家,不會說我的data證實了(proved)某件事,而會說"our data support/indicate/suggest"我們的理論。這不是說我們比較保守,不喜歡把話說死,而是科學方法上,我們真的就沒辦法證實我們的理論是不是正確的。
這個侷限和統計的hypothesis teating,其實是一曲同工之妙,而受限於這兩個我們在實驗科學上最重要的工具,讓我們很難只靠單一個paper下很紮實結論,因為大多數的paper,都只是一篇提出假說的paper,而不是證實了一個理論。是以,based on單一paper的EBM,自然也就可信度很低了。
這篇說了很多關於科學的弱點,好像科學證據,是很不可信賴的東西一樣。不過這絕對是一種誤解。我在這篇要強調的,是單一一篇paper,並不是證據力很強的證據,而不是說科學產生的證據,是不可信的。這個論述看起來好像有點矛盾,不過等下一篇我說明完了之後,各位就會明白為什麼了。
Evidence-biased misunderstanding (3)- individually weak, collectively robust
Evidence-biased misunderstanding (1) --- what is EBM?
2 則留言:
使用大量的中英夾雜是為了避免錯字嗎??
懶惰是主因啦XD
寫得時候懶得花腦筋想翻譯,英文先跳出來就打英文了。
而且好像還是有不少錯字 LOL
張貼留言