現在的社會愈來愈重視science的力量,於是很多fields都開始採取所謂"evidence-based"的方式來收集data,並制定strategies。像是evidence-based medicine就是最典型的例子。而同樣的情形,也逐漸出現在政策制定上,像是在制定經濟政策時去尋求economists的意見,查看他們的研究結果,在管理organisation時詢問psycologists的意見,了解paper上的發展,以及在制定pulblic health的policies時,讓公衛領域的研究報告和epidemiologists的意見進來,以制定完善的政策等等。
在這個潮流的發展之下,政府開始會拿出很多證據,告訴你base on這些evidence,他們的policies應該是客觀而有效果,且能夠說服人的。可是同時opposition party又會拿出另一些證據,告訴你說政府的policies是錯的,是ineffecient的。譬如著名的大小政府之爭和增稅減稅的分歧,又或著美牛與三聚氫氨的檢驗標準,是否該讓全民在流感期間施打疫苗等等,到最後都好像是公說公有理,婆說婆有理。
這到底是怎麼一回事?在這邊,格主要嘗試以自己做research的一點經驗,提供一些方向給大家參考。我自己的想法受我的background影響很深,所以可能會有跨到別的fields時不是那麼適用的情形,不過我個人認為應該會有一些參考價值才是。
首先我們得知道,並不是所有的evidence都具有一樣的份量。在格主的研究所programme開學之前,學校就弄了一堆pre-course work來給我們自學,其中一個主題叫做critical appraisal,就是在讓你練習如何用最短的時間去判斷一篇paper做得是否solid。而critical appraisal有很大一部分,是必須倚賴你對methodology的批判和對作者推論的瞭解來達成的。
這和格主以往在台灣時的經驗大相徑庭。我相信即使是現在的台灣,大部份bioscience相關fields的研究生,在閱讀paper時,都還是先看abstract,然後就直接跳result,之後就結束了。然後在選paper時,impact factor高的就當成是比較可信的,所以自己的research最好是base on Nature, Cell或Science這些leading journals,好像這樣base就會比較穩健一樣。這種做法其實並沒有辦法真的好好的appraise一篇paper,而當你把valid和不夠valid的paper都take into account時,你得到的結論就很容易有bias,這是第一個問題。
第二個問題在以前的文章中提過了,和科學的發展過程比較有關。很多時候我們做science都是在瞎子摸象,在data還不夠完全,領域的發展不夠成熟的時候,摸到象鼻當蟒蛇的狀況很可能會發生。過往生物學界也有過讓『protein是genetic materials』這樣的argument成為主流的日子。所以base on目前擁有的data做出的決定,不一定真的能夠達成我們想要的結果。如過你摸了象鼻當蟒蛇,就到處宣揚遇到象要打七寸,結果大概除了被大象給一腳踩死之外不會有別的效果。
此外,這裡還有一個主觀判斷上面的問題,這部分是我這篇文章想要描述的重點。
基本上,science是一個透過observation,設立hypothesis,設計experiments想辦法證偽你的hypothesis,做不到就暫時把這個hypothesis留下來,以後繼續查證的過程。
可是這個過程並沒有辦法讓你得到『你的hypothesis是對的』這樣的結論,你只能知道他目前看起來『不是錯的』。在這樣的情況下,我們也會試著用一些supportive data去support我們的hypothesis,譬如說我的hypothersis預測給了X input之後,A,B,C應該要發生,而E,F,G不應該發生,做出來的實驗結果也符合我的預測,那麼,我的hypothesis可能可以形成一個theory的機會就變高了。或著,換個比較哲學的說法,就是我離真理可能又更接近了一點。
可是你有沒有注意到,在這個過程中,有很多地方是很主觀的?譬如說觀察之後假說的形成,以及做完實驗收集到data之後做的interpretation,其實都是很主觀的事情。當我們的data比較ambiguous,可以做出多種解釋時,你最終的interpretation,其實和你相信什麼比較有關。像上頭提到的兩個問題,包括在critically appraise paper時,那條invalid和valid的線要怎麼畫?以及摸了象鼻當蟒蛇之後你是要建議大家打蛇打七寸,還是遇蛇就逃跑?這些都是很主觀的事情。
還有一個很主觀的點在統計。
我們大家都用很多統計在研究上,特別是significant test,幾乎沒有幾篇bioscience和clinical research的paper可以不用到它,psychology的paper也相當倚賴它。簡而言之,需要在sampling之後分析data,對population做出inference的研究,都離不開statistics。
可是significant test也是一個相當arbitrary的東西。在做significant test前,我們都會先設一個null hypothesis,這個null hypothesis通常都是no difference between our data set and population或著between two data sets。為了方便說明,我下面就統一用population和data set的mean difference來解釋。我們想要藉由significant test做到的事情是:"知道sample mean和population mean之間是否存在genuine difference",而我們方法是透過想辦法證否null hypothesis來達成。
但是significant test其實並不能真的證否null hypothesis。
它能夠做到的,是讓我們得知我們取到的data set是否過於"extreme"。譬如說當p=0.049,在null hypothesis為真的情況下,如果我們重複這個sampling很多次,那我們在這個population中得到和這組data set一樣extreme或更extreme的data set的機率是0.049。在這樣的情況下,我們說,【our data set is inconsistent with the null hypothesis】,然後因為在這個population中取到這種data set的機率很低,所以我們【subjectively reject the null hypothesis】。
但事實上,我們並不知道這組data set到底是不是來自這個population。它可能是,可能不是。p=0.049並不是null hypothesis是錯的機率,而是『如果null hypothesis是真的,然後我們重複做很多次的sampling,我們取到這個data set或比這個data更極端的data set的機率』。Null hypothesis可能對,也可能錯,我們不知道。不過因為這組data set對這個population來說過於extreme,所以我們主觀的reject null hypothesis(對,我幾乎把一整段的內容給重複了一遍,因為它很重要)。這是significant test的限制,它能告訴我們的就這麼多,剩下的就是我們的主觀判斷,所以即使我們得到的p值再小,我們還是有可能錯誤的reject真的null hypothesis(type I error)。這是第一個主觀來源。
第二個主觀的來源是,conventionally,我們會把p值設在0.05。這是一個完全arbitrary的決定。雖然有人提出支持這個convention的理由,但是它依舊是一條arbitrary的線。沒有人應該告訴你p=0.04999一定代表你要reject null hypothesis,p=0.0500001就要accept它。所以如果你今天看到一個large effect,譬如說某個新藥可以延長末期lung cancer patients的壽命8年,但是他的p=0.0500001,那你到底要不要讓這個藥上市?這最後就會是一個arbitrary的判斷。你甚至可以選擇不相信p=0.05是界定significant or not的那條線,沒人可以因為"conventionally, we set it as 0.05",而你說你要把cut-off point設在p=0.01就說你是錯的。同樣的,你要把它設成0.0513976845,也沒人可以說你不對。
第三個主觀來源在於,statistically significant並不表示在現實生活中有意義。一樣用末期lung cancer patients的壽命當例子,這次p=0.0001,但是他增加病人壽命4天。今天你是FDA, MHRA或類似的regulatory authority,你要不要讓藥過呢?如果是14天,你又會怎麼決定?1個月呢?那個clinically significant的cut-off point在哪裡?這又是另一個主觀的判斷(confidence interval的情況和significant test非常類似,這邊就不再用一堆統計觀念困擾大家了)。
因此,從scientific process搜集證據,到形成policies,這中間其實是有很大的一個gap的。即使你的evidence是用完全objective的方式收集來的,最終形成的policies,還是很可能非常主觀。
而一件事情一旦牽涉到主觀,就會出現每個人有不同解釋的差異,我個人喜歡稱之為philosophy的不同。舉例來說,一個被證明和A藥一樣有效的B藥,可能會因為一樣有效而能夠在美國上市,因為美國人覺得多一些選擇,多一些競爭,沒什麼不好。但在歐盟卻可能因為同樣的理由被拒絕上市,因為他並沒有比較好,為什麼要讓health care多囊括一種藥物在裡頭?同樣的,一個毒性很強但efficacy也很強的抗癌新藥,可能可以在美國上市,因為它的efficacy太好,也可能因此在歐盟被拒絕,因為它的toxicity太強,這就是philosophy或interpretation的不同(這邊都是純舉例,不是說美國和歐盟就真的是這樣幹)。
另外一個很有名的例子是recession的時候政府是否應該介入,不是也有一派的economists認為是政府的介入導致我們快速脫離recession,但另一派的解讀是本來recession可以更快結束,反而是政府的介入讓復甦減緩嗎?這就是證據不夠clear cut的時候,interpretation上面會產生的不同。
我們一直都很希望evidence自己說話,但很可惜很多時候它不會自己說話。我們也希望evidence可以不要那麼ambiguous,好像怎樣解讀都可以,但常常它就是這麼的ambiguous。是以在拿到evidence之後,我們要怎麼樣base on evidence來制定policies,絕對會因為我們每個人的bilief不同,而出現很大的不一樣。
所以很多時候,當我們在吵science和evidence告訴我們含有ractopamine的美牛能不能進口,限制檢出含量要在多少以下才能進口,或著政府應該左傾還右靠,應該管少一點還是管多一些時,我們其實不完全是在讓evidence說話,而是用我們的belief或philosophy在做判斷。在這種時候,拿出一堆paper來支持你的論點是說服不了對方的,也不是說你拿出一堆支持你的philosophy的paper,就可以說對方是理盲濫情又不科學的蠢蛋。因為對方很可能可以用同一組data告訴你,其實也有人是做另外一種解讀。當A政府說:『50年來吃英國牛肉的人只有3個得到CJD,機率太低,所以英國牛肉其實非常安全,可以進口』時,opposition party『50年來吃英國牛肉的人有3個得到CJD,這機率不是沒有,我們不應讓國民暴露在這可以避免的風險抵下,所以應該禁止英國牛肉進口』的argument其實一樣可以有道理,就看你是用怎樣的philosophy,把那條線給畫在哪裡而已。
同樣的,當我們在吵到底應該右派一點以增加效率,還是左派一些以維持公平時,其實也是所謂philosophy不同的爭論。說free market是造成現今經濟問題的人可以argue說都是因為太過free market,所以現在的經濟才會走入死胡同。但相信free market的人可以說,這只是一個經濟調節失靈的過程,最終我們的經濟還是會走出谷底。甚至他們可以說,現在的情況就是free market沒有真正完全被達成所造成的結果。這些問題看起來都還沒有定論,你要相信哪一派的說法是你的自由。所以我們選舉,我們用選票支持那些符合我們思想與利益的政黨和候選人,然後我們讓這些人組成的政府制定政策。這就是一個這麼簡單的過程,過程中我們可以用科學來獲得方向,但最終要追尋哪個方向卻是相當主觀的判斷。
因此,在和你想法不同的人爭論時,搞清楚你們到底是在爭論science(通常這會是針對過程和推論的爭論),還是在爭論philosophy(通常這會是針對結果的解讀和接下來應該怎麼做的爭論)會很有幫助,不要老抓著信念以為是科學,然後拿著它來打對方的科學,接著講不通就互罵白痴,這樣其實真的還滿白痴的。