會挽雕弓如滿月，西北望，射天狼。: Evidence-based, but still subjective

現在的社會愈來愈重視science的力量，於是很多fields都開始採取所謂"evidence-based"的方式來收集data，並制定strategies。像是evidence-based medicine就是最典型的例子。而同樣的情形，也逐漸出現在政策制定上，像是在制定經濟政策時去尋求economists的意見，查看他們的研究結果，在管理organisation時詢問psycologists的意見，了解paper上的發展，以及在制定pulblic health的policies時，讓公衛領域的研究報告和epidemiologists的意見進來，以制定完善的政策等等。

在這個潮流的發展之下，政府開始會拿出很多證據，告訴你base on這些evidence，他們的policies應該是客觀而有效果，且能夠說服人的。可是同時opposition party又會拿出另一些證據，告訴你說政府的policies是錯的，是ineffecient的。譬如著名的大小政府之爭和增稅減稅的分歧，又或著美牛與三聚氫氨的檢驗標準，是否該讓全民在流感期間施打疫苗等等，到最後都好像是公說公有理，婆說婆有理。

這到底是怎麼一回事？在這邊，格主要嘗試以自己做research的一點經驗，提供一些方向給大家參考。我自己的想法受我的background影響很深，所以可能會有跨到別的fields時不是那麼適用的情形，不過我個人認為應該會有一些參考價值才是。

首先我們得知道，並不是所有的evidence都具有一樣的份量。在格主的研究所programme開學之前，學校就弄了一堆pre-course work來給我們自學，其中一個主題叫做critical appraisal，就是在讓你練習如何用最短的時間去判斷一篇paper做得是否solid。而critical appraisal有很大一部分，是必須倚賴你對methodology的批判和對作者推論的瞭解來達成的。

這和格主以往在台灣時的經驗大相徑庭。我相信即使是現在的台灣，大部份bioscience相關fields的研究生，在閱讀paper時，都還是先看abstract，然後就直接跳result，之後就結束了。然後在選paper時，impact factor高的就當成是比較可信的，所以自己的research最好是base on Nature, Cell或Science這些leading journals，好像這樣base就會比較穩健一樣。這種做法其實並沒有辦法真的好好的appraise一篇paper，而當你把valid和不夠valid的paper都take into account時，你得到的結論就很容易有bias，這是第一個問題。

第二個問題在以前的文章中提過了，和科學的發展過程比較有關。很多時候我們做science都是在瞎子摸象，在data還不夠完全，領域的發展不夠成熟的時候，摸到象鼻當蟒蛇的狀況很可能會發生。過往生物學界也有過讓『protein是genetic materials』這樣的argument成為主流的日子。所以base on目前擁有的data做出的決定，不一定真的能夠達成我們想要的結果。如過你摸了象鼻當蟒蛇，就到處宣揚遇到象要打七寸，結果大概除了被大象給一腳踩死之外不會有別的效果。

此外，這裡還有一個主觀判斷上面的問題，這部分是我這篇文章想要描述的重點。

基本上，science是一個透過observation，設立hypothesis，設計experiments想辦法證偽你的hypothesis，做不到就暫時把這個hypothesis留下來，以後繼續查證的過程。

可是這個過程並沒有辦法讓你得到『你的hypothesis是對的』這樣的結論，你只能知道他目前看起來『不是錯的』。在這樣的情況下，我們也會試著用一些supportive data去support我們的hypothesis，譬如說我的hypothersis預測給了X input之後，A,B,C應該要發生，而E,F,G不應該發生，做出來的實驗結果也符合我的預測，那麼，我的hypothesis可能可以形成一個theory的機會就變高了。或著，換個比較哲學的說法，就是我離真理可能又更接近了一點。

可是你有沒有注意到，在這個過程中，有很多地方是很主觀的？譬如說觀察之後假說的形成，以及做完實驗收集到data之後做的interpretation，其實都是很主觀的事情。當我們的data比較ambiguous，可以做出多種解釋時，你最終的interpretation，其實和你相信什麼比較有關。像上頭提到的兩個問題，包括在critically appraise paper時，那條invalid和valid的線要怎麼畫？以及摸了象鼻當蟒蛇之後你是要建議大家打蛇打七寸，還是遇蛇就逃跑？這些都是很主觀的事情。

還有一個很主觀的點在統計。

我們大家都用很多統計在研究上，特別是significant test，幾乎沒有幾篇bioscience和clinical research的paper可以不用到它，psychology的paper也相當倚賴它。簡而言之，需要在sampling之後分析data，對population做出inference的研究，都離不開statistics。

可是significant test也是一個相當arbitrary的東西。在做significant test前，我們都會先設一個null hypothesis，這個null hypothesis通常都是no difference between our data set and population或著between two data sets。為了方便說明，我下面就統一用population和data set的mean difference來解釋。我們想要藉由significant test做到的事情是："知道sample mean和population mean之間是否存在genuine difference"，而我們方法是透過想辦法證否null hypothesis來達成。

但是significant test其實並不能真的證否null hypothesis。

它能夠做到的，是讓我們得知我們取到的data set是否過於"extreme"。譬如說當p=0.049，在null hypothesis為真的情況下，如果我們重複這個sampling很多次，那我們在這個population中得到和這組data set一樣extreme或更extreme的data set的機率是0.049。在這樣的情況下，我們說，【our data set is inconsistent with the null hypothesis】，然後因為在這個population中取到這種data set的機率很低，所以我們【subjectively reject the null hypothesis】。

但事實上，我們並不知道這組data set到底是不是來自這個population。它可能是，可能不是。p=0.049並不是null hypothesis是錯的機率，而是『如果null hypothesis是真的，然後我們重複做很多次的sampling，我們取到這個data set或比這個data更極端的data set的機率』。Null hypothesis可能對，也可能錯，我們不知道。不過因為這組data set對這個population來說過於extreme，所以我們主觀的reject null hypothesis（對，我幾乎把一整段的內容給重複了一遍，因為它很重要）。這是significant test的限制，它能告訴我們的就這麼多，剩下的就是我們的主觀判斷，所以即使我們得到的p值再小，我們還是有可能錯誤的reject真的null hypothesis（type I error）。這是第一個主觀來源。

第二個主觀的來源是，conventionally，我們會把p值設在0.05。這是一個完全arbitrary的決定。雖然有人提出支持這個convention的理由，但是它依舊是一條arbitrary的線。沒有人應該告訴你p=0.04999一定代表你要reject null hypothesis，p=0.0500001就要accept它。所以如果你今天看到一個large effect，譬如說某個新藥可以延長末期lung cancer patients的壽命8年，但是他的p=0.0500001，那你到底要不要讓這個藥上市？這最後就會是一個arbitrary的判斷。你甚至可以選擇不相信p=0.05是界定significant or not的那條線，沒人可以因為"conventionally, we set it as 0.05"，而你說你要把cut-off point設在p=0.01就說你是錯的。同樣的，你要把它設成0.0513976845，也沒人可以說你不對。

第三個主觀來源在於，statistically significant並不表示在現實生活中有意義。一樣用末期lung cancer patients的壽命當例子，這次p=0.0001，但是他增加病人壽命4天。今天你是FDA, MHRA或類似的regulatory authority，你要不要讓藥過呢？如果是14天，你又會怎麼決定？1個月呢？那個clinically significant的cut-off point在哪裡？這又是另一個主觀的判斷（confidence interval的情況和significant test非常類似，這邊就不再用一堆統計觀念困擾大家了）。

因此，從scientific process搜集證據，到形成policies，這中間其實是有很大的一個gap的。即使你的evidence是用完全objective的方式收集來的，最終形成的policies，還是很可能非常主觀。

而一件事情一旦牽涉到主觀，就會出現每個人有不同解釋的差異，我個人喜歡稱之為philosophy的不同。舉例來說，一個被證明和A藥一樣有效的B藥，可能會因為一樣有效而能夠在美國上市，因為美國人覺得多一些選擇，多一些競爭，沒什麼不好。但在歐盟卻可能因為同樣的理由被拒絕上市，因為他並沒有比較好，為什麼要讓health care多囊括一種藥物在裡頭？同樣的，一個毒性很強但efficacy也很強的抗癌新藥，可能可以在美國上市，因為它的efficacy太好，也可能因此在歐盟被拒絕，因為它的toxicity太強，這就是philosophy或interpretation的不同（這邊都是純舉例，不是說美國和歐盟就真的是這樣幹）。

另外一個很有名的例子是recession的時候政府是否應該介入，不是也有一派的economists認為是政府的介入導致我們快速脫離recession，但另一派的解讀是本來recession可以更快結束，反而是政府的介入讓復甦減緩嗎？這就是證據不夠clear cut的時候，interpretation上面會產生的不同。

我們一直都很希望evidence自己說話，但很可惜很多時候它不會自己說話。我們也希望evidence可以不要那麼ambiguous，好像怎樣解讀都可以，但常常它就是這麼的ambiguous。是以在拿到evidence之後，我們要怎麼樣base on evidence來制定policies，絕對會因為我們每個人的bilief不同，而出現很大的不一樣。

所以很多時候，當我們在吵science和evidence告訴我們含有ractopamine的美牛能不能進口，限制檢出含量要在多少以下才能進口，或著政府應該左傾還右靠，應該管少一點還是管多一些時，我們其實不完全是在讓evidence說話，而是用我們的belief或philosophy在做判斷。在這種時候，拿出一堆paper來支持你的論點是說服不了對方的，也不是說你拿出一堆支持你的philosophy的paper，就可以說對方是理盲濫情又不科學的蠢蛋。因為對方很可能可以用同一組data告訴你，其實也有人是做另外一種解讀。當A政府說：『50年來吃英國牛肉的人只有3個得到CJD，機率太低，所以英國牛肉其實非常安全，可以進口』時，opposition party『50年來吃英國牛肉的人有3個得到CJD，這機率不是沒有，我們不應讓國民暴露在這可以避免的風險抵下，所以應該禁止英國牛肉進口』的argument其實一樣可以有道理，就看你是用怎樣的philosophy，把那條線給畫在哪裡而已。

同樣的，當我們在吵到底應該右派一點以增加效率，還是左派一些以維持公平時，其實也是所謂philosophy不同的爭論。說free market是造成現今經濟問題的人可以argue說都是因為太過free market，所以現在的經濟才會走入死胡同。但相信free market的人可以說，這只是一個經濟調節失靈的過程，最終我們的經濟還是會走出谷底。甚至他們可以說，現在的情況就是free market沒有真正完全被達成所造成的結果。這些問題看起來都還沒有定論，你要相信哪一派的說法是你的自由。所以我們選舉，我們用選票支持那些符合我們思想與利益的政黨和候選人，然後我們讓這些人組成的政府制定政策。這就是一個這麼簡單的過程，過程中我們可以用科學來獲得方向，但最終要追尋哪個方向卻是相當主觀的判斷。

因此，在和你想法不同的人爭論時，搞清楚你們到底是在爭論science（通常這會是針對過程和推論的爭論），還是在爭論philosophy（通常這會是針對結果的解讀和接下來應該怎麼做的爭論）會很有幫助，不要老抓著信念以為是科學，然後拿著它來打對方的科學，接著講不通就互罵白痴，這樣其實真的還滿白痴的。

會挽雕弓如滿月，西北望，射天狼。

Note:

2012年11月18日星期日

Evidence-based, but still subjective

沒有留言:

Note:

2012年11月18日 星期日

Evidence-based, but still subjective

沒有留言:

2012年11月18日星期日