Note:

因為blogger會有很多廣告留言,所以我有設留言管制。大家留言留一次就好,只要不是廣告,我都會定期去後檯把留言給撿回來。

造成麻煩還請大家多多見諒。

2015年2月23日 星期一

Evidence-biased misunderstanding (2) --- the intrinsic weaknesses of stats and science

前一篇文章提到了單一科學文章證據強度不夠的問題,這樣的狀況,其實和科學方法的本質有很大的關係。在科學上,我們很重要的一個工具是統計,但是統計卻有很多弱點,也常常沒辦法回答我們想問的問題。


☛ ⟪統計沒有回答你的問題⟫

關於這個統計上的問題,我以前在這個blog也提過(請參考:Evidence-based, but still subjective),不過這樣寫好像太硬了,也不是那麼好懂。所以在這篇文章裡,我想換個方式,用一些故事,和一些比喻,來說明統計的一些問題。

不過在講故事前,我們還是必須解釋一些工具名詞但意義。

我們在科學上最常用的一個工具,是hypothesis testing,也就是我們常常在科學文章上看到的p> 0 .05的那個significant test。

Hypothesis testing本身的概念,其實是非常非常科學的東西。因為他的建立基礎,在於證偽你的null hypothesis。在EBM這個setting裡面,通常我們的null hypothesis會是控制組和實驗組之間沒有差異,譬如【打了A疫苗的病人們和只打安慰劑的病人在得到流行性感冒的比例上,沒有差別】,這就是一個很標準的null hypothesis。

而統計用的方法,是用創造出一個工具,讓我們可以用小樣本,去推論如果null hypothesis成立,這個data的母體分佈會長怎麼樣,然後我們再比較兩個不同的sample groups,像不像都來自於這個母體。

我有時候喜歡用瞎子摸象來說這件事。我們隨手摸了A和B兩個地方,想看看是不是都是來自同隻動物(在這裡這隻動物就是大象)。我摸到的A感覺起來像是個長長的鼻子,我覺得他長得很像大象的鼻子。我摸到的B感覺起來則像是一個小小毛毛的耳朵,不太像大象的耳朵,所以我認定A和B來自不同動物,也因此推翻了A和B來自於同一隻動物的null hypothesis。我們如果用一個數字來表示這件事,譬如說B實在有夠不像大象,大概只有小於5%的機率,你隨便摸一個點,會比這個摸起來更不像大象,那這時候我就說我的p>0.05。

請注意這是一個主觀拒絕null hypothesis的動作,因為我們是覺得B長得很不像大象,所以主動認為他不是大象的一部分,但客觀事實上我們其實不知道這件事是否為真。所以統計其實無法回答我們本來問的問題,也就是A和B是否都來自大象。他回答的是B真的不太像大象,然後交由你自己去判斷他是不是來自於大象。

可是通常我們在科學研究上,想要做的論述,並不只是A和B不是來自同一個動物。我們還想說,A和B一個是來自於大象,另一個是來自於老虎。然而即使我們利用統計幫助我們主觀推翻了null hypothesis,也就是A和B都來自大象,而A和B也真的是來自不同動物,我們也無法保證B是來自於老虎。

用統計上的名詞來說,就是推翻了null hypothesis,不等於alternative hypothesis為真。

現在讓我們想像一個狀況。

今天我做了一個研究,非常成功的推翻了我的null hypothesis。然後我心中,有兩個alternative hypotheses,其中一個,非常合理,但也沒什麼特別。另外一個,還算合理,但是非常令人驚艷。大家覺得,哪一個alternative hypothesis被寫出來會比較容易被Nature, Cell, Science (CNS)給接受呢?

我想答案應該很明顯,那些fancy, eye-catching的假說,會比較容易被這些期刊接受。可是你的significant test並沒有證明這個超酷炫的alternative hypothesis為真,且按照常理推斷,這些合理但是令人驚豔的假說,很多都是相對unlikely的狀況,所以才會讓人覺得又酷又炫。也因此,他們是錯的機率,其實也很高。這是某一些科學家,對於CNS retraction rate高的解釋:當你要提出驚世駭俗的假說,其實也就是讓自己身陷於「這個假說其實很可能不是真的」這樣的窘境。

喔,對了,我在這裡使用的是假說這個詞。因為這些單一論文的研究,按照科學方法的角度去解讀,都只能被視為「仍待驗證」的假說而已。


☛ ⟪樣本數常常都不夠⟫

受限於資源和時間等種種因素,還有power calculation計算上的困難(詳情請參照:樣本夠大不夠大?這篇文章),這些單一一篇的研究,常常都處於under power的狀況。

從很多經驗之中,我們都知道小樣本容易出現極端數值。譬如說Steph Curry會在MSG對上NYK的比賽裡砍進54分,也會在對Mavs的比賽裡砍進51分,但他生涯的平均每場得分也才20.7而已。這兩場比賽Steph都砍進了10顆三分球以上,但這位可能是NBA史上最好的射手,生涯平均一場大概也才進3顆分球而已。

假設我們對Curry生涯的比賽做隨機抽樣,譬如說抽兩場,然後很不幸剛好有一場是上述兩場50分以上的比賽,這樣就會大幅拉高我們取樣後得到他的單場平均得分數值。但如果我們改抽100場,即使這兩場50分以上的比賽都在其中,他們也會被稀釋掉,影響力就不會這麼大了。

同樣的道理在棒球場上也常常看到。波士頓紅襪隊的王牌投手Josh Beckett在2007年Red Sox拿下四年內第二座冠軍時,季後賽的表現根本是見神殺神,遇佛斬佛。光看他那幾場的表現,你會以為他是一個比Pedro Martinez還要厲害的投手。可是如果你比較兩人的生涯數據,Pedro Martinez很快就會跳到史上最強那個層級的討論,Beckett卻只是一個非常不穩定的好投手。

再舉一個最貼近我們生活的例子。譬如說我最討厭的馬英九,我相信如果你在他總統生涯做過的所有事情裡面隨機抽樣三件,搞不好還會抽到兩件他做得不錯的事情。但如果你review他整個總統生涯,要覺得他是個好總統大概很困難吧。

科學研究上面,我們遇到的經嘗就是這樣的狀況。小樣本常常會出現false positive,等到樣本數累積足夠,這樣的false positive就會被抓出來,這也是systematic review和meta-analysis會被視為較高階證據的原因之一:他們比單一研究集合了更多的樣本數。

不只是false positive,在樣本數不足的情況下,很可能genuine difference也不會被抓出來。一個很有名的例子是β-blokers在myocardial infarction (MI,心肌梗塞)上的使用。

在一開始的時候,臨床研究發現β-blokers對於anterior MI有效,但對於inferiror MI卻是沒有效果。這個研究的特色是,在做這個分析的時候,總MI的病人數量是夠的,但是如果把MI病人分成anterior MI和inferiror MI,樣本數就變得太小,變成under power的研究了。

後來隨著越來越多這類型的研究被完成,讓我們可以做mata-analysis之後,很快我們就發現,其實β-blokers對inferiror MI也一樣是有效的。如果我們只用單一一篇研究結果做結論(我這裡引用的還是有做randomisation的臨床研究!),那麼我們就會做出β-blokers不應被使用在有inferiror MI的病人身上,那這樣這些病人就無法享受β-blokers帶來的好處了!

* 最近Nature也有一篇相當好的文章在說小樣本的問題,值得一看:Power failure: why small sample size undermines the reliability of neuroscience


☛ ⟪光靠統計證實不了的因果⟫

今年諾貝爾獎得主,也是美國能源部部長的朱隸文(Steven Chu,剛聽到的時候耳背,還以為是周星馳要來演講 XD),受邀到Univeristy of Oxford有名的Romanes Lecture演講,主題當然就是新能政策和氣候變遷。

朱隸文在演講中提到他們當初做相關能源政策研究時,其實是偷了epidemeology(流行病學)的概念。為了說明流行病學的研究概念,他很禮貌的舉了當年很有名的香菸與肺癌研究當作說明。很禮貌是因為找出這個關係的Richard Doll是Oxford的教授,Oxford還有一棟以Richard Doll為名的大樓,最酷的是Richard Doll本來是個老菸槍,但做出這個研究之後,就戒煙了,這就是真正身體力行的evidence-based practise啊!XD


由於Romanes Lecture的演講slides並沒有開放給聽眾下載,所以我手邊也沒有,不過還是可以簡單描述一下。朱隸文說,當時其實有好幾條線的發現,都指向吸煙和肺癌的關聯性,譬如香菸的普及度和肺癌的盛行率高度相關,以及吸菸者和非吸煙者肺癌盛行率的顯著不同等等。


但我們這些做研究的人,當然不會只滿足於「相關」這個概念。我們想看到的是「因果」,也就是吸菸會導致肺癌這樣的概念。


但事實上光靠epidemiology的correlation研究,是永遠做不到這件事情的。也因此,儘管當時這樣的因果關係很明顯,仍然有很多科學家不買單,認為correlation does not imply causation。


很多科學家為了證實這件事情,就開始進行mechanistic的研究,想找到相關的mechanism,去back up這個吸菸和肺癌間非常robust的correlation。


Mechanistic studies雖然很少能夠真正完全證明因果關係,但通常會讓我們更有信心A和B兩件事情,是有因果關係的。中央研究與TWAS院士,現任陽明大學校長,專長為生物統計學的梁賡義教授,也曾經在演講時說,不管統計做得再好,都要提供機轉上的解釋,才能真正算得是一個好的研究。


於是這些科學家前仆後繼的用各種不同的models,老鼠、細胞培養等等一大堆,慢慢提供了越來越多、越來越充足的科學證據,讓我們相信,吸菸和肺癌之間,是有因果關係存在的。


等這些證據累積到一個程度,有天美國政府覺得,這些證據夠可信了,於是他們決定,要試試看用政策去減少吸菸的人數,看看能不能降低肺癌的盛行率(請注意這又是一個主觀認知)。很不幸的是他在講政策這段的時候我不小心把旁邊的人的包包給掃到地上了,正忙著道歉,所以沒有聽到政策是怎麼執行的,只知道似乎和警語之類的有關。Anyway,政策執行的結果,是吸菸的人數降了,而肺癌的盛行率也跟著降了。


一直到了這個時候,我們才能夠真正相對有信心的說(又是一個主觀判斷!Evidence-based decision making仍是一個充滿主觀判斷的過程!),吸菸會導致肺癌。


這樣的過程也是我們通常在臨床上最後能夠確定因果關係的方式:利用intervention來看看能否達到預期的改變,而不是光靠統計上的correlation。


對我們來說,correlation常常是最好做的研究,特別是在這個omics盛行(genomics, transcriptomics, proteomics),big data好好用的年代,更是如此。Mechanistic studies就難多了,常常是一個PhD以上的研究計畫,所以很難只用一篇論文就做出詳細的mechanism。在這種情況下,光靠一篇paper當證據,你看到的很可能只是correlation,或著是mechanistic studies的冰山一角,甚至是錯誤或spurious的部分,在這樣的狀況下下結論,自然就是相當error-prone的,這也是單一paper證據力不足的原因。



☛ ⟪統計,好難!⟫

在講科學的時候,常常很多人都以為科學家是一群象牙塔裡的專家,知識異常淵博。但其實大部份的專家,也只有在某些地方,比一般人厲害一些些而已。也因此,他們在自己沒那麼熟的領域,其實常常也是理解有限。這樣的結果,就是造成他們在這些地方會不小心犯錯。


而統計作為一個科學上非常重要的工具,被使用的量非常大。但是它又很難,大多數的科學家也都不是專業的統計學者,是以會犯錯,也是常有的事。下面我就講一個非常有趣,關於專家對統計不夠瞭解,因此被人惡作劇的故事。


Peter Sleight是一個非常厲害的cardiologist(心臟專科醫師,也是心血管疾病研究的大頭),同時,他也是少數精通統計的研究者。他和前面提到那個Richard Doll Building裡的Richard Peto教授,都是臨床實驗設計和流行病學的高手,也是大力反對"sub-group analysis"分析法的人。


我們在做臨床測試時,都會先做一些估計,大概抓出這個臨床試驗,需要多少病人和多少對照組,才能夠得到統計上具有效力的結果,這個就是前面提到過的power calculation。而所謂的sub-group analysis,意思是說,在招募完試驗參與者並做完臨床測試之後,再去把這些病人,依照某些特色分組,然後再做其他的統計分析。


舉例來說,本來我的臨床測試,是要研究某一個藥物對於治療心肌梗塞(MI)的影響。我經過power calculation之後,算出我要500個健康參與者,和500個病人,這樣做出來的統計才有效力。


等到這個試驗做完之後,我又根據這些參與者的年紀,去做詳細的分析,看看我的藥是不是對於不同年紀的病人,有不同的效果。於是我就把這1000個病人,又依年紀分成5組,這五組就是sub-groups,而這樣的分析,就是sub-group analysis。前面講到beta-blockers對inferior和anterior MI有沒有效的分析,就是一種sub-group analysis。


這樣的分析會有很多問題,其中一個是你的樣本數就變少了,所以統計的效力可能會跟著降低。另外一個問題是,如果你一直重複做hypothesis testing,你得到false positive的機率就會增加。例如我把一個做出來藥物和安慰劑沒有顯著差異的臨床測試參與者,用sub group分成四十組,然後狂做hypothesis testing,在把顯著差異的標值準設在P < 0.05的情況下,你就會預期只少會有兩組會做出positive result*。


因為這樣的原因,所以Peter Sleight他們才會大力反對sub-group analysis,這是他們在上epidemiology時一直強調的概念,也是他們發paper時非常堅持的原則。


有一回,Peter Sleight主導一個很大型,很經典的心臟病臨床試驗(ISIS trials)。試驗做完之後,他投稿到The Lancet(對,就是那個潘建志醫師口中的權威期刊The Lancet),沒想到The Lancet的審稿人,居然希望Peter Sleight他們做sub-group analysis,提供更多資訊。


氣急敗壞的Peter Sleight和The Lancet的審稿人(通常都是醫學研究的專家學者)溝通失敗之後,想出了個壞主意。


因為當初他們招募參與者的時候,有登記每個人的出生年月日,因此他可以很輕鬆的找出每個參與者的星座。於是他就把每個參與者依照星座分組,分出了12個sub-groups。


而即使是像ISIS這樣超級顯著的臨床試驗(P < 0.00001),他們還是在12組裡面,做出了他們研究的藥,對於雙子座和天枰座的人無效,這樣好笑的結果。


Peter Sleight把這個最新的結果投到The Lancet(對,真真確確就是那個潘建志醫師口中的權威期刊The Lancet),本來還要刊了。也因此後來這個變成Peter Sleight每次都拿來恥笑The Lancet的笑話。


這個例子因為真的太蠢,所以他每次講,大家都笑翻了,星座怎麼可能會影響藥物對人的效果呢?但如果今天是個沒那麼蠢的分法,譬如按照國籍分成12組,或著按照年紀分成12組,大家還能夠這麼容易發現問題嗎?


依照我自己的經驗,其實是沒那麼容易的。我唸博士班的過程,有一些機會幫老闆審別人的paper。過程中還滿常發現別人統計上的錯誤,一度我還真的覺得科學真是沒救了。


直到有一天,我自己在設計實驗的時候,設計到一半去喝杯茶,喝完回來,忽然發現我分析之前,忘了先確認一個很重要的假設。


那時候忽然我就明白了,因為統計這東西真的很複雜也很難,其實犯錯是常常有的事情。而別人在審paper的時候,不一定都會拿原始的數據來分析,審paper的人可能也跟權威期刊The Lancet的審稿人一樣,會在統計思考上不夠小心,那這樣一些分析效力不夠強的paper**,就會被刊出來。


而如果我們不明所以,抓起paper,只看結果就當成決定性的證據,就會造成拿著雞毛,以為是令箭的慘劇。而按照這樣不夠扎實的基礎做出來的決定,很可能就不是一個最佳的決定。這樣就違反了evidence-based的本意了。



*P < 0.05,代表只有5%的機率取到比這個更極端的值。因為機率很小,所以我們主觀認定null hypothesis為假,我們比較的兩個東西,例如兩個平均,不是來自同個母體。但這也代表還是有5%的機率我們會在這個母體內取到比這個更極端的值,因而錯誤的否決null hypothesis。所以我們至少有5%的機率會犯下false postiive的錯誤(type I error)。所以在上面那個例子裡,犯下false positive的機率是5%,40*0.05=2,所以我們預期會有兩組出現positive result。這個不懂就算了,當作是統計好難的證明吧 XD


** 統計效力弱不代表結論就是錯的。譬如說我們看到一個分成12個sub-group的研究,顯示出當中有兩個是positive。如果是按照星座分,因為太蠢,所以我們知道這八成是假的。但如果是比較make sense的分類法,例如血液中血小板的比例,那這時候我們就不知道到底這是假陽性,還是真的是positive。




☛ ⟪沒有randomisation也非blinding⟫

在臨床測試的setting底下,randomisation和blinding是避免系統性偏誤的重要工具。

理想狀態下,當我們要做統計時,我們應該進行的動作是random sampling。所謂的random sampling,就是說在族群(population)中,每一個sample被抽到的機會,都是均等的。在這樣的狀況下,平均而言,這個些samples的特色,會和母體高度相似。

譬如說一個箱子裡有10顆紅球,100顆藍球,和30顆黃球,在純隨機的狀況下,我們抽到籃球的機率,會是紅球的十倍,抽到黃球的機率,則會是紅球的三倍。所以平均而言,我抽球抽十次,看到的比例,應該是紅球:藍球:黃球 = 1:10:3,這個就是random sampling出來的sample會貼近母體特色的概念(統計這叫做smaple representativeness)。

但這樣的方式在實際上是不可行的。以臨床測試來說,我們只能在某些醫學中心做,你可以想像這樣的狀況,會讓我們受到很多限制,讓我們沒辦法隨機的接觸到每個族群中的人,譬如離醫學中心很遠的人,可能就有比較低的機率會特地來參加臨床測試。


在這個情況下,我們只好退而求其次,進行randomisation。


Randomisation的基本概念是在消除可能由人為造成的bias。舉例來說,如果我們要研究抽菸對中樞神經的影響,但其實喝咖啡也會影響中樞神經。如果我們今天用完全隨機的方式將參與受試者分配到A和B兩個組別,理論上喝咖啡者被分配到A組和B組的機率是一樣的。


舉例來說如果我們的受試者有10個抽菸者,平均而言,隨機被分配到A組和B組的機會是50%-50%,所以我們可以期望兩組各會有5個抽菸者,至樣抽菸的影響就被消除了,因為兩組都會看到一樣程度由抽菸造成的影響。如果說剛好出現極端的狀況,譬如說A組9個抽菸者,B組只有1個,我們會知道這是運氣造成的,而不是人為產生的bias。


Blinded test的目的也一樣是在避免人為偏誤。一樣以臨床測試來解釋,一個blinded test,在最理想的狀態下,參與者不會知道自己是分配在安慰劑組,還是新藥組。這樣就可以避免安慰劑效應。而執行臨床測試和分析數據的人*,在最理想的狀態下,也不會知道這樣的資訊。這樣就可以避免先入為主的狀況。 

先入為主即使對科學家而言都是很恐怖的偏誤,我最近剛好深有所感。前陣子有回我把某種酵素(trypsin-EDTA)從-20℃的冰箱拿出來退冰,結果忘了放回一般的冰箱。第二天有個同事發現,就一直大驚小怪,還跟我說他試了好幾次,那罐trypsin都沒有活性,一定是因為沒收進冰箱,所以trypsin「死了」。


這種事情我在臺灣看過無數次了,從來也沒遇過有人的trypsin會因為這樣就死掉,所以我當時覺得怪,難道英國的trypsin比較爛嗎?


不過畢竟是自己犯了錯,我就沒跟他爭,不斷道歉以後自己把那罐trypsin收起來用,用起來根本也不覺得有差 XD


前幾天,那個當初一直抱怨的同事,因為自己的trypsin用完了,就借我的去用,拿的剛好就是那罐「死了」的trypsin。我看他按照平常的方式操作,也是做得很好,沒發現有什麼trypsin死了的問題,這樣你就知道先入為主多恐怖。


所以在實驗時,如果我們先預期哪一個組別會看到怎樣的結果,我們可能就會出現先入為主,把不存在的差異,自己腦補出來的狀況。


有了randomisation跟blinded test這兩個工具,我們就可以盡量把所有的人為bias剔除,那這樣看到的結果,除了運氣之外,就是真正受我們想要研究的因子造成的。


可是在一般的實驗室,也就是非臨床測試的setting下,這兩件事情,受限於資源和操作,基本上是不太可能達成的。事實上,就連在臨床測試的setting底下,也還是有randomisation和blinding 不可能達成的狀況。


舉例來說,末期癌症的新藥,是不可能做randomisation和blinding的。因為來的病人都是已經藥石罔效了,給他們安慰劑等於宣判他們死刑,這種trial根本沒辦法做。所以癌症新藥根本不會有安慰劑組,或做新藥與舊藥的比較,自然也沒辦法用這兩個工具。


另一種無法blinding的狀況,會發生在病人可以明確知道自己有沒有受過operation的狀況。譬如說,我想比較對於退化性關節炎的病人,服用新藥A的效果,和換人工關節的效果,哪個比較能夠回復行動能力。因為我們通常不會做shame operation(假開刀,也就是刀開了卻沒做任何事就縫起來),畢竟這有道德疑慮,所以在這樣的setting裡,blinding根本不可能達成。


實驗室裡頭,則有更多這樣的理由,會讓我們無法做randomisation跟blinded experiments,有時候則存粹是資源不夠(這兩件事情做起來,都很耗人力、金錢,和時間),而這也會影響生物實驗室裡面實驗結果的可信度。



*實務上分析數據的人,特別是統計學家,要blinding會有些困難,因為他們分析有時候會需要un-blind,才有辦法做到好的統計分析跟設計。


☛ ⟪Publication bias⟫


學術界的另一個問題,是通常能夠發表在好期刊的文章,都是要做出差異的文章。也就是說,同樣一個研究,如果我的group在實驗室做出來,是有差異存在的,譬如說服A藥的老鼠,比對起服用安慰劑的控制組,阿茲海默症的進程都減緩了,這樣的研究結果,就會比另一個group,做同樣的研究,做出來沒有差異,要容易登上期刊。

而這樣的問題就會造成一個publication bias:按照p > 0.05的標準,我們有5%的機會錯誤的拒絕null hypothesis,也就是服A藥和服用安慰劑的組別其實沒差,但是我們錯誤的否絕了這個假說的機率是5%。可倘若只有這5%做出來是有差異(false positive)的實驗,能夠被期刊接納,剩下95%的文章,都會被拒絕,那麼就會造成閱讀文章的人,做出A藥真的有效果,這樣的錯誤判斷。

而我們在做systematic review的時候,一個很重要的準則,就是納進來review的文章,不能只有出版的,沒出版的如果能夠拿得到,也要放進來參考,這就是在避免publiscation bias。

而事實上,在現在的科學界,因為大家都在追求速度,所以一個重要的發現出來,大家一定都會想要replicate這個發現。如果能夠重現,就可以以這個為基礎,繼續深入研究下去。而replicate的過程,也可以順便建立起自己的expertise,有益無害。在這樣的情況下,多少可以減低publication bias造成的影響,這點在下一篇文章,我會做進一步的說明。


☛ ⟪巷子內人的遊戲⟫

單一科學論文做EBM,沒有那麼值得相信的原因,還有一個,那就是大多數刊載於學術期刊的研究,其實都已經太專精了,專精到即使是受過科學訓練,但不是在同一個領域的人,都不一定有辦法看出一篇研究論文到底做得好不好。

這點其實有時候在FDA, EMA或著MHRA這類審核藥物上市的機構,也會見到。一種狀況是,他們在審藥的時候,請的顧問,可能和做臨床測試的藥商有利益衝突。這並不是說他們不知道要利益迴避,而是在某些罕見疾病的領域裡,可能專家就那幾個,而一個新藥,可能就是這幾個人的研究成果累積出來的。因為他們是專家,所以很多地方你還是得請教他們的意見,也因為這領域太專精,其他領域類似的人不一定有辦法做出好的判斷。

接著讓我們回到實驗室。我前陣子就經歷過一個很有趣的「巷子內人才知道」的事情,不過開始之前,我得先說一點點高中化學。

讓我們來假設一個情況:今天有一個蛋白酶E,他可以把他的substrate S切成S'和S''兩個部分。這時候我們就可以寫出一個等式:⟪E+S ⇌ E+S'+S''⟫。

這個過程,是由酵素先和substrate結合,變成一個ES的複合物,然後再由酵素把S給切掉,變成ES'S'',然後酵素再和S'與S''分離,變成E+S'+S''的狀況。

而按照我們學過的化學原理,在S的濃度固定的情況下,我們加入E,E的濃度,會決定最終達到平衡時,S和S'+S''的量。

但如果說今天E對於S的affinity很高,那只要濃度相對低的E,就可以把這個平衡式往右邊推。反之,如果affinity很低,那就要很高濃度的E,才能把這個平衡式往右推。

這就告訴我們,只要濃度給得夠高,就算是專一性很高的酵素,也可以切一些本來在生理狀況下,不是他substrate的東西。這個在生科實驗待過的人應該都知道,有些restriction enzymes,如果給的時間夠久,濃度放夠高,他們就會亂切你的DNA。

那現在問題來了。今天我們看到一篇paper,他用10mM的酵素濃度,加上1mM的substrate濃度,發現這個酵素可以切這個substrate,所以宣稱他們找到了這個酵素的substrate。這時候你要怎麼判斷,他們用的濃度合不合理?

這幾乎是一個沒法回答的問題,因為每一個酵素,都有他自己特別的特色,所以怎樣的濃度合理,是一個case by case的狀況。但我隔壁實驗室的人,他們就很有概念,因為他們有很多研究酵素的經驗,所以他們對於幾種特殊的蛋白酶,在怎麼樣的濃度底下,會開始亂切,怎樣的濃度下則專一性很好,就會有比較正確的認知。

我剛到這個研究機構時,有一次因為研究的需要,拿了一篇類似這種蛋白酶切他substrate的paper去請教他們,我當時以為,那篇paper找到了一個還不錯的substrate,我可以拿來用在我的實驗。

結果那間實驗室的PI,馬上翻到materials and methods的部分,看了他們用的濃度,然後再翻到paper的開頭,看了作者的名字,google了一下,接著就哈哈笑兩聲,跟我說不要太相信這篇paper的結果,因為那個酵素的濃度太高了,跟他們的經驗不符,然後這篇paper的作者不是來自做酵素的group,所以他們很可能沒有這個sense。

為求保險起見,他們還是幫我試了一下,然後過了一個禮拜,就跑來跟我說,那個結果真的不太reliable,在那個濃度和反應時間下,酵素甚至會自己切自己。

這個就是很典型,巷子內的人才會有辦法判斷的狀況。我的領域雖然和他們相去不遠,但他們沒跟我說之前,我也對於怎樣是合理的濃度沒概念,甚至他們自己,也只對某一類的蛋白有概念,其他的類別他們也沒那麼了解。

舉這個例子,並不是說科學就只有該領域的科學家能玩,paper只有少數人看得懂。而是說當你不是那個領域的專家時,看paper要很小心,要多收集資料和多問人。只憑藉一篇paper,就很可能會遇到類似我上面的情況,把一篇rubbish paper當成支持你論點的證據。


☛ ⟪證偽的侷限⟫

這篇的最後,我想講一下在實驗科學裡面,使用科學方法的一個很大侷限。

我大學時上過一門羅輯課,整系列的課我都在混,只有一個故事被我聽進去了,但光這個故事,就非常值回票價。

這個故事叫做天下的貓,都是黑的。

故事是這這樣的:

有一天,馬小九和陳小扁打賭,說全天下的貓,都是黑的。

陳小扁很高興的賭了,他跟馬小九說,你是不可能贏的。

馬小九不相信,就帶陳小扁去附近,連續抓了五隻貓。果然,五隻都是黑的。

馬小九得意地說:「怎麼樣?我贏了吧?」

陳小扁說:「還早勒,才五隻而已。你說的是全天下的貓都是黑的。你只要找到一隻貓不是黑的,你就輸了。」

固執的馬小九聽了很不高興,就開始他的無窮無盡的抓貓之旅。旅程中,每隻他抓到的貓,都是黑的。可是每次他拿去給陳小扁看,陳小扁都會說,那是因為你還沒有抓完全天下的貓。

堅持抓完全天下的貓,是大是大非、利大於弊的馬小九,就繼續抓、繼續抓、繼續抓。有一天,他覺得自己抓完全天下的貓了,就跑去跟陳小扁說,真的全天下的貓都是黑的。

陳小扁卻說:「你怎麼知道你真的抓完全天下的貓了?我說還有一隻不是黑的你沒抓到。你再努力找找。

找了數十年,已經從帥氣小馬哥變成垂奶九趴馬小囧的馬小九,卻怎麼也找不到另一隻貓,於是他就回去跟陳小扁說,他真的把全天下的貓都抓完了。

陳小扁卻說:「你找不到,不代表不存在,你要繼續找,拼命找,但你永遠也不會知道是不是真的還有一隻不是黑色的貓你沒找到。所以你是不可能證明你是對的,這場打賭,是我贏了。」

這當然是一個很智障的故事,不過他說明了關於論述的不可證實性。我們要證偽一個論述,非常簡單,只要找到一個反例就行了。譬如「天下的貓,都是黑的」這個論述,只要你找得到一隻不是黑色的貓,這個論述就被證偽了。可是當你找不到反例,或無法證偽這個論述,卻不代表這個論述就是對的,因為永遠都有可能,只是你還沒找到那隻不是黑色的貓而已。

這個就是科學方法的侷限。我們做科學的人,都想要提出理論。這些fancy的理論,才是讓我們感到興奮的東西,是所謂的eye-catching results。但是我們最多,也只能做到證偽其他我們想得到的可能性(也就是其他的alternatives),並用一些間接的證據,來支持我們的提出的理論。

所以我們這些做實驗的科學家,不會說我的data證實了(proved)某件事,而會說"our data support/indicate/suggest"我們的理論。這不是說我們比較保守,不喜歡把話說死,而是科學方法上,我們真的就沒辦法證實我們的理論是不是正確的。

這個侷限和統計的hypothesis teating,其實是一曲同工之妙,而受限於這兩個我們在實驗科學上最重要的工具,讓我們很難只靠單一個paper下很紮實結論,因為大多數的paper,都只是一篇提出假說的paper,而不是證實了一個理論。是以,based on單一paper的EBM,自然也就可信度很低了。





這篇說了很多關於科學的弱點,好像科學證據,是很不可信賴的東西一樣。不過這絕對是一種誤解。我在這篇要強調的,是單一一篇paper,並不是證據力很強的證據,而不是說科學產生的證據,是不可信的。這個論述看起來好像有點矛盾,不過等下一篇我說明完了之後,各位就會明白為什麼了。

2015年2月15日 星期日

Evidence-biased misunderstanding (1) --- what is EBM?

前陣子看到潘建志醫師在部落格和臉書刊出兩篇關於「實證醫學」的文章,說明他由實證醫學的例子,得出限制酒精廣告的結論。



這兩篇文章有其對實證醫學誤解之處,也有對醫學研究解讀不夠嚴謹的地方。本來是懶得鳥他,不過因為潘醫師要出來選舉,而且居然打著實證醫學的名號要推動這個禁止廣告含酒精飲料的法案,這就有比較大的影響,有必要提出來討論一下。加上最近看到一些關於科學的討論,發現不少人對於如何應用、解讀科學的結果,讓它變成政策或著決策的一環,還是有根本性的誤解,所以乾脆就寫篇文章,稍微解釋一下我對於現在很流行的evidence-based decision making的理解。由於我自己的背景還是比較偏向醫學和生物醫學的研究,所以在解釋的時候還是會以實證醫學(evidence-based medicine, EBM)為出發點,舉一些臨床和生物學研究的例子。

要講EBM,就得先解釋一下什麼是EBM。

不過在給定義之前,我想先說一個小故事。


☛ ⟪實證醫學的起源⟫

我在高中的時候,有一次膝蓋受了很嚴重的傷,甚至沒辦法走路。受傷的第一時間,我被送到家裡附近的健保中醫診所,那裏的治療師幫我「推一推」,然後就叫我回家了。

但後來發現我根本無法走路,覺得應該不是喬一喬就可以的問題,所以我去了家裡附近的大醫院掛號。那裏的醫師這裏摸摸那裡碰碰,直接宣告我的十字韌帶應該是撕裂了,馬上就要幫我安排關節鏡手術的時間。

我那時候聽了嚇一大跳,對那個醫師又不熟,不知道給他開刀好不好。剛好有一個很熟識的長輩是某大醫學中心的骨科主任,就跑去找他尋求第二意見。他也是在診間摸摸碰碰,叫我做一些動作,後來告訴我,我應該只是傷到側邊的小韌帶,前後十字韌帶應該都沒事。

於是我現在有了兩個不同的「專家意見」,在沒有其他證據的情況下,我該如何決定要相信誰呢?或著我們換個狀況,今天兩個醫生在討論我的病況,一個認為我十字韌帶斷了,需要開關節鏡,另一個認為我只是傷到小韌帶,只要好好休息就好,他們兩個要怎麼知道,誰才是在替病人做出最佳的醫療診斷與治療?

這樣的問題在臨床上其實已經存在很久。在沒有統一資料的情況下,每個醫生可能都有自己診斷和治療的偏方,這些偏方都是基於自己的經驗,可是卻沒辦法被驗證,知道自己是否替病人做出了最佳的處置。

而EBM,就是為了解決這樣的難題,而被發明出來的一個「decision making process」。雖然是一個很早就有的概念,但EBM這個概念比較精細的定義,是一位叫做Archie Cochrane的英國教授,於他的著作中提出來的。這個概念後來被Duke University的David Eddy進一步發揚光大,並第一次在正式發表的文章中,使用了evidence-based這個詞。大概在同個時代, McMaster University的Gordon Guyatt和David Sackett兩個人,前者提出了"scientific medicine"的概念,將科學方法導入了醫學研究之中,後者則提出了"critical appraisal"的概念,替EBM建立起了基礎的方法學,也讓當今的EBM雛型得以形成。

後來這個概念就逐漸被發揚光大,以英國政府為例,他們在Oxford建立了以Archie Cochrane為名的Cochrane Centre來推動EBM,EBM的使用也逐漸變成醫學間的主流共識。對於EBM更詳細的歷史,有興趣的人,可以參考這篇文章:


☛ ⟪實證醫學的定義⟫

那麼到底什麼是EBM呢?

如前所述,它其實是一個做決定的過程(decision making process)*。它的做法,是評估我們手上有的最好證據,讓我們可以依據這樣的證據,盡量讓我們的醫療行為(clinical practice)達到最佳化的結果。我們可以利用這些證據,做出最合理的醫療決定,使病人得到最大的利益。

舉例來說,如果我們今天有A和B兩種藥,可以用來治療類風濕性關節炎。我手上的證據顯示,70%的病人對於A藥有良好的反應,且副作用很低,但只有20%的病人會對B藥有反應,而且副作用還很嚴重,那我就可以推論說,在沒有其他證據的情況下,讓我的病人先服用A藥,應該是可以由這個證據得出來的最佳決定。

* 以下附上David Sackett對於EBM的定義原文: "Evidence-based [health care] is the conscientious, explicit and judicious use of current best evidence in making decisions about the care of individual patients…[it] means integrating individual clinical expertise with the best available external evidence from systematic research."


☛ ⟪實證醫學上的證據可信度等級⟫

在知道這個定義之後,我們馬上就會面臨執行EBM時的兩個問題。

第一個問題是,如果證據相互衝突時,我們該怎麼辦?

為了解決這個問題,科學家和醫師,還有統計學家做了很多努力,替更各種證據做出了分級(evidence hierarchy)。一般比較常看到了分級,是類似這樣的金字塔圖:


這樣的金字塔圖雖然好用,不過卻有把問題過度簡化的問題。我個人比較偏好Oxford EBM Centre的分類法:




為了不讓這篇文章變得太複雜,怎麼分類的細節我就不解釋了。總之結果就是我們現在有了這樣的證據分級機制,因此當證據相衝突的時候,我們會把證據力比較高,也就是在金字塔比較上層的證據,在評估時給與更高的比重。以剛剛治療風濕性關節炎的藥物為例,如果有systematic review的證據顯示說A藥效果比較好,這樣的證據力就會大過一個說B藥比較好的cohort study。

而如果我們用潘建志醫師在他blog引用到那篇⟪The Lancet⟫的文章來當例子,然後對回去Oxford Centre of EBM的表格,你會發現他並不全然是一篇systematic review的文章,也就是他在證據力上面,並不是處於最高的位階。所以除非我們手邊只有這一項證據,不然只靠這篇文章就做出強烈的論述主張,甚至想將之入法,其實是頗不負責任的做法。


另外我想要強調一下,如果仔細看一下那個表格的最後一行,就會發現大部份的「生物醫學研究」,是被排在證據級距中,最低階的一級。所以網路上常常有一些基於某些特定論文研究,做出強烈論述的文章,譬如說反對基因改造食品,主張基改食品對健康有害的"科普文",他們在證據力上,其實是很弱的。這類單一研究論文的證據力之所以弱,有好幾個不同層面的原因,這個我們後面再做解釋。

關於證據等級,還有另一點我想要說明。

我們可以看到證據可信度最高的,不管在哪個領域,都是systematic review。Systematic review,和我們一般當研究生時,做的literature review,是不一樣的。它之所以叫做"systematic",就是因為它是依據一套有系統性的方法,來去做這個review的動作。這套方法,常常會包含meta-analysis這樣的統計技巧,而搜尋文章和納入的方式,也有其一定的標準。也就是說,並不是你把某幾個關鍵字打到PubMed, Google或其他資料庫裡,找到幾篇支持你論點的文章,就叫做systematic review。

對systematic review有興趣的朋友,可以閱讀這篇文章:What is a systematic review

所以當我們檢視證據的時候,最好的方法,就是去搜尋別人已經替你做好的systematic review,特別是那些有包含meta-analysis的systematic reviews那就更好了。這樣就可以省去自己做systematic review的麻煩,也可以直接用證據力最強的證據,來了解某個議題。


☛ ⟪實證醫學證據的解讀⟫

讓我們回到剛剛那個類風濕性關節炎的例子:

『今天有A和B兩種藥,可以用來治療類風濕性關節炎。我手上的證據顯示,70%的病人對於A藥有良好的反應,且副作用很低,但只有20%的病人會對B藥有反應,而且副作用還很嚴重,那我就可以推論說,在沒有其他證據的情況下,讓我的病人先服用A藥,應該是可以由這個證據得出來的最佳決定。』

這個是一個很標準的簡化版EBM決定過程。這裏客觀的證據顯示,對A藥有反應的病人,在比例上超遠超過對B藥物有反應的病人(70% vs. 20%),且A藥的副作用比較小。到這裡都還是事實陳述的部分。

在看到這個事實之後,我做的推論是,因為對A藥有反應的病人遠多過B藥,因此我手邊這個病人,對A藥有反應的機會比較大。且由於A藥的副作用較低,因此先嘗試A藥似乎比較合理。

這是一個看起來極為合理的推論,但是不要忘記了,這仍然是我主觀的推論,而不是客觀事實。我手邊的病人還是有可能是屬於那個對A藥沒有反應的30%,且可能他對A藥會產生少見而強烈的副作用。

舉這個例子,主要是要說明,雖然EBM是based on evidence的decision making process,但這個decision making process的動作,還是相對主觀的,也會受到我如何解讀證據的影響,因此,在做這個decision的時候,還是必須非常小心。

在理解實證醫學的概念時,一個一定會提到的觀念,叫做critical appraisal。簡單來講,critical appraisal就是利用systyematic的方式,去批判、評估某一特定證據的意義和強度(robustness),這和systematic review一樣,是有特定方法的,網路上也有很多資源可以讓你練習,譬如著名的CASP toolkit

值得注意的是,critical appraisal很重要的一個環節,就是要從方法上去理解產生出來的證據,信度和效度如何,解釋力到什麼地方。透過這樣的方式,也才有辦法瞭解證據告訴你的到底是什麼,並做出相對正確的決定,達到EBM將醫療行為「最佳化」的目的。

接下來我就以潘建志醫師引用的那篇⟪The Lancet⟫文章當作例子來說明。

這篇名為⟪Drug harms in the UK: a multicriteria decision analysis⟫的文章,利用的方法,是找一群該領域的專家,針對20種藥,以16種評斷標準,用一種叫做multicriteria decision analysis的方法,作出評分。這16種標準,可以大致分為「對個體的傷害」和「對他人的傷害」這兩大類。

為了讓這16種標準的評分可以比較,他們將每一個項目的評分給予了不同的權重,讓他們可以放到同一個量尺上去比較。為了方便理解,我這裡舉個簡單的例子說明。譬如說,我們針對海洛英做評分,在「直接致使用者於死」這件事情上,他得到80分(滿分100,越高越嚴重),而在「令使用者喪失工作能力」上,則得到90分(一樣滿分100,越高越嚴重)。

但我們可以很直觀的認知到,這樣的評分有問題,因為「直接致使用者於死」的嚴重性,應該是高於「令使用者喪失工作能力」,所以「令使用者喪失工作能力」的90分,影響力應該低於「直接致使用者於死」的80分。這時候為了讓這兩個分數可以放到同一的量尺上相加,我們就給予「直接致使用者於死」比較高的權重,例如把「令使用者喪失工作能力」這項分數乘上0.7,這樣就可以讓各項的分數相加,做成下面這張圖:






由這張圖中我們可以看到,酒精是20種藥物之中,綜合加總分數最高的。尤其是他「對他人的傷害」這項分數特別高,在他72分得總分上佔了超過一半,甚至超過第四名安非他命的總分。

也就是藉由這張圖,讓潘建志醫師,在臉書上做出『醫學研究証實,酒精的危害總和遠勝任何毒品(見附圖,出自Lancet,剌胳針,國際最重要醫學期刊之一)。』這樣的結論。

但如果你仔細去看這篇研究的研究方法,他們在評估「對他人的傷害」時,是有把藥物的使用者數量間接納入考量的。而這就暗示了,在「對他人的傷害」這一項上面,藥物分數的高低,會受到當前各種藥物的"availability"影響。那些相對容易取得,使用者也多的藥物,在這項分數上面可能就會高,而這就會造成解讀上的困難。

舉例來說,當我們看到酒精對他人的危害遠高過海洛因時,其實有兩種可能性。第一種是酒精在使用人數上遠高過海洛因,同時在每個使用者造成的危害上,也高過海洛因。另一種可能,則是每個酒精使用者造成的危害只有海洛因的1/20,但是使用者卻是海洛因的100倍(數字我亂給的)。

也就是說,我們看到的那個數字,反應的是當前英國社會對各種藥物採取管制之後,達到平衡做出來的結果。而這代表的是,除非臺灣在藥物管制跟使用普遍性上,和英國極為相似,不然我們很難直接把這樣的結果套到臺灣社會上。

更嚴重的是,由於這個研究只有評估「藥物造成的傷害」,而沒有把藥物的好處納入計算,所以這其實是一個非常偏頗的評估,因為每個藥物,都會有其有益的部分,也有其有害的部分,這跟使用方式,還有藥物使用的劑量,都有關係。這篇文章因為把益處全都捨棄了,所以它評估的狀況,其實有一個"misuse"的預設前提。

舉例來說,像是酒精飲料,在合理劑量下,可能對健康有益,也可以帶來經濟成長和工作機會。這類的益處,也必須以EBM的方式放入評估,然後在cost-benefit上做一個平衡,才能夠真正客觀的知道我們現在的管制是否需要修正。

最後,也是最根本性的問題,在於潘醫師想要推動法案的理由,是想要降低酒駕造成的傷害。可是他並沒有夠好的證據指出,禁止廣告代言,會漸少酒駕。我們可能會很直觀地認為,如果廣告可以降低飲酒人數(這個假設同樣沒有證據),因此可以降低酒駕人數。但這樣的連結其實不夠強,至少絕不是這篇權威The Lancet論文有辦法支持的論述*。所以這並不是像潘醫師說得那樣,是醫學實證的結果,反而比較像是誤解了研究解果,並以之支持自己的信念,這是相當違反科學精神的做法。


*我只針對這篇臉書上的文章做反駁,而沒有納入他blog裡的其他研究文章,因為其他研究我載不到,但他在推論上的問題相當類似。


☛ ⟪單篇論文的證據強度⟫

前面有提到單篇論文的證據強度通常不足,可能會讓不少人感到訝異,畢竟這些論文,都是科學的結果。難道科學這麼不可信嗎?

在開始解釋這件事情之前,我先讓大家看一些數字。我手上的數據不夠完全,所以只能讓大家看個大概,不過還是可以讓大家對這個現象的"scale"有一個基本的概念。

在2011年一篇叫做⟪Retracted Science and the Retraction Index的文章中,作者發明了一個叫做retraction index的東西(rate of retraction per 1,000 papers),來評估一流期刊的retraction rate,並將各期刊的retraction index和impact factor做成correlation,生出了下面這張圖:



我沒有很仔細的去看他的original data,然後去跑stats,但這個correlation不一定太有意義,大家姑且看之。重點在於你可以看到幾個極有名的期刊,他們的retraction index都很高,譬如Nature, Cell, Science,當然還有NEJM。

而根據一個叫做retraction watch的網站做的統計:


你可以看到retraction的絕對數字,其實是相當低的,某部分這也是我們對於科學還是相對有信心的理由。不過這些都是所謂"highly renowned journals",所以我們還是認為這不是一個太好的數字。另外沒被retracted的papers,並不代表結論就是正確或結果能夠被重現的。另一個不好的消息是這幾個top journals的retraction rates都是在往上走的,很多人都把這視為一個警訊:




此外現在因為open access journals大行其道,很多rubbish papers會被pulished到上頭,可能根本沒人看,也沒人想要嘗試重現他們,當然也不會被retracted,所以這個現象還是引起了不少重視,譬如Nature自己就有針對這個議題寫新聞:


而諾貝爾獎得主Randy Schekman也針對這件事情投書過,表明將杯葛這些top journals。

⟪How journals like Nature, Cell and Science are damaging science⟫

這類對於retraction問題的重視,對增加科學的品質,還有證據的強度,都很有幫助,所以某種程度上,科學研究的文章,還是相當有價值。

那麼為什麼這些科學研究文章,在Oxford Centre of EBM的分級裡面,會位在最底層呢?這其實和scientific method和stats的本質有關。接下來的文章,我會針對這個部分做比較詳細的解釋。

2015年2月2日 星期一

Unscrutinised, excessive empowerment is the best way to cultivate another Lord Ruler

柯文哲最近在新聞上獨領風騷,眾家媒體也努力維繫臺灣製造業的競爭力於不墜。

在眾多讓人搞不清楚是失言還是媒體創作的柯語錄中,最讓我梗梗於懷的,還是他對於監聽的看法。

無獨有偶,賴清德市長在大戰臺南市議會之後,又提出了女星不應代言酒品的言論。和柯文哲一南一北,這兩個神字輩醫師胡說八道的背後,其實反映出來的是同樣令人害怕的價值觀。


Brandon Sanderson在他的經典之作-迷霧之子中,創造了一個所向無敵的統御主 (the Lord Ruler)。

隨著故事的發展,我們明白了原來這個殘暴自大的統御主,其實並沒有那麼壞。他壓制了毀滅一切的神祉滅絕 (Ruin) ,然後用他能夠改變世界的力量,創造了最後帝國。但是統御主缺乏足夠的知識,他把太陽移得太近,讓生命無法存活,於是他只好再創造出灰燼,擋住殺人的陽光,但也因此讓植物永遠枯黃。

他把世界弄得一塌糊塗,卻也讓世界能夠苟延殘喘。

後來同樣的力量被知識的守護者沙賽德擁有,他用正確的知識,把太陽擺回正確位置,把世界變回本來的面貌。

小說的故事總是擁有美好結局,現實世界卻比較殘忍。在無情的現實中,情況也很可能是反過來的- 擁有知識的沙賽德被後來的統御主取代,然後統御主用他無窮無盡的力量,出於好意也好,基於自己的野心也罷,讓這個世界陷入混亂。

或著也有可能有天沙賽德轉了性、瘋了,沈醉於自己無可比擬的力量,然後決定讓世界變得恐怖,讓人類受苦。更可能沙賽德的知識還是有缺陷,或著他有某些偏見,於是他的世界出現了可怕的瑕疵,眾人卻無力去挑戰他。

在現實世界中有太多種可能,會讓這個擁有太多力量的人,帶來惡果。

我們的政府首長,其實就是迷霧之子裡的統御主;而政府機關,就是那個可以改變世界的力量。當我們把過多的力量賦予某個人,也就等於給了他帶來難以收拾的可怕惡果的能力。

像是柯文哲的監聽說,即使我們相信柯文哲現在是為了做好事,也難保他以後不會變壞。即使我們相信他永遠不會濫用這個權力,也無法保證臺灣政壇之後不會出另一個統御主,用這個權力奪取自己的利益,傷害人民自由。

如果我們因為賴清德的guts,就認同他反對藝人代言酒品的言論,難保以後不會出現另一個統御主,禁止藝人代言打電動、代言臉書、代言摩托車,或著一切這個統御主不喜歡的東西。

所以最好的方法,就是一開始就不要把這樣的權力賦予他們。

我認為法律之所以存在,最重要的目的就是要限制國家的無限擴權。我希望這些新上任的縣市首長,在法律允許他們做事的範圍內,用最高的效率,把市政做好。但我不希望他們為了把市政做好,而能夠凌駕於法律之上,或著隨意改變法律,擴張政府的權力。

柯文哲上任以後,一件一件檢驗臺北的建設案。透過他的努力,我們看到了一個權力不受限制與監督的政府,可以多輕鬆地用合法的方式,做出不合理的事情。在這樣的情況下,我們還要繼續相信「大政府」,是利大於弊嗎?

要防止這類事情再度發生,我們需要的是公開透明,而不是更大而有為的政府。柯文哲截至目前為止的確是個還不錯的市長,看起來也是個值得信賴的人。但對於人的信賴,永遠不應該高過對於權力的警戒。柯文哲除了興利除弊,更重要的,恐怕還是要立下公開透明的制度,還有限縮政府無限擴張的權力。否則即使他做得再好,下台之後,只要換上一個統御主,就前功盡棄了。

柯文哲不會是完人,也沒有人會是。我們必須牢牢記住這點。然後我們得時時提醒自己,不要繼續沉醉於自己對明君聖王的想像。從陳水扁開始,一路到馬英九、賴清德和柯文哲,我們都可以看到臺灣人對賢明統治者的渴望,甚至你從柯文哲自己對於蔣經國的讚賞,也可以見到這種根深蒂固,卻錯得離譜的價值觀。

推翻獨裁政體最大的優點,在於把參政權還給人民。既然我們有了參政權,就要努力行使它,而不是懶惰得把這個權力,通通再交給某個我們心中的完美人選。

我們需要強悍的制衡政府,限制他們的權力,不然就很可能會反過來,被政府給限制自由。

有的時候,為了對抗政府,我們會需要強大的人物。但這樣的人物,一旦掌了權,就得被當成另外一個政府對待。迷霧之子中,我最喜歡的角色是凱西爾;而我最喜歡的橋段,則是凱西爾的死亡。

凱西爾在故事裡,為了化解大家對於統御主無敵的恐懼,把自己經營成了另外一個神。但我認為這也成了他不得不死的原因。他透過對自己死亡的巧妙安排,讓倖存者這個名字被神格化了,使得人民得到了反抗統御主的勇氣。可是也因為他的死亡,讓這個被神格化的人物永遠無法掌權,所以這個故事才不會有第二個統御主。

在現實世界中,被選為臺北市長的柯文哲不像凱西爾是迷霧之子,擁有無堅不摧的力量。反而是我們這些公民,只要願意參與政治,就會擁有如同鎔金術般足以撼動政府、限制濫權的力量。

美國第三任的總統Thomas Jefferson曾經說過:"When the government fears the people, there is liberty; and when the people fear the government, there is tyranny." (當政府懼怕人民,這就是自由。當人民懼怕政府,這就是暴政)。

我喜歡自由、痛恨暴政。所以我反對政府擴權,也反對賦予政府任何可能侵犯人民自由的權力。就算這個人在臺北市打敗了我最討厭的國民黨也一樣。

2015年1月19日 星期一

尊重你的孩子

這幾天看到有個臺灣孩子用自己的零用錢偷買iPhone 6,結果被媽媽斥責並沒收,之後跳樓身亡的新聞,心裡還滿難過的。




因為不清楚詳細情形,所以也很難評論太多。不過這個悲劇讓我想起了一個故事,我覺得滿有意思的,想和大家分享一下。

大概一年前,我還在臺灣,正在混日子等出國。為了讓自己的生活規律一些,也照顧一下健康,我天早上起床以後都會做一點運動。後來發生了318學運,我發現要和這個政府對抗,隨時要上街頭,沒有強健的體魄還真辦不到,所以除了每天早上的運動,每個禮拜我都會選一天到家裡樓下的健身房,做一些重訓。

強迫自己一個早上完成兩攤重訓其實對意志力的負荷還滿大的。為了平衡,我就獎勵自己,在那個做兩攤重訓的早上,重訓結束之後可以去家裡附近的公園打球。我一直都很喜歡打籃球,但是因為身上太多傷,所以一直自我限制不要太常打。重訓完去打的好處,是通常我都已經很累了,就不會勉強自己,去和別人鬥牛。而且那是平日的下午,所以不會有太多人,也就沒有太多鬥牛的機會,所以可以保護自己,又可以享受一下打球的快樂。

那時候三不五時會遇到一個小鬼,應該是附近小學的學生。我到現在還搞不清楚他是翹課出來,還是一個禮拜有某一天會比較早放學,所以他會出來打球。小鬼很明顯滿愛鬥牛的,常常找我單挑。

打著打著,當然也就會聊上幾句。有一次,小鬼跟我說:「你速度好快,但你投籃都投不進。」

他講的完全是事實,因為我做了一早上的重訓,根本手軟腳軟,球都舉不太起來,不過沒想到會被小鬼嗆,實在覺得很有趣。

後來又有一次,小鬼問我:「你為什麼都不防守左邊?」

另一次,他問我:「你上籃怎麼都不喜歡跳?」

那時候我就發現這個小鬼觀察相當敏銳。

我以前打球的時候,曾經非常嚴重的傷到左腳踝,到現在還有很多後遺症,在累的時候,三不五時會腳軟。所以我一般跟人家鬥牛,防守時都是用猜的。鬥牛的時候,大部份的人都是右手比左手強很多,所以我都會直接站在對方右手側。但是只要對方變方向往左邊切時,我第一時間沒猜到,我就會直接讓他過,因為我不想讓我的左腳因為快速橫移承受太多力量。

然後我大學有一段時間,大概是過往打球打太多的後遺症,背和腰都常常會不舒服。最嚴重的時候,我只要打完比較激烈的比賽,就會痛到一整個晚上要趴在床上休息,睡不著但也不太有辦法動。這也是後來我退出學校球隊的主因。

從那個時候開始,我就盡量減少切入之後在空中和人家對抗的機會,這樣通常會讓我的腰和背比較舒服一些。因此那時候常常打球,每次切進去就一直找人傳球,不太願意跳起來上籃。

腰和背的傷,後來因為停了很長一段時間沒打球,自己就好了。但可能是心有餘悸,讓我不太喜歡切進去上籃的時候跳來跳去。

也就是說,那小鬼全講對了,這些真的是我打球的習慣。

因為喜歡他的敏銳,所以雖然他是一個非常靠北的屁孩,我還是滿願意和他聊天的。我們天南地北的亂聊,有一次他說我打球好強,我都快要笑死,我們年紀差那麼多,體型和體能都有巨大的差距,他當然打不過我。不過後來想了想,我很認真的跟他說:「雖然我現在比你強是因為你還沒長大,但是我滿確定我跟你一樣年紀的時候也比你強,因為我那時候比你更想贏。你為了不要被我騙,所以不願意認真防守。我以前不會這樣。被騙一次,我就更認真防守,直到我跟得上為止。」

我其實還滿驚訝自己會這樣說的,因為現實生活中,遇到不熟的人時,我大部份都是一個順著別人口氣說話,然後滿嘴好話的人,很少表達自己心中真正的想法,像我一個南部的長輩,到現在每次看到我都還會跟我說:「我們的興農牛居然解散了。」,但我其實根本不太看中華職棒,只是看他喜歡,我就隨便跟他瞎聊。反正本來就只是無腦的社交談話,講什麼也不重要,順著口氣說話比較不會有紛爭。

那時候我就發現,我心中可能滿認同這個小鬼的,所以比較願意跟他說一些事情。我這個人是這樣的,大多數時候我都隨隨便便無所謂沒主見,但如果我開始認同你的能力,或認同你這個人,或著認為你受過相關的訓練等等,那我就會開始用比較高的標準看待你,這樣你才會比較常聽到我對你的評價。

也滿奇妙的,從那一次開始,這個小鬼就開始會問我一些奇奇怪怪的問題,有一些還滿認真的。譬如有一次,我們一樣坐在球場旁,他問我現在是不是在上班。

我說:「沒有耶,我在等著出國唸書。」

小鬼說:「襪靠!那你英文很好喔?」

我說:「還好啦。」

小鬼說:「Hello!」

我心裡覺得好笑,現在是怎樣,考我嗎?就回他:「Hi, how's going?」

小鬼就說:「襪靠你比我厲害!」

講到這裡我真的笑翻了,就跟他說:「廢話我學英文的時間搞不好比你的年紀還大。」

結果小鬼忽然天外飛來一筆問我:「那你教我英文好不好?還有數學。」

我聽了有點傻眼,不過想說反正是在等出國,就跟他說:「好啊,你有問題可以問我,不過我不會在臺灣待太久喔,而且我應該不是好老師。」

想不到小鬼還真積極,立刻就跟我要電話。

後來連續幾個禮拜沒遇到那個小鬼,有一次假日閒著,跑去公園走走,又遇到了那個小鬼,小鬼旁邊跟著他的媽媽。

小鬼跑來罵我髒話,被他媽媽聽到,他媽媽跑來跟我說不好意思,把小鬼罵了一頓,小鬼被罵以後就跑走了,而我就這樣和小鬼的媽媽聊了一會兒。

小鬼的媽媽好像對這個小皮蛋很煩惱,覺得他整天調皮搗蛋不唸書。後來發現原來我就是那個打籃球的哥哥,跟著聊起我要出國唸書的事。小鬼的媽媽誇獎我愛打球又會唸書,問我怎麼做的,我就跟阿姨說,我以前其實比小鬼還要瘋籃球,只是後來腳斷掉了,沒辦法打,才回去唸書的。阿姨說我客氣,但也就沒再追問。

我好奇的問:「阿姨為什麼不問問看您兒子為什麼不喜歡唸書?他上次有問我可不可以教他英文和數學,感覺起來他還滿好學的啊。」

阿姨愣了一下,好像從沒想過他的兒子會主動要學習,說:「哎呀他知道什麼?一支嘴糊累累而已。」

那時候我就有一種很深的感覺,覺得這個小孩子根本沒有被認同,當成一個能夠理解事情、表達想法的人來看。他也沒有被尊重,被當成獨立的個體,能夠和「大人」對等的說話。

但這和我知道的小鬼差滿多的。他是很屁孩、頗沒禮貌,但是他絕對不是一個不會想、不會思考,什麼都不知道的小鬼。相反的,他之所以沒禮貌,很多時候其實是他很犀利的觀察,在沒有包裝的情況下,就脫口而出的結果。

我大概可以了解這個小鬼真的不是太愛唸書,也不是很努力的人。畢竟他防守的時候,會選擇保持自尊不要被騙,而不是寧可被騙也要努力讓自己進步。而且他跟我要了電話之後,一次也沒打過來。

但是我卻無法不回想起當初他要我教他英文數學的時候,那個很真誠的眼神。我相信他那時候說的是真的,只是他的自尊心讓他沒辦法示弱,也可能對於學習不夠渴望。然而,我不禁懷疑,他的無法示弱,有多少是因為他不被大人認同,沒有被對等的對待造成的?會不會就是因為大人總是小看他,不尊重他,不接受他是一個會思考的個體的事實,所以他更要假裝自己很厲害。只要我不輕易嘗試,就不會被發現我其實不行;只要我不失敗,就可以不承認我其實沒有那麼厲害的事實。以他的敏銳程度,他會看不出來大人怎麼看待他嗎?如果他看得出來,這種被小覷的感覺,有可能不傷人嗎?

回想起那個他請我教他英文數學的情景,還有另外幾次,少數他要我教他某些籃球技巧的時候,其實滿明顯都是發生在我因為他觀察力頗為敏銳,而願意多跟他說很多事情之後。

這又讓我想起了其他好多時候,當我爸媽和朋友聚會,朋友有年紀小我很多的小孩時,我負責和他們玩的情景。因為我自己本身很幼稚,所以跟他們玩也還頗樂在其中,同時,我也滿愛聽這些小朋友說話的。

他們的人生有很多我不瞭解的部分,也往往讓我驚奇。有愛少女時代愛到痴狂,能夠對他們事蹟如數家珍的小鬼,我看到他在一個叫什麼「最愛少時」之類的粉絲團扮演要角,找到自我認同,還學了舞,也會了些韓文,讓我看到了一個好不一樣的世界。

也有一個喜歡自拍到痴狂,生日得到一個自拍神器,開心炫耀給我看的小女孩。然後她告訴我好多自拍的技巧,我們也一起研究練習,那時候我才發現原來自拍其實也不是一件簡單的事,要拍得好也是需要練習的。聽他分析自拍神器為什麼是自拍神器,看他介紹網站,裡頭好多自拍同好,在哪裡分享秘訣。

還有一個現在已經長大了,以前小時候愛動物成癡,我還送過他一隻烏龜,現在他對水生動物和水產養殖的知識已經遠超過我了。

這些大人眼中的孩子,總是在很多時候,開拓了我的眼界,讓我發現他們能聽能講會思考,就像我們很多大人一樣。更重要的是,他們都用不同的方式,在成長的過程中,在不同的地方,找到了自我認同。但是我們大人,卻常常擅自認定他們還小、他們不懂、他們不會,因此根本沒有把小孩當成個體看待,去聽他們說話、去對他們解釋,和他們溝通,並嘗試理解他們的自我認同。

我在想,很多時候,大人要做的,其實也就只是願意聽這些小孩說話,然後也把他們當成一個可以溝通的對象,和他們說話而已。你願意聽他們說,也和他們說,就會發現,他們比你以為的懂得更多,也成長得更快。

然後記得把他們當成一個個體,記得他們也需要找到自我認同。我們必須要尊重他們自我認同的方式,有些人是在球場、有些人愛少時,可能也有些人是在自拍社團,他們會找到自己能夠被認同的地方。大人也許不見得喜歡,但要記得在盡可能的範圍裡,努力去尊重。

小孩和大人比起來,的確比較脆弱,可能思想的成長也還沒有到達可以完全為自己負責的地步。但不要就因此小覷了他們,他們不一定比我們不成熟,很多大人的情緒控制和self-discipline也不見得比較好。以smart phone為例子,沈迷於smart phone的情形,大人還不見得比小孩子輕微。

所以我會覺得,我們如果能夠先把小孩當成一個獨立的個體、一個人,也許我們對待小孩的方式會不一樣許多。或許我們應該把小孩子當成是需要被supervised的個體,而不是總是霸道的去dictate他們的作為。

我的老闆在我唸DPhil的第一天,就跟我說:"I am only here to supervise you. You can do whatever you wanna do, manage your time and progress according to your life style. After all, it's your project.",我一直覺得這段話很有道理。在做研究的時候,老闆總是給我很多自由,讓我分配自己的時間。譬如我在做data和slides的時候,會習慣回家做,老闆也都尊重。因此我常常一進實驗室就開始做實驗,做完就回家分析data,然後再去跟老闆討論。很多時候,老闆會給我一些方向和建議,特別是在我太異想天開的時候,他會把我"direct"到可行的方向。老闆supervise我的方式,也許不見得會讓我變成最優秀的研究者,但我敢說我一定是整棟樓最快樂的研究生之一。

如果我們把父母當成是小孩子人生的supervisors,也許父母要做的事情也很類似。就是大家坐下來談,花時間聽小孩說,在小孩子困惑的時候給他一些方向和建議,提醒他哪些事情你覺得是重要的,對他解釋每件事情你覺得要這樣做的理由。然後不斷提醒他,這是你的人生,你要自己對他負責。

當然,並不是每個人在這種方式下都會過得很好,變成什麼企業大亨,或著學術天才。我在研究室,有一堆大人,有了自己的project,也還是不太care,亂搞一通。大人會這樣,小孩當然也會這樣。你能做的,只有盡量讓他們知道,去care自己在乎的事情、care自己的人生,是很重要的,或著你可以告訴他們你的價值觀。但過程中一定要記得把他們當成個體來尊重,小心點、溫柔點、有技巧一點,不要變成了dictator。然後一旦他們對自己的人生做出選擇,他們找到自己的自我認同,你就要努力去學會接受他們的自我認同,不管他是在球場上找到、在學術界找到,還是在同性戀社群裡找到都一樣。不管你喜不喜歡球場或同性戀,你都要接納他的自我認同,因為這才是對待人的方式。

父母永遠無法保證他們可以教出一個成功的小孩,因為成功很可能沒有既定的章法,也因為成功是一種有著多元定義的價值觀,更因為小孩子的人生有太多事情,不是父母可以掌握的。可是父母一定可以養出一個被當成個體來對待的小孩,因為這是父母完全可以做到的事情。父母也一定要這樣做,因為一個人的人生,不應該被其他人以獨裁的方式掌握。

父母眼中不成功的人生,對小孩來說不一定是失敗的。只要父母不過度干預,小孩子常常可以找到另外一條道路,找到一個屬於自己的世界,找到自己在社會上的定位。

但不被尊重,人生自主權被侵犯的下場可以是很可怕的。我看過太多人,因為人生被父母強烈干預而受苦,也看過太多人被逼著要達到父母的期望,因而活得很難受。失去生命的自主權,有時候可能會讓人連活下去的動力都沒有。要說新聞中的母親有哪裡沒有做好的話,就是他居然覺得自己可以輕易沒收小孩子的東西,而沒意識到這是一件嚴重的事。沒收手機不一定會導致孩子自殺,但是一個把孩子當成獨立個體尊重的母親,會認知到這是侵犯了孩子的自主權、知道這是很嚴重的事,所以會盡量避免這麼做。

這個社會上不會每個孩子在父母眼中都是成功的,也不會每個孩子都過著父母腦中想像的幸福美滿生活。承認這點吧,畢竟我們也都是別人的孩子,我們也不是每個人都過著父母眼中成功、幸福又美滿的生活。但我相信我們每個人都會希望可以活得像一個人,得到像人的尊重。

如果你是這樣,你的孩子何嘗不是呢?把他們當成一個對等的個體來看待吧。

2015年1月7日 星期三

Misunderstanding, overinterpretation and distortion of homosexuality studies

這其實是一個老話題了,但這幾天看到一篇被轉載的文章,發現有些證據,以刻意誤導的方式,被過度解讀,非常糟糕,所以決定寫一篇來講一下我對同性戀研究的了解。但這不是我自己的領域,如果我的資訊有過時的地方,還麻煩各位指正。


總結一下,這篇文章的觀點有三:

1) 同性戀是由環境因素 (environmental factors) 決定,而非基因因素 (genetic factors) ,因此社會因子 (social factors/ socially acquired) ,例如政策、文化和教育,會影響一個人是否為同性戀。

2) 性傾向 (sexual orientation) 是可以被塑造的。也就是說,一個人是否為同性戀,是可以被改變的。

3) 社會文化對同性戀的認同,會增加同性戀的數量。因此修法通過同性可以結婚,會讓同性戀變得更多。

接下來,讓我來試著對這三個觀點各個擊破。不過在開始之前,我要先提一點,就是目前大部份關於同性戀的研究,都是針對男同性戀做的。我們對於女同性戀的了解遠少於男同性戀,也不知道適用於男同性戀的理論是否能直接套用到女同性戀身上。

關於第一點,至少就我個人知道的部分,學術界從來沒有一個共識是同性戀完全不是由基因因素 (genetic factors) 造成的。我們有很多關於這部分的研究,其中一部份來自同卵雙胞胎。同卵雙胞胎理論上具有相同的基因體 (genome),也就是他們的基因組成是相同的,有著一模一樣的基因編碼。因此,若同性戀完全是由基因因素決定,我們會預期同卵雙胞胎中的其中一個,如果是同性戀,那麼另外一個也一定會是同性戀。

但研究的結果和這個預測並不相符。根據這篇BBC的報導 (非常好的報導,有空可以讀一讀) ,如果同卵雙胞胎中的其中一方是同性戀,他的兄弟也是同性戀的機會大約在20%。每個研究結果會有一些差異,但基本上你都會觀察到同卵雙胞胎的性傾向,相關性遠高於基因組成不相似的人。可由於不是100%,我們的確可以推論,基因因素並不是決定一個人是否為同性戀的唯一因素。

可是這並不代表,同性戀就是由環境因素,而不是基因因素來決定的。因為如果基因因素完全不具有角色,那麼我們不應該觀察到同卵雙胞胎的性傾向有任何關聯 (association) 。上述研究成果指出,這不是一個either...or的問題。環境因素和基因因素,都不是單一的決定因子 (determinants) ,而是各有貢獻 (both are contributors), 以共同交互作用的方式,來決定一個人是否為同性戀。

除了上面關於表現型 (phenotypes) 的研究結果之外,早在1993年,於一篇叫做 "A linkage between DNA markers on the X chromosome and male sexual orientation"的 Science 文章中,科學家就已經找到證據,認為同性戀的形成,可能有基因因子在其中扮演角色,當時甚至有gay gene將會被找到的說法。

隨著時間推移,我們慢慢知道了,單一一個的gay gene很可能並不存在,但基因對於性取向的影響,卻很明顯。最近,在一篇叫做"Genome-wide scan demonstrates significant linkage for male sexual orientation"的研究裡,那個1993年的發現,被用一樣的方法,以更大的樣本數和更仔細的分析,重現了一遍。當初找到在基因體內,和同性戀有相關的位置 (locus) ,在這篇文章中,也被重現了出來。

這兩篇研究,都是用相對較舊的方式 (linkage analysis) 做的研究,所以無法將與同性戀相關的基因片段,做非常仔細的定位。但近年因為GWAS這個技術的快速發展,在不久的將來,我們應該可以看到更多更詳細的研究,告訴我們到底哪些DNA片段,甚至哪些SNP,和同性戀相關,這樣就能夠做更仔細的生物機制研究。

相對於基因因子的進展,環境因子的研究,可以說是仍陷在五里霧中。這裡有一個非常重要的概念,必須先釐清。我們說的基因因子 (genetic factors) ,是指遺傳下來,在你基因體裡的東西,而環境因子,則是任何非基因因子的部分。也就是說,環境因子,並不等同於社會因素 (social factors) 。舉例來說,關節受過傷的職業運動員,未來會比較容易得退化性關節炎,這就是一個環境因素,但和政策、文化等社會因素不見得有關係。

所以如果未來我們做出一個研究,發現日照時間長短,會影響性傾向,這也是環境因素。因此,直接把「環境因素在同性性傾向的形成中有角色」,衍生為社會因素將決定人的性傾向,是很明顯的過度推論。在前頭我提到了環境因子的研究仍在五里霧中,很大一部份原因,就是我們不知道這個環境因子,到底是什麼,所以直接把等同於社會因素會影響性傾向,是很離譜的做法。

在講同性戀研究時,很喜歡提到的一個例子,是曾有研究者發現,一個小孩的哥哥越多,他越可能成為同性戀。為了解釋這個現象,研究者用非常間接的方法,提出了媽媽的免疫系統,會對子宮裡的小男孩產生反應,進而影響小男孩的腦部發育。懷了第一胎男嬰之後,這個反應才會產生,之後越來越強,導致之後的男嬰成為同性戀的機率也越來越大。這個理論又剛好對應了某些PETMRI研究,顯示同性戀的腦部構造,和異性戀稍有不同,所以在講同性戀的研究時,常會提到這個理論。可是我們並沒有直接證據顯示,這個假設是正確的。

這裡還有第三個層面,是我們以前沒有考慮過的,那就是表遺傳 (epigenetics) 。表遺傳影響的主要是基因的調控,也就是說,即使擁有完全相同基因體的兩個個體,他們的基因表現可能會因為表遺傳的差異,而有所不同。目前的證據,並不支持同卵雙胞胎的表遺傳也會完全一樣,所以這也可能可以用來解釋同卵雙胞胎性傾向不同的情形。可惜表遺傳的研究,特別是這種沒有明確目標,必須用到omics技術的表基因體 (epigenomics) 研究,現在才剛開始起飛,所以相關的資料並不多。

講到這裡,我們應該可以下一個結論:「證據顯示,在同性戀的形成中,基因和環境因子,可能都扮演了一部份的角色。但環境因子,不等同於社會因子,所以無法推論為同性戀可藉由教育、政治或其他原因獲得。」這樣,應該就足以推翻該篇文章提出的第一個論點。

而二個論點:「性傾向是可以被塑造的」,則是很明顯的過度解讀。

一般來說,我們會認為基因因子是先天而無法被改變的。舉例來說,你眼睛的顏色是純由基因決定,所以你的眼睛如果是黑的,就會一輩子是黑的,不會忽然變成白的。但純由環境因子決定的性徵 (pheotypes) ,卻未必會隨環境不同而改變。這主要是因為,如果環境因子,影響的是發育過程,一旦發育完成,你就很難再去改變這個性徵。譬如很多營養不良對小孩發育造成的影響,就屬此類。

至於環境和基因因子都扮演一定角色的性徵,就更難以這樣簡單推論。因此,主觀認定因為同性戀的形成有環境因子的成份,所以就可以被改變,被後天形塑,是非常明顯的過度推論。

對於性傾向 (sexual orientation) 能否被改變,我們的了解其實非常少。最主要是這類研究非常難做。其中一個理由,是我們通常是利用配偶或伴侶的選擇,來觀察同性戀數量上的變化。譬如說,我們會觀察在開放同性結婚之後,是不是選擇同性伴侶的數量有所增加。

但這樣的研究有兩個問題。第一個問題是,一個社會對於同性戀的態度,的確會影響社會成員伴侶選擇的傾向,但這不代表,這個政策改變了性傾向。譬如在某些極度仇視同性戀,甚至會將之判處死刑的社會,很多同性戀可能會選擇乾脆不結婚,或著還是和異性結婚。所以你很難推論,你看到的改變,是性傾向的改變,還是同性戀變得敢於表達自己的性傾向。

同理,即使是在對同性戀相對開放的國家,願意承認自己是同性戀的人仍舊是少數,因此我們沒有一個基準值,知道本來在族群內有多少人是同性戀。在這樣的情況下,任何對同性戀友善的社會改變 (pro-homosexual) ,造成的可能是本來的同性戀更願意承認自己是同性戀,而不是增加了同性戀的人數。就好像我們做選舉民調的時候的時候有表態率,今天候選人A本來的支持度是20%,B是30%,但表態率只有5%。後來發生了X事件,表態率變成了100%,A候選人支持度變成51%,B變成49%,你會很難判斷,是這個族群中,A和B兩候選人,本來的支持度就是51:49,只是以前比較多支持B的人表態,還是因為X事件,所以A和B兩人的支持度改變了。

因為這些原因,這類政策和文化與同性戀關係的研究,自己往往都會告訴你,在解讀他們的數據時,要非常小心。

總而言之,我們對於性傾向一旦形成之後,能否再被改變,目前是沒有定論的。可能環境和基因的交互作用,只在某階段以前有影響,一旦定型,就再也無法被改變。也可能環境因素一直都會影響性傾向。所以現在就下結論說性傾向可以被改變,是過度衍生,也過度簡化的說法。

這同時也駁斥了第三個論點:「社會文化對同性戀的認同,會增加同性戀的數量。」既然都不知道同性戀傾向能否被改變,也不知道社會因子對同性戀的影響,如何能推論社會文化會改變同性戀的數量?當然也就更別提某單一因素,像是通過同性婚姻法案,是否會讓同性戀增加了。可以確定的是,一旦法案通過,同性結婚的數量一定會增加,因為以前不能結,現在可以結了。

最終,我還是想要強調,同性戀和我們一樣都是人。他們應該要享有和我們相同的權利。不論同性戀是先天形成,還是後天造就,是否能夠被改變,是否是一種選擇,都不應影響我們對他們身而為人這個事實的尊重。在我看來,對同性戀的了解,主要還是基於學術理由,再來,可能也可以藉由對同性戀的了解,讓大家不會因為陌生,而對同性戀感到排斥或害怕。

我常覺得,很多恐懼,都是肇因於不了解。如果我們能夠對同性戀有多一些了解,也許就會更能撥開籠罩在同志身上的迷霧,讓大家看同志的時候,能夠一眼望穿,不再只是看到他們的不同之處,而是看到他們和你我一樣都是人,這個最重要的本質。我們希望人該怎樣被對待,同志就應該怎樣被對待。

這些學術成果,即使是忠實呈現,都不應該拿來變成迫害同性戀人權的工具,更何況刻意扭曲誤導的研究解讀,更應該被予以糾正。

2015年1月5日 星期一

Diversity in the lab

現在是英國這裡的假日,大部份人都還沒回來上工。

因為這樣,所以大多數人的桌子,都還保持著放假前的樣子。也因此讓我看到了一個相當有趣的畫面。




1號是我老闆的桌子,2號是我的,3號是一個德國來的postdoc的桌子,4號桌則屬於一個博士生涯走入最後一年的愛爾蘭人。

剛好這條bench,囊括了從每次做完實驗都會把桌子收乾淨,到完全沒在收拾桌子這個光譜上的各種情形。

這年頭能以外國人身份拿到PI位置,老闆當然是個厲害人物。德國來的postdoc博士生涯就發了兩篇非常好的papers,也是個狠角色。愛爾蘭博士生,是個大媽,他的研究題目滿有趣的,是一個很棒的protein chemist,出去給talk得到的正面回應很多,博士生涯目前來看應該算是滿成功的。

我們四個人有不一樣的工作習慣、不一樣的個性、不同的做事方式,和天差地別的工作態度,可是我們都在lab活得還不錯。

因為我個人對於diversity的狂熱,看到這個畫面,讓我還滿感動的。我腦海中的utopia,就該是這樣一個,對於diversity,有著極高度包容的地方。

2015,新年新希望。我由衷的希望,臺灣能夠在這一年,變成一個更寬容的地方,讓形形色色、各有不同的臺灣人,都能在這個社會裡thrive。

2014年12月31日 星期三

Even the brightest minds need to be trained to think scientifically

最近Scientific American有一篇我非常喜歡的文章:Rational and Irrational Thought: The Thinking that IQ Tests Miss

這篇文章非常清楚地指出目前普遍使用的IQ test,在測量人類的cognitive abilities上,有其侷限。即使是IQ非常高的人,也會犯一些看起來極度愚蠢的錯誤,或著做出愚蠢的決定。這是因為有些我們用來做正確決定所需要的思考能力,並不是IQ test可以測出來的,且我們的大腦有某些傾向,會讓我們很容易犯某些錯誤。

以前我在這個blog裡曾經介紹Daniel Kahneman寫的Thinking, Fast and Slow,裡頭就把人類的思考方式,分成快速的第一型和慢速的第二型,前者又可以簡稱是直覺式的思考,特色在於快速、省力,且不精確,而第二型的思考則又慢又耗能,可是卻有很好的分析能力,一般我們說的analytical brain,指的就是這種第二類型的思考。

通常,人都會傾向用第一型的思考來處理每一件事情。也就是說,大多數時候,特別當我們放鬆時,我們都會傾向直覺式的解決事情。也因此,當有人用一些看似能夠直覺回答,但其實需要用analytical brain來分析才能答對的問題時,我們就很容易上當。

以文章裡的例子來說:




像這樣的題目,因為很容易會以為能夠用直覺回答,因此我們就不太會警覺到這其實是一個需要運用到analytical brain的題目,或著至少不會努力去分析,所以非常容易上當。

有趣的是,這個傾向和智商無關。也就是說,不論聰明與否,我們都逃不過大腦偷懶的本能。在看了答案之後,能夠理解為什麼答案是A,以及在以後遇到類似的題目,能夠知道怎麼處理,然後不再上當,這些可能和IQ比較有關。但這樣的能力,卻無助於抵抗大腦演化出來,直覺式思考優先的傾向。也就是說,IQ和使用analytical brain這兩個能力,根本是大腦處理事情的兩個不同面向。俱有理解某件事情的capacity,不代表就會應用這個capacity,也不代表能正確分別哪時候需要用到analytical brain的capacity。

文章裡,作者把有這樣思考傾相的人,稱為cognitive misers。簡單比喻,就是坐擁上億財產,但只願意吃60塊便當的柯文哲。連勝文那種身家破億,又揮金如土的,就不在此類,也不太像正常人類。

身為cognitive misers最有趣的地方在於,多數人其實都有能力在看了分析以後理解為什麼答案是A,也不會有困難去複製同樣的思考流程。所以未來當你遇到類似的情形時,如果你有認出來這種題目的類型(或著被提醒),你就不會再上當,也能成功的分析出來。但是如果在沒有被示範過該如何分析的情況下,今天只是告訴你,要用analytical brain,還是會有一部份的人,會一下子找不到切入點,不知道該如何正確分析,然後最後還是跑去用偏向直覺的分析方式,去回答這個問題。

這樣的狀況,其實可以連結到文章中所提到的另外一個思考層面,也就是the mindware gap。

作者在文章中說mindware gap是一種"content problem",也就是說,我們必須先獲得某一種content,或著說是某一類型的特定知識,才能夠讓我們做出理性的、有邏輯性的思考和行為。這種content,可以是某種特別的規則、資料、策略,或著機率概念。

為了解釋這個"content problem",作者舉了幾個相當好的例子。其中一個是我以前在這個blog也介紹過的Bayes' theorem (詳情請見這篇文章:Sensitivity, Specificity and Drug screening)。




這種題目的特色,就是要把sensitivity和specificity分開來思考計算。只要有人教過一次,大家一定就會算。像我看到這種題目,在知道這篇文章是在探討analytical brain的情況下,
我就會很直覺的知道它是屬於Bayes' theorem的題目。這是因為我受的training,讓我對這種題目很熟悉。

不過即使認得出來,因為不是天天在算,雖然知道原則,要執行這個原則,也是要花點腦力回憶一下。也就是說,在不完全是well-trained的情況下,我也無法用第一型的思考,直覺的回答這種問題。可是well-trained的人,就真的可以直覺反應。像我就遇過可以直接在腦中把molarity、volume和amount換算出來的人。每個人給他公式都可以做到,但只有受過非常好訓練的人,才能夠直接在腦中轉換。

很好笑的是,就算是知道對付這種題目的策略,在不同的情境底下,也不一定能夠直接辨認出這個種題目。之前有一次和朋友去吃冰,朋友忽然問了我一個類似的問題,我是先想了一下子,才發現他問的是Bayes' theorem,然後還想了一下該怎麼按照「策略」算,最後才把那題給算出來。

也就是說,這其實是一個三階段的過程。首先你腦中必須有那個「策略」(content),才有可能認得出這是一個特別的題型(category)。而你必須成功的辨認出這個題型,你才有可能去搜尋腦中存著的策略,然後想辦法解決它。最後是你的記憶必須完整到至少能讓你執行這個「策略」,不然就會變成「阿這題我知道,但是他媽的忘記怎麼解」,這樣的考場夢魘。而每個人大概也都會從經驗中知道,避免這種大家都經歷過的考場夢魘,最好的方法,就是多練習。也就是說,一個人所受的訓練,其實才是決定他能否解出這種probabilistic thinking題目的關鍵,而不是智商。

另外一個文章中的例子,是整篇文章中我最喜歡的一個題目。




我喜歡這個題目,一部分原因是它非常複雜。因為它很複雜,所以會讓你分析起來很費力,即使是受過訓練的人也一樣。所以即使人家告訴你這是一個hypothesis-testing的題目,如果沒有人示範給你看過該怎麼做,其實要想出來怎麼解,也相當不容易。

同時,因為它的複雜性,這個題目在有人示範過後,也不容易被簡單歸類。也就是說,即使是習慣於做hypothesis-testing的人,像是我這樣的DPhil學生,雖然在學生生涯中做過無數次的hypothesis-testing,falsified過無數的hypotheses,在第一眼看到這題目的時候,如果沒人提醒,也不一定可以一眼就認出來這是應該被歸類為hypothesis-testing的題目。

可是就像前面的幾個題目一樣,只要有人解說給你聽,多數人一定都知道這題的答案為什麼是A和5。

因為太好玩了,我們就來順著我的方法走一次這個流程吧。

首先,這個題目的假說是如果一張卡的一面是A/E/I/O/U,那它的另一面一定是偶數。

這裡一個很重要,且一定要認出來才有辦法逃過陷阱的邏輯概念是,這是一個單向的敘述。也就是說,上面那個論述只說了一面是母音的卡,另一面一定是偶數,但沒說一面是偶數的卡,另一面一定要是母音。因此,情況可以是所有母音卡的背面都是偶數,但偶數卡卻可以分成背面是母音的,和是子音的這兩種。

有了這個概念,就會知道,8的背面是什麼,根本無助於回答這個問題。

同樣的道理,我們要測試的敘述,也沒說一面是子音的卡,另一面要是什麼東西,所以K背後是什麼,也跟這個論述無關。

所以我們的選項就只剩下A和5了。

A很容易,因為它翻過來如果是基數,這個假說就居居了。若是翻出偶數,雖然結果是支持這個假說,可是這個假說還不一定是對的,因為你還要看5那邊的情形。

5那張卡稍微沒那麼直觀。它翻過來如果是子音,配合前面A翻出偶數的結果,那這個假說就對了。可是如果它翻過來是母音,那麼母音背後都是偶數的論述就不成立了,這時候我們就知道,這個假說不成立。

這個題目最麻煩就在這裡。因為大部份人都會很直覺的從A開始做,然後覺得如果A後面是偶數,那這個假說就對了。但事實上這個假說要對,還必須5後面不是母音才行。換句話說,不管你是從5或從A開始做,如果你要用"證據支持假說"的方式來驗證這個論述,那麼你就必須確定每一張卡,都符合這個論述。因此即使排除了K和8,你還是必須把剩下兩張卡都翻完才知道結果。

但是如果你要推翻(falsify)這個論述,你只要在A和5之中,找到一張卡不符合論述,那你就知道這個論述是錯的了。

這其實就是scientific method/scientific thinking最重要的核心概念。因為在現實生活中,我們無法測試每個可能性,而統計上的hypothesis testing,因其發展的原理,也無法在認定null hypothesis不成立之後,就代表alternative hypothesis是對的,所以其實hypothesis falsification才是科學上最能給予確定答案的方式。

可是這個一來超不直覺,二來又不好分析,往往需要像上面那樣一步一步思考,才能夠得到答案,中間還要不斷逃離用直覺回答的誘惑,並且成功認出好幾個categories,才能得到正確解答。而按照之前提過的,知道這個方法、能夠認出這個category、還要記得怎麼做,且要逃離直覺回答的誘惑,這些其實都和IQ沒那麼有關,反倒和受到的訓練比較相關。

所以其實科學是一種極度需要訓練的東西。而每一個學科,因為其特性和需要的背景知識不同,還有適合採用、能夠採用的策略也不同,所以常常會出現某個領域的科學家,對於另一個領域的科學判斷,會差到一個很離譜的地步,這樣尷尬的情況。譬如說學賽局的,跑來講生物學,或著學工程的,跑去講經濟學,如果不夠謙卑,太相信自己的科學頭腦,時常就會出現做出離譜判斷,丟臉丟到家的情況。

同樣的道理反過來講,若是某個領域的專家,動不動就嘲笑別人對他這個領域的科學判斷和白痴一樣,其實是一件非常諷刺的事情。來自另一個領域的被嘲笑方,很可能只是沒有足夠的content去找到適合的切入點,來理解和判斷你這個領域的問題而已。動不動就戰人智商,其實本身就是一種因為沒有content,而做出錯誤判斷的行為,因為科學上的證據,支持的是這與訓練的關聯,遠高於智商。

這也是我一直覺得科普很困難的原因。從上面的文章中,大家應該可以理解,科學並不只是一堆知識,也是一種思考方式。要能夠使用這種思考方式,需要訓練,並且習慣讓自己常用自己的analytical brain。

先撇除身為cognitive miser的部分,想要"think scientifically",我們需要有足夠的content,而這個content,除了知識以外,還需要相對應的strategies,或著rules,或著某種特別的thinking方式。

但是通常科普文章只能給你知識的部分,卻很難做到帶領和訓練大家思考。這樣很容易變成單純的知識搜集者、百萬小學童,卻不一定能夠真正體會到科學美麗的地方。

看一堆非常令人驚奇的研究,和科學家做出來的fancy成果,當然很讓人驚豔,也能滿足好奇心。可是科學真正美好,或著說真正強大的地方,其實在於它是一種非常縝密且有系統性的思考方式,這也是我們唸研究所,必須要訓練的東西。

我到現在還記得,以前剛開始看臨床的textbook時,受到的挫折有多大。因為臨床的書,有很多就是一大堆facts,而沒有真正帶讀者進入某種思考邏輯裡面,和科學的教科書大相徑庭,讓我覺得非常無聊,很難保持專注。

大學上課的時候也是如此,我唯一會去的課,就是老師在講課時能帶我進入他的思考邏輯裡面的課,其他有些流於只是傳遞知識的課,實在沒有力氣去上。

或許是這樣的個人經驗,我一直覺得,科普如果能夠把科學的思考方式傳遞給大眾,應該會變得更美好。在寫這個blog的時候,我也一直希望是以一種呈現我如何想事情的方式來寫文章。因此,很多時候會有思緒跳來跳去,然後又很冗長的狀況,就文章本身的架構而言,其實並不理想。

簡而言之,我自己也還沒想出該怎麼做,才能讓科普變得更貼近我心中科學的樣子。或許等我唸完DPhil,會更有概念吧 XD