Note:

因為blogger會有很多廣告留言,所以我有設留言管制。大家留言留一次就好,只要不是廣告,我都會定期去後檯把留言給撿回來。

造成麻煩還請大家多多見諒。

2015年4月27日 星期一

Constraining freedom of expression should never be an option

最近臺灣鬧很大的一個新聞,是由一個女藝人自殺,而引起對網路霸凌的討論。

這件事情和網路霸凌有何關聯,還有很大的爭議,也不是我今天想討論的重點,所以就先按下不談。我今天想談的,是由網路霸凌衍伸出來,對於網路實名制,和以限制網路表達自由的方式,來達成壓制網路霸凌討論。

網路霸凌,或著任何形式的言語霸凌,是確實存在於這個世界上的事情,而且也是一件需要被關注與處理的事情,對於這一點,我想大部分人都不會有疑義。所以問題的重點,就應該擺在我們應該如何處理這樣的事情。

對於許多臺灣的政治人物而言,直覺式的反應,似乎是覺得限制網路上的表達自由,或著改採實名制的方式,就可以抑制網路霸凌的產生。然而,這樣的連結,卻很可能是過於簡化的錯誤連結。實名制的部分,我們在學校,在生活中,還有很多其他大家知道彼此身份的場合,霸凌事件也從來沒少過。是以,覺得實名制可以透過讓身份曝光的方式,來解決霸凌的問題,顯然是太過天真的想法,更別提像臉書和ptt這樣的平台,其實早就已經非常接近實名制了。

那限制網路言論自由的部分呢?

關於這點,我想從我最近非常喜歡的一個節目,John Oliver的Last Week Tonight講起。

這個HBO的當紅節目,每週都會討論一個上週的熱門話題,從死刑、貧富差距、藥物廣告,到警察裝備的軍事化、基礎建設的維護和美國小姐的競賽等等,John Oliver都會透過誇張、幽默的脫口秀方式,以喜劇的形式呈現這些議題,非常有趣。

讓人驚訝的是,即使在美國這樣一個強大的國家,透過John Oliver的呈現,你也會發現,他們還是有非常多的問題,存在於美國社會上的每個角落。John Oliver呈現這些議題的方式,除了幽默之外,底下其實還藏著非常犀利的批判和嘲諷,如果你是被批判的對象,我相信聽了不會太好受。而這個劍橋畢業生,也的確收過頗有創意與諷刺意味的信件,對他節目中的評論做出很有風度,但也很犀利的反擊。

先不說John Oliver的呈現方式,是否會誇大問題的嚴重性,至少透過他的脫口秀,我們可以接觸到這些議題,如果引起興趣了,就可以自己去做更多功課,多了解這些議題一些。

如果今天美國政府,因為不喜歡John Oliver的批評,因此禁止John Oliver的節目,我們就不會知道,原來在美國這樣的國家當中,有這麼多問題存在。更恐怖的是,這些問題,不會因為表達的平台不存在了,就跟著消失。他們只是不會再被提起,不會受到那麼多人的關注,但還是會繼續存在美國人身邊,侵蝕他們的社會。

同樣的道理也可以搬來用在臺灣這次的網路言論限制事件上。即使我們今天限制網路自由,不讓大家使用某些文字來表達自己的想法,進而達到抑制霸凌的效果,這並不代表霸凌就會在我們的社會上消失。他頂多是轉個形式,變成用另一種形式繼續發生,或著換個地點發生而已。把問題掃到檯面下,從來都不是讓問題消失的辦法。

關於這點,我們其實可以參考中國當作借鏡。中國的網路管制相當嚴格,大家都知道,在中國上網,是查不到六四的。但是六四並不會因為這樣就不存在,只會讓當權者和人民活在謊言之中,失去反省的機會。又或著像這次臺灣的課綱修正,把228拿掉,也把白色恐怖拿掉,但這些並不能抹滅這些歷史事件曾發生過的事實,只會使得這些曾經發生過的問題變得難以被矯正。因此,即使我們透過限制網路上的表達自由,禁止了檯面上的網路霸凌,很可能也只是讓這樣的情況,變成在檯面下發生而已。而檯面下的問題,永遠都比檯面上的更難處理。

再加上我們在限制網路自由之後,將會大幅失去資訊傳遞的容易程度,很多社會上的問題,要傳達到多數人的耳中,將會變得較為困難,這樣一來,我們將失去很多瞭解並解決社會上問題的機會。如果像美國這樣的國家,社會上都有這麼多值得關注,且需要被處理的問題,民主發展相對不成熟,政府需要被高度監督,政商關係也必須被強力監控的臺灣,若失去任何一個資訊得以傳遞的平台,將會失去很多讓我們的社會更進步的機會,也將難以控制這個失能又權力過於擴張的政府。

一個最明顯的例子是去年的太陽花學運。若是少了網路,少了那台把議場內資訊傳達給大眾的iPad,少了那些臉書和其他平台上的溝通串連,很可能學運的力道會被減弱不少。同理,如果沒有網路,那些警察打人的片段未必能夠這麼快流傳出來,正義將無所伸張。

不管你是否支持太陽花學運,你都不可否認,這樣的群眾力量,是對抗政府,限縮政府權力極為需要的。縱使你是國民黨和馬英九的死忠支持者,也得接受,國民黨還是會有在選舉中輸掉的時候,臺灣會有政黨輪替的一天。屆時,你們也會有需要上街頭,對抗自己不喜歡的政府的機會。反之,即使你是民進黨的支持者,也難保由民進黨組成的政府,不會有做錯事的時候,或著有違法濫權的一天。而這個時候,能夠保持所有資訊平台的暢通,讓我們擁有言論自由,可以表達想法,並號召群眾上街頭抗議,就是非常重要的事情。

也就是說,限制網路的言論自由,除了解決不了問題,只會讓問題藏到檯面下,變得看不見,且更難處理,也會大幅失去網路資訊傳遞快速的好處,可說是有害無益。

除了實質的抗議之外,網路訊息傳播的無遠弗屆,也可以刺激社會中組成份子的思考,讓我們對自己所處的社會,該是什麼樣子的,做出充分的討論,讓每個人都能發聲,彙整多元的意見,形成多數人的共識。

最近一個很好的例子,是不斷在臺北市引起關注的新科市長柯文哲。柯文哲的許多施政作為,都令人叫好,但我們也可以從他許多的言論中,看出他的威權思想。他到目前為止,都沒有發展出法律是用來限制政府權力的認知,這點讓人擔憂。

這個問題目前仍不嚴重,因為他的一言一行,都會透過媒體,忠實呈現出來。也因為我們有言論自由,所以我們可以針對自己關注的部分,對其作出批判。柯市長目前的整體作為,應該可以說是正面大於負面,所以很多他的問題,並沒有被特別抓出來批判,但至少我們的言論自由,透過網路傳播,會讓很多人知道,這些問題的確存在。先前柯文哲好幾次被罵到道歉,多少也是因為這種網路言論自由的結果。

另外一個典型的例子,是壹電視的正經限時批。正經限時批曾經因為批評慈濟一事,而讓主持人彭文正和李晶玉兩人,雙雙請辭。當時網路一片撻伐,最主要的原因,就是這種打壓言論自由的方式,令許多人不齒。在此同時,也因為我們擁有言論自由,因此某些不喜歡彭李兩人的人,就挖掘出了他們反對多元成家,打壓同性戀者自由的立場,讓大家知道他們也不是在每件事情上面,都讓人讚賞。

這些都是言論自由的好處,人和事,本來就是擁有多元面向的。而言論越自由,意見和切入的角度就越多,因此越能刺激我們思考,我們也就越能看清事情的真相,也才能在社會上形成共識。是以,我們從來都只需要擔心,言論不夠自由,以及自由的言論傳遞速度不夠快、廣度不夠大。

這樣的自由,當然會帶來一些副作用。很多反烏托邦小說,像是1984和記憶受領員(The Giver)這樣的小說,都有寫過在一個沒有自由、不多元的社會,會有怎樣的優點。其中一個最明顯的優點,就是秩序。可是隨著故事發展,我們也會開始看出,這些反烏托邦社會,往往有很多可怕的問題存在,卻因為高度壓制自由,使這些問題根本無法被處理,甚至無法被看見。

記憶受領員裡面,有一個我個人非常喜歡的橋段,大意是這樣的:

在小說裡那個高度受管控的世界中,統治者消除了差異。他們消除了種族的概念、消除了顏色的概念,也消除了不同的文化,讓大家都變得一致。

但這些統治者沒有笨到以為這些東西就不被需要了,所以他們把對於這些東西的記憶,都交給一個特定的人保管,這個人,就叫做記憶受領員。

記憶受領員當然也會老、會死。所以他必須把記憶傳給他的徒弟,這時候他就變成了記憶傳受者,也就是The Giver這個名稱的由來。

故事的主軸,就是圍繞在老的記憶傳受者,開始把這些世界還是多元的時候的記憶,傳給下一代受領員的過程在打轉。

有一回,老的傳受者把顏色的概念傳授給新一代的受領員。看到世界多彩繽紛的一面,新一代的受領員感動得哭了,他哭著問老受領員:「怎麼會有人要消除這麼美好的東西?」

老受領員告訴他:「顏色、種族、宗教,當人們選擇活在沒有這些東西的世界,我們就創造了sameness。當人之間有所不同,就會出現嫉妒、憤怒、憎恨。所以我們需要一個什麼都相同的世界,我們需要sameness。」

年輕的受領員說:「我完全同意。但我還是覺得,顏色好美。」

我很喜歡這一段plot的原因,是因為他說明了自由和多元的美好,以及他們無可避免會帶來的副作用。

我從不否認言論自由,會帶還很多爭論、甚至可能出現霸凌。可是就和記憶受領員心中的感受一樣,即使知道有這些缺點,我們都無法拒絕承認,言論自由帶來的美好。

更重要的是,在現實世界中,我們是有辦法魚與熊掌,兩者兼得的。

如果網路言論,涉及到毀謗、造謠的部分,我們可以透過法律途徑解決。我們也可以利用網路強大的傳播力,宣導正確的反霸凌概念,對霸凌做出精確的定義,教導大家如何處理、面對這樣的事情。我們甚至可以成立反霸凌粉絲專頁,或著類似的基金會,去匯聚力量,制止霸凌的發生。

最近,前紅襪隊投手,血襪Curt Schilling,就曾經利用網路社群的力量,找出了在twitter上霸凌他女兒的人,讓他們付出代價。他並沒有採取任何利用法律壓制言論自由的方式,一樣達到了這樣的效果(詳細的故事請看這篇文章)。

也許你會說,那是因為他是Curt Schilling,是名震天下的大投手、嘴砲王。而且他因為個人經歷,擁有別人沒有的網路資源與對網路的理解。但我要說的是,一個人的力量也許不夠強大,可是一個社群的力量卻絕對不可忽視。我們只要利用網路的特點,利用我們在網路上擁有的言論自由,任何人都可以透過自己的方式,保護自己不被霸凌。也因為我們擁有網路自由,所以隨便上網一google,都可以找到一堆關於反霸凌的資訊,教你如何去處理這樣的事情。

透過這樣的方式,我們就可以既享受言論自由的美好,又正面對我們不想要的副作用做出正拳回擊,一拳扁在他臉上。

在有這麼多其他方式可以處理網路言論霸凌的情況下,我們實在沒有理由,選擇用一個明知不會有什麼效果,又有一大堆缺點的方式,去處理這樣的問題。

是以,我主張,在處理網路霸凌這件事情上,限制言論自由,永遠都不應該是我們的選項。

2015年4月26日 星期日

Evidence-biased misunderstanding (3)- individually weak, collectively robust

在1920年代,因為一系列的發現,分子生物學家們開始瘋狂尋找所謂的「遺傳物質(genetic materials)」到底是什麼東西。

倘若你翻開分子生物學教科書,例如Benjamin Lewin著名的Genes系列,或由James Watson掛名作者的Molecular Biology of the Gene,在描述這段歷史的時候,多半會提到Frederick Griffith的transformation實驗、第一次確認純化DNA為遺傳物質的Avery–MacLeod–McCarty experiment,和用標定技術確認DNA為遺傳物質的Hershey-Chase experiment。後兩個實驗,一般會被當作是確認DNA為遺傳物質的重要里程碑。但如果你的教科書寫得夠仔細,一定也會提到,在這兩個研究發表之後,大多數的科學家,卻仍然不太願意接受「DNA就是遺傳物質」這樣的概念。

了解這段歷史,對於了解到底為什麼科學有其極限,以及為什麼科學如此強大,還有到底為什麼evidence-based decision是一個既主觀,卻又非常能夠讓人信賴的方法,會有很大的幫助。所以接下來,就讓我們來稍稍回顧一下這段有趣的分子生物學發展史。


【The Streptococcus pneumoniae transformation】

Streptococcus pneumoniae的中文名字,一般應該是翻作肺炎鏈球菌,而他最著名的特色,就是會在人體引起肺炎,同時他也會感染老鼠。

肺炎鏈球菌有幾種不同的亞型(strains),其中一種亞型,Griffith將之稱為S亞型,因為這種亞型的肺炎鏈球菌,在細胞壁的外頭,還有一層多醣體莢膜(polysaccharide capsule)。這種莢膜滑滑黏黏的,讓S亞型的肺炎鏈球菌,在形成聚落(colony)之後,會看起來有比較圓滑的外觀,因此被稱做是S亞型(S for smooth)。這種亞型的特色,是他在給染老鼠之後,會很快地造成老鼠死亡。

Griffith還發現有另一種亞型,他稱作R亞型。這種亞型沒有多醣體莢膜,看起來比較粗糙(R for rough),且在感染老鼠之後,也不會造成老鼠死亡

Griffith首先發現,如果他用熱殺死S亞型的肺炎鏈球菌,然後再注射這些細菌的屍體進入老鼠之中,老鼠並不會死亡。也就是說S亞型要致老鼠於死,必須要是活得才行。

但接下來Griffith發現,如果他把死掉的S亞型和活的R亞型混在一起,注射到老鼠裡,老鼠卻會死亡。更有趣的是,當Griffith再把肺炎鏈球菌,從注射了混合S和R而死掉的老鼠中分離出來,再把這些新的肺炎鏈球菌注射到新的老鼠中,這些新注射的老鼠,便又都會死亡,而且這些新的肺炎鏈球菌所形成colony,看起來會和S亞型一樣,變得圓滑。

從這些實驗的現象,Griffith推論,那些死掉的S亞型,不知道怎麼的,會把R亞型變成S亞型。這個現象,Griffith把它稱作「轉型(transformation)」。


【The Avery–MacLeod–McCarty experiment】

Griffith的研究發表之後過了大約20年,科學家開始有能力使用比較精確的分離技術。因此, Oswald Avery、C. M. MacLeod和M. McCarty決定著手研究到底造成轉型的是哪一種物質。

他們把用熱殺死的S亞型用不同的方法做簡單的分離,然後看看分離出來的哪一個部分可以用來造成R亞型的轉型。受限於當時的分離技術,以及對於到底哪個物質可以造成轉型完全沒有概念,這幾個Rockefeller的研究者,只能用相對粗糙的方離方式,依照物質的物理和化學性質,將他們大致的分離。他們發現只有其中一種分離物,可以造成轉型,且按照其物理和化學的特性,他們認為這個物質應該是DNA (The inducing substance, on the basis of its chemical and physical properties, appears to be a highly polymerized and viscous form of sodium desoxyribonucleate)。

不過這種粗糙的分離技術,以及用物理和化學性質去猜是什麼物質的方法,並不夠精確,且他們無法排除是少量和DNA性質相近,殘留在DNA萃取液中的RNA,造成轉型這個可能性,所以為了更加確定DNA就是轉型物質,Avery等人決定反過來做,使用不同的酵素,一次移除一個物質。

他們使用可以切除蛋白質的酵素(trypsin)移除蛋白質,發現S亞型的屍體依然可以造成轉型。接著他們試了可以切除RNA的酵素(ribonuclease),結果也一樣。但當他們使用只能切DNA的酵素,他們發現S亞型屍體造成轉型的能力就消失了,因此他們就下結論,認為DNA就次造成轉型的物質。而由於這個轉型物質可以一代一代傳下去的特性,因此這也被認為是第一個提供了DNA就是遺傳物質證據的實驗。


【Criticism and reluctant acceptance of the academy】

即使以現在的標準來看,這個實驗都算是做得滿好的了。但考量到當時的技術水準,這個實驗還是有很多可以被批評的地方。例如分離技術的限制,導致很多科學家認為他們的分離物可能不夠純,裡頭少量的不純物,可能會造成解讀上的錯誤。

本來Avery他們使用酵素,就是要對付這樣的批評。然而,再度受限於當時技術的限制,他們其實並沒有辦法分離出高純度的DNase,也就是只切DNA的酵素。他們能做到的,只有分離出可以切DNA的"crude extract",但裡頭到底有什麼東西,或沒有什麼東西,其實他們也不太知道,唯一能確定的是裡頭一定有可以切DNA的酵素。

這雖然是一個頗大的弱點,但卻不是Avery–MacLeod–McCarty experiment不被接受的主要理由。主要的理由是,在當時的科學界,主流的想法是蛋白質才是遺傳物質。

這個想法背後的理由很簡單:「遺傳物質必須準確傳遞非常多樣、非常複雜的性狀,所以這個物質本身的複雜度必須很高」。而由20種氨基酸組成的蛋白質,顯然比只由四種不同核苷酸組成的DNA要複雜得多。因此,雖然客觀上Avery等人的實驗提供了相當不錯的證據,支持DNA才是遺傳物質,但主觀上,大多數的科學家並沒有被這一個實驗給說服。


【The Hershey-Chase experiment】

1952年的時候,Alfred Hershey和Martha Chase做了一個實驗。當時已經知道,T2 噬菌體(phage)會感染細菌,並在大腸桿菌體內複製。Hershey和Chase認為,T2噬菌體要精確複製自己,就必須把遺傳物質送進大腸桿菌裡面。因此,如果他們能夠知道是什麼東西被送進了大腸桿菌,就能提供遺傳物質到底是什麼的證據。

前面提過,當時科學界的主流,是認為蛋白質才是遺傳物質,但是Avery等人的轉型實驗卻支持DNA才是遺傳物質。恰好,當時已經知道,T2噬菌體是由蛋白質和DNA兩種物質組成,因此就成為了解決這個爭議的好材料。

Hershey和Chase很聰明的由DNA和蛋白質的分子組成下手,利用DNA含有磷而蛋白質沒有,然後蛋白質帶有硫,但DNA沒有的特性,分別以同位素磷32和同位素硫35標記DNA和蛋白質。

他們讓帶有兩種同位素的噬菌體分別感染大腸桿菌。噬菌體在感染大腸桿菌之後,Hershey和Chase利用果汁機,輕輕的把留在大腸桿菌表面的噬菌體外殼,和大腸桿菌給分離開來。這裏的假設是,噬菌體在把遺傳物質打入大腸桿菌中,開始複製之後,他的外殼,依舊會留在大腸桿菌表面。所以如果他們能夠把大腸桿菌的外殼,和噬菌體給分離開來,他們就可以分辨到底是什麼物質留在大腸桿菌裡面,而這個東西,就應該是遺傳物質。


把大腸桿菌外殼震掉之後,Hershey和Chase利用離心的方式,把病毒外殼和大腸桿菌給分成兩層。接著他們發現,當感染細菌的噬菌體,標記著磷32的噬菌體,總是會和大腸桿菌層出現在一起,反之,標記著硫35的噬菌體,總是會出現在病毒外殼那一層。更重要的是,標記著磷32的噬菌體,其後代也會帶磷32,但標記著硫35的噬菌體,其後代並不會繼續帶有硫35。


研究至此,Hershey和Chase就可以相當有信心的下結論:會進入大腸桿菌中的物質,是DNA,而非蛋白質。且DNA可以傳到下一代的噬菌體中,所以DNA才是遺傳物質。






【Doubts remain

Hershey-Chase experiment發表之後,DNA是遺傳物質這點,應該就已經非常明顯了。然而,科學界對於這個實驗結果,卻仍然抱持著懷疑的態度。有些人依舊認為污染是一個很大的問題,另一些人則認為,噬菌體和細胞畢竟不同,所以這個結論,不見得有辦法套用到細胞中。DNA在分子組成上遠比蛋白質簡單,而噬菌體也遠比細胞在構造上來得簡單,所以DNA能夠作為噬菌體的遺傳物質,但不能作為細胞的遺傳物質,這樣的說法,似乎也有其道理。

除了這些質疑之外,也有許多科學家也開始思考,假設Hershey和Chase的研究結果是對的,那麼分子組成簡單的DNA,到底是透過什麼樣的方式,將生物體驚人的複雜性,相對精確的一代一代傳下去?也是因為這樣的疑問,才引領了之後的一堆研究,最終導致James Watson和Francis Crick找出舉世聞名,開創現代分子生物學的DNA雙股螺旋結構。

回過頭去看,我想我們可以很公平地說,Avery–MacLeod–McCarty experiment,成功的立下了DNA是遺傳物質的基石,而Hershey-Chase experiment則是讓這個DNA是遺傳物質這個假說,變得難以忽略。可是你卻沒辦法清楚地找出一條界線、一個單一的實驗或一篇論文,清楚的告訴你,DNA就是遺傳物質,case closed。在這個建立DNA是遺傳物質的過程中,每一個實驗,都是建立在先前實驗的結果之上,或著透過不同的角度,去驗證先前提出的實驗結果。在這樣的過程之中,讓眾多支持DNA是遺傳物質的實驗證據,變得越來越不可忽視,也慢慢的,變成大家的共識。


【Individually weak, collectively robust】

這段建立DNA為遺傳物質歷史,完美地說明了用科學強大與脆弱的原因。科學實驗的特點是,每個實驗,都不會是完美的。即使你設計了再漂亮的實驗,你的結論,都可能會有瑕疵與無法說服別人的地方。甚至其他人,可以光靠主觀上的不認可,就拒絕你的研究,對你的實驗結果提出許多質疑。

可是當實驗結果不斷累積,以不同角度研究同一件事,從不同面向提供指向同一個方向的證據,或著以後續實驗,強化先前實驗的結果,彌補先前實驗的弱點,補強其不足之處,研究的結果將變得越來越難以忽略,也越來越難提出有力的質疑。慢慢地,某一結論變成大部分人都接受的共識的那天,就會到來。這就是為什麼,我們會說單一實驗證據,並不是拿來當作決定性證據,但科學研究整體而言,卻是decision-making最強大的基石。

如果能夠對這點有所認知,就會明白evidence-based decision making,是一個就現有證據,主觀下判斷的過程。而隨著證據越來越多,我們的主觀判斷,會和客觀事實越來越接近,也因此會讓我們的判斷能夠更貼近現實。

這個朝客觀事實靠近的過程,經常都不是直線前進的,他會有些曲折,甚至有時會發現我們走錯了路,所以我在這系列前面的文章中,才會一直強調,提出單一論文當作證據,要別人都閉嘴的做法,並不符合evidence-based decision making的精神。

但另一方面,科學提供了我們能夠自我修正的能力,使得我們最終能夠根據一大堆證據,做出相對貼近客觀實驗證據支持的判斷,這個,才是我們要推動vidence-based decision making的最重要原因。


Ridiculous as fuck

近來有兩位敬愛的長輩,對我臉書上的某些發言很不滿。

不,不是對那些批評教育、體制、社會上的不公不義、這世界的愚蠢與可笑、政府、國民黨,或馬英九的內容不滿。

是對我在講這些內容時,常常用的那些語助詞不滿。

對,當馬英九和幹你娘同時出現在一篇文章裡的時候,他們決定,是幹你娘惹怒了他們,不是馬英九。

幹你娘這是什麼狗屎?

我第一次聽到這個抱怨的時候,腦子裡閃過的第一個念頭是:「還好耶穌當年沒被取名叫做幹你娘,不然大概今天教堂裡的神會叫做猶大。」


--

我想是這樣子的,髒話可能不是什麼非常高貴的東西,但就我看來,他也不怎麼低俗。他使用上的妥適與否,純粹決定於你是在什麼情況下使用它。

譬如說前行政院長江宜樺,在有影片為證的情況下,說2014年3月23日深夜,到3月24日凌晨,驅離群眾的警察,只是輕拍肩膀,請學生們離開。

在描述這種行為的時候,就不適合使用幹你娘。因為這比幹你娘還要下流大概一百倍。

不過是這樣的,在很多時候,我們必須策略上的保持禮貌,否則很多事情,會因為這個社會現在的文化,而變得失焦。

譬如陳為廷當年,好不容易找到機會跑進立法院,卻因為「態度上的問題」,讓媒體輕易的模糊了焦點,就是一個很好的例子。

有的時候,為了達成目的,我們必須和這個社會妥協,用他們的方式玩他們的遊戲,才有可能真正達到目的。是以,雖然我當初曾經寫過文章,說明我認為雖然陳為廷不一定有成功傳達他的訴求,但他的行動卻不見得是全然失敗,不過若是能重來一次,我還是會建議他,裝得有禮貌點會是比較好的策略。

可重點是,你必須清楚且堅定的知道,你有禮貌的表現,並不是因為激烈的言語是錯的,而是因為在策略上,這會讓事情簡單很多。

同樣的道理,不罵髒話,其實是一件很簡單的事情。罵人不帶髒字,哪有什麼難的?但在現實生活中,我們不罵髒話,不是因為罵髒話是錯的,而是因為這會讓事情簡單很多。

可是在現實世界裡的臺灣,這常常不是事實。因為我們活在一個,常常搞不清楚對與錯的社會。

我說的不是那種選擇讓失控的火車轉彎撞死一個人,還是不理它讓它撞死一百個人那種哲學上很難有簡單答案的對與錯。

而是323打人的警察一個都找不到,但抗議的學生,卻可以清楚的被辨別出來,然後一個一個被起訴的對與錯。

這個,就叫做悲哀得可笑。

或著,更精確地說,這是一種幹你娘的可笑。


--

我們的社會,用禮貌建築起了一道高牆,把他推到每一場戰事的最前線。誰先射倒了禮貌,他就輸了這場戰爭,即使你最後把對方殺得丟兵卸甲也一樣。

譬如說,我小的時候,若是和別的小孩起了衝突,就會被我媽拉到旁邊罵。我媽總說:「不管你的道理再怎麼對,只要你的態度錯了,你就是錯。」

剛開始的時候,我學得很快。我會馬上向對方為了我的態度道歉。

可是在我道歉之後,我從來沒有見過我媽花一秒鐘去追究,到底我的道理,是不是對的。

從來沒有。

又譬如說,我高三快畢業前,學校發生了一件醜聞。簡單說就是有位同學,疑似偷拍女同學的裙底被抓包,後來一路鬧到教官那裡去。

然後就是標準的校園鬧劇情節:其他學生們都很生氣,要求校方一定要處理。後來聽說偷拍者的父親,是一個有力人士,他出面對學校施壓,於是教官就把這件事情壓下來了。

有一回軍訓課,教官自己講起這件事,要大家不要再討論這件事。我一氣之下,就和教官吵了起來。

教官的說法,是我們沒有證據。但我們的要求,是教官應該要好好調查這件事情,而不是在事情未明朗之前,就要求大家不再談論這件事情。

「連在這種事情上都沒用,你們這些本來就沒屁用,早該離開校園的教官,到底能幹嘛?」講到最後,我真的生氣了,於是就講出了類似這樣的話,口氣更糟些,但沒有那麼直白就是了。

後來,教官送了我四個字:「理直氣和」。

在這事發生之前,我和這位教官本來就不錯。從那之後,到我畢業之前,我和這位教官,也一直繼續保持著不錯的關係。說實話,他是我遇過的教官裡面,相當好的一位,這也是我當初會這麼生氣的原因:我很愚蠢的,對他有著一點點期望。

教官大概覺得這四個字很重要,於是他在我畢業典禮那天,在我的畢業紀念冊上,又寫了一次這四個大字。

「理直氣和」。

看到的當下,我真的很想問那位教官,所以你也知道,我的理,是直的嗎?那和我處在對立立場的你,是不是承認自己理歪了呢?

說老實話,教官是否理歪,我一點都不在乎。我比較在乎,這件事情到底該怎麼處理。

所以這件事情,後來是怎麼處理的呢?

沒有處理。

就像那些打人的警察一樣,沒有處理。

這個就是我們身處的幹你娘的可笑社會。大家都要求你要有禮貌,不可以說髒話。好像你只要有禮貌,不要說髒話,他們就會認真看待你的訴求似的。好像你的訴求沒有被理會,是因為髒話,或著你沒禮貌的口氣、態度,讓他們失了焦,所以他們才沒有理會似的。

然後久了,其他人也會跟著被洗腦,當這些你訴求的對象不理你的時候,很多本來應該要跟你站在同一陣線的其他人,會替你訴求的對象告訴你,你不被理會,是因為你沒有禮貌、態度不佳。

我們在現實社會,不罵髒話,好好執行禮貌,是要讓這些沒看清事情真相的「其他人」,先不要站在我們的對立面,而不是要做給那些被訴求者看。那些被訴求者,是不會理你的,你只能努力的讓更多人看到,當這些被訴求者再也找不到理由,可以忽視你的訴求的正當性時,他們繼續藐視你的臉孔有麼難看。

這才是我們執行「不罵髒話,保持禮貌」這個策略的目的。

當一個社會必須用這種方式,才能達成目的,這就是幹你娘的可笑。


--

可笑的事情,在這個世界常常發生。最近就有兩件發生在我的身上。

第一件事情是這樣的:

我剛來英國的時候,糊裡糊塗的聽學校建議,開了一個學生帳戶。但是我從來沒有用過它。它唯一的功能,就是學校幫我付的房租,會每個月自己入帳,然後再被扣掉。

我後來離開了那個地方,也從那間學校畢業,因為從沒用過那個帳戶的關係,我畢業的時候,根本就忘記了我有開那個帳戶。

最近我在我新的宿舍,收到了另一個人的銀行信件,我猜應該是前一個住這宿舍的學生,他走的時候,忘了改銀行地址。這時候我才想起來,我也幹了一樣的事情。

想到現在住在我以前住的那間宿舍的人,可能不堪其擾,我決定去把那個帳戶結束掉。但是我在搬家的時候,所有的資料,全搞丟了。所以我除了當初一封有我戶頭帳號的email,其他什麼資料都沒有。

於是我只好帶著包括護照在內,所有有我相片的身分證名,到最近的銀行辦事處去,希望他們能幫我結束這個帳戶。

果然,他們第一個就要求我拿出我的提款卡。我說我搞丟了,只有帳號和戶名。接著他們就要求我輸入我的pin number(提款卡密碼),但我說我哪張卡根本沒開卡,pin number也沒改過,我根本就不記得我的pin number,但是我有一大堆ID可以證明我的身份。

那個接洽的小姐搞不定,只好去問主管。他們搞了好久,最後跟我說,他們沒辦法關閉我的帳戶,因為裡面有錢,這樣退錢給我,他們認為不安全。他們必須確認我的身份。

為了確認我的身份,他們先驗了我的護照,然後又問了我三個問題。前兩個問題我都輕鬆答對了,但是第三個問題,是我的戶頭裡有多少錢。

老天,我從來沒用過這個帳戶,我哪知道裡面有多少錢?裡面的錢,就是學校匯給我,扣掉房租之後的錢,加上一點利息。但因為是學校付的,我連房租是多少都不知道,所以也算不出來。

於是,安全認證失敗,我無法被認證是我本人。

當你帶著你所有的photo ID,讓銀行比對上頭的照片和你的臉,但銀行還無法確認你是不是你,這要不是他們的安全機制,實在太可笑了,就是最近有人拿了硫酸,潑在我臉上。

我想我做人應該比馬英九成功很多,大概不會有人想潑我硫酸,也不像江宜樺臉皮超厚,硫酸潑到臉上都沒感覺,所以我想我的臉應該和我所有photo ID的照片,都長得很像。

實在沒辦法,我只好告訴他們,裡面的錢我一毛也不想要,你們要自己收起來,還是拿去捐給慈善機構我都沒差,我只想要結束這個帳戶。不然至少也把地址改到我現在的地址,或著停止寄信給我,不要煩到人家。但是就連這個也不行。

最後辦事處的主管跟我說:「真的很抱歉,雖然我認為你是你(I personally agree you are the guy in the photo),但是我們還是沒辦法幫你關你的帳戶。我知道這很可笑(I know this is ridiculous),但我沒有權限這麼做。」

所以,我並不是唯一一個覺得這件事情很可笑的人。但在和他們交涉的過程中,我可是一句髒話都沒有罵,罵髒話的念頭也從來不曾出現在我的腦海中。

為什麼呢?因為我覺得,他們的安全機制雖然有點誇張,但他們是在努力做好他們的工作:「保障帳戶的安全性」。我察覺不出他們的惡意,也從過程中知道他們很努力想幫助我。結果雖然不盡如人意,但他們很認真的對待了我的訴求,在我離開前,也提供了我其他可能可行的辦法:他們請我有空的時候直接到總行,他們會幫我接洽可能可以處理個高階主管。

我想說的是,我們的生活中,充滿了可笑的事情,也充滿了讓人無奈的事情,和惱人的挫敗。這些事情,卻不見得會構成我想罵髒話的理由。

我想罵髒話,通常要不是對自己生氣,就是因為,我覺得對方充滿惡意,或著根本就不願意處理事情,並且以禮貌當作防護牆,想要敷衍我。

關於這種偽善的行為,最近經濟部那個亞投行的報告,做了最好示範:


一篇15頁的研究報告,寫得跟全是屁話的作文一樣,還有臉在開頭說『本文絕對歡迎分享轉錄高調』,這個就叫做根本不願意處理,又充滿惡意。

這個,才是會讓人忍不住要罵幹你娘的可笑。


--

喔,對了,前面說最近有兩件可笑,但不是幹你娘的可笑的事,發生在我身上。還有一件還沒講。

前陣子,有位AV女優到臺灣宣傳。我的日本同事不知道哪裡得知這個消息,就很興奮的跑來跟我說。這位女優的名字,叫做天使什麼鬼的。

我一開始以為我同事唬我,最好有人的名子這麼不要臉,後來日本同事就google給我看,結果他的名字還真的是天使開頭,在臺灣還有個很屌的翻譯,叫做天使萌。

好吧,我必須承認,這個女優長得的確滿好看的。日本人看我覺得她長不錯,就丟了幾個網址給我,欣賞一下他的演技。

其中有一幕,男優拿出了一根假的陰莖。那根假的陰莖,做得還真的頗像的,我看拿來做醫學院的解剖學教學,大概都沒什麼問題。有趣的是,這根很真的假陰莖,卻沒有打馬賽克。

所以在同一部片裡面,把男優的性生殖器打馬賽克的理由到底是什麼啊?

我把這件可笑的事情跟日本同事講,他聽了整個笑翻了。都已經是A片了,卻不能露生殖器,但是做得很擬真的假生殖器卻可以露。這是什麼可笑的道理?


--

可是現在我回頭想想,這好像也沒那麼可笑。

畢竟,這些日本A片,還搞得清楚,什麼是真的,什麼是假的。不像臺灣,假的,在有禮貌的掩護下,會被說成真的。對的,則只要一句幹你娘,就可以變成錯的。

這才真的是幹你娘的可笑。

面對這些幹你娘的可笑,在現實生活的應對中,我想我還是會乖乖妥協。就像我說的,這是一種達成目的的手段,一種不讓其他人站到我對立面的策略。

但為了提醒我自己,也為了繼續凸顯這種文化的可笑,我決定在這個部落格開一個新的標籤,叫做ridiculous as fuck。以後所有這些發生在臺灣幹你娘的可笑的事情,我都會寫在這個分類裡,然後以刻意盡情的大罵髒話做為寫作風格,直到有一天,爭論不再是先推倒禮貌牆的人就是輸家為止。

直到有一天,在我被制止罵幹你娘之後,人們不會停止,會繼續追到公理正義出來,會去檢驗那個罵幹你娘的人,說的到底是對是錯,而不是在我停止罵幹你娘之後,就讓事情不了了之。

在這些事情發生之前,罵髒話,就是這個分類的文風,是一種對這個偽善社會的抗議與諷刺。


--

不要罵髒話?幹你娘、幹你娘、幹你娘。

Evidence-biased misunderstanding (2) --- the intrinsic weaknesses of stats and science

前一篇文章提到了單一科學文章證據強度不夠的問題,這樣的狀況,其實和科學方法的本質有很大的關係。在科學上,我們很重要的一個工具是統計,但是統計卻有很多弱點,也常常沒辦法回答我們想問的問題。


☛ ⟪統計沒有回答你的問題⟫

關於這個統計上的問題,我以前在這個blog也提過(請參考:Evidence-based, but still subjective),不過這樣寫好像太硬了,也不是那麼好懂。所以在這篇文章裡,我想換個方式,用一些故事,和一些比喻,來說明統計的一些問題。

不過在講故事前,我們還是必須解釋一些工具名詞但意義。

我們在科學上最常用的一個工具,是hypothesis testing,也就是我們常常在科學文章上看到的p> 0 .05的那個significant test。

Hypothesis testing本身的概念,其實是非常非常科學的東西。因為他的建立基礎,在於證偽你的null hypothesis。在EBM這個setting裡面,通常我們的null hypothesis會是控制組和實驗組之間沒有差異,譬如【打了A疫苗的病人們和只打安慰劑的病人在得到流行性感冒的比例上,沒有差別】,這就是一個很標準的null hypothesis。

而統計用的方法,是用創造出一個工具,讓我們可以用小樣本,去推論如果null hypothesis成立,這個data的母體分佈會長怎麼樣,然後我們再比較兩個不同的sample groups,像不像都來自於這個母體。

我有時候喜歡用瞎子摸象來說這件事。我們隨手摸了A和B兩個地方,想看看是不是都是來自同隻動物(在這裡這隻動物就是大象)。我摸到的A感覺起來像是個長長的鼻子,我覺得他長得很像大象的鼻子。我摸到的B感覺起來則像是一個小小毛毛的耳朵,不太像大象的耳朵,所以我認定A和B來自不同動物,也因此推翻了A和B來自於同一隻動物的null hypothesis。我們如果用一個數字來表示這件事,譬如說B實在有夠不像大象,大概只有小於5%的機率,你隨便摸一個點,會比這個摸起來更不像大象,那這時候我就說我的p>0.05。

請注意這是一個主觀拒絕null hypothesis的動作,因為我們是覺得B長得很不像大象,所以主動認為他不是大象的一部分,但客觀事實上我們其實不知道這件事是否為真。所以統計其實無法回答我們本來問的問題,也就是A和B是否都來自大象。他回答的是B真的不太像大象,然後交由你自己去判斷他是不是來自於大象。

可是通常我們在科學研究上,想要做的論述,並不只是A和B不是來自同一個動物。我們還想說,A和B一個是來自於大象,另一個是來自於老虎。然而即使我們利用統計幫助我們主觀推翻了null hypothesis,也就是A和B都來自大象,而A和B也真的是來自不同動物,我們也無法保證B是來自於老虎。

用統計上的名詞來說,就是推翻了null hypothesis,不等於alternative hypothesis為真。

現在讓我們想像一個狀況。

今天我做了一個研究,非常成功的推翻了我的null hypothesis。然後我心中,有兩個alternative hypotheses,其中一個,非常合理,但也沒什麼特別。另外一個,還算合理,但是非常令人驚艷。大家覺得,哪一個alternative hypothesis被寫出來會比較容易被Nature, Cell, Science (CNS)給接受呢?

我想答案應該很明顯,那些fancy, eye-catching的假說,會比較容易被這些期刊接受。可是你的significant test並沒有證明這個超酷炫的alternative hypothesis為真,且按照常理推斷,這些合理但是令人驚豔的假說,很多都是相對unlikely的狀況,所以才會讓人覺得又酷又炫。也因此,他們是錯的機率,其實也很高。這是某一些科學家,對於CNS retraction rate高的解釋:當你要提出驚世駭俗的假說,其實也就是讓自己身陷於「這個假說其實很可能不是真的」這樣的窘境。

喔,對了,我在這裡使用的是假說這個詞。因為這些單一論文的研究,按照科學方法的角度去解讀,都只能被視為「仍待驗證」的假說而已。


☛ ⟪樣本數常常都不夠⟫

受限於資源和時間等種種因素,還有power calculation計算上的困難(詳情請參照:樣本夠大不夠大?這篇文章),這些單一一篇的研究,常常都處於under power的狀況。

從很多經驗之中,我們都知道小樣本容易出現極端數值。譬如說Steph Curry會在MSG對上NYK的比賽裡砍進54分,也會在對Mavs的比賽裡砍進51分,但他生涯的平均每場得分也才20.7而已。這兩場比賽Steph都砍進了10顆三分球以上,但這位可能是NBA史上最好的射手,生涯平均一場大概也才進3顆分球而已。

假設我們對Curry生涯的比賽做隨機抽樣,譬如說抽兩場,然後很不幸剛好有一場是上述兩場50分以上的比賽,這樣就會大幅拉高我們取樣後得到他的單場平均得分數值。但如果我們改抽100場,即使這兩場50分以上的比賽都在其中,他們也會被稀釋掉,影響力就不會這麼大了。

同樣的道理在棒球場上也常常看到。波士頓紅襪隊的王牌投手Josh Beckett在2007年Red Sox拿下四年內第二座冠軍時,季後賽的表現根本是見神殺神,遇佛斬佛。光看他那幾場的表現,你會以為他是一個比Pedro Martinez還要厲害的投手。可是如果你比較兩人的生涯數據,Pedro Martinez很快就會跳到史上最強那個層級的討論,Beckett卻只是一個非常不穩定的好投手。

再舉一個最貼近我們生活的例子。譬如說我最討厭的馬英九,我相信如果你在他總統生涯做過的所有事情裡面隨機抽樣三件,搞不好還會抽到兩件他做得不錯的事情。但如果你review他整個總統生涯,要覺得他是個好總統大概很困難吧。

科學研究上面,我們遇到的經嘗就是這樣的狀況。小樣本常常會出現false positive,等到樣本數累積足夠,這樣的false positive就會被抓出來,這也是systematic review和meta-analysis會被視為較高階證據的原因之一:他們比單一研究集合了更多的樣本數。

不只是false positive,在樣本數不足的情況下,很可能genuine difference也不會被抓出來。一個很有名的例子是β-blokers在myocardial infarction (MI,心肌梗塞)上的使用。

在一開始的時候,臨床研究發現β-blokers對於anterior MI有效,但對於inferiror MI卻是沒有效果。這個研究的特色是,在做這個分析的時候,總MI的病人數量是夠的,但是如果把MI病人分成anterior MI和inferiror MI,樣本數就變得太小,變成under power的研究了。

後來隨著越來越多這類型的研究被完成,讓我們可以做mata-analysis之後,很快我們就發現,其實β-blokers對inferiror MI也一樣是有效的。如果我們只用單一一篇研究結果做結論(我這裡引用的還是有做randomisation的臨床研究!),那麼我們就會做出β-blokers不應被使用在有inferiror MI的病人身上,那這樣這些病人就無法享受β-blokers帶來的好處了!

* 最近Nature也有一篇相當好的文章在說小樣本的問題,值得一看:Power failure: why small sample size undermines the reliability of neuroscience


☛ ⟪光靠統計證實不了的因果⟫

今年諾貝爾獎得主,也是美國能源部部長的朱隸文(Steven Chu,剛聽到的時候耳背,還以為是周星馳要來演講 XD),受邀到Univeristy of Oxford有名的Romanes Lecture演講,主題當然就是新能政策和氣候變遷。

朱隸文在演講中提到他們當初做相關能源政策研究時,其實是偷了epidemeology(流行病學)的概念。為了說明流行病學的研究概念,他很禮貌的舉了當年很有名的香菸與肺癌研究當作說明。很禮貌是因為找出這個關係的Richard Doll是Oxford的教授,Oxford還有一棟以Richard Doll為名的大樓,最酷的是Richard Doll本來是個老菸槍,但做出這個研究之後,就戒煙了,這就是真正身體力行的evidence-based practise啊!XD


由於Romanes Lecture的演講slides並沒有開放給聽眾下載,所以我手邊也沒有,不過還是可以簡單描述一下。朱隸文說,當時其實有好幾條線的發現,都指向吸煙和肺癌的關聯性,譬如香菸的普及度和肺癌的盛行率高度相關,以及吸菸者和非吸煙者肺癌盛行率的顯著不同等等。


但我們這些做研究的人,當然不會只滿足於「相關」這個概念。我們想看到的是「因果」,也就是吸菸會導致肺癌這樣的概念。


但事實上光靠epidemiology的correlation研究,是永遠做不到這件事情的。也因此,儘管當時這樣的因果關係很明顯,仍然有很多科學家不買單,認為correlation does not imply causation。


很多科學家為了證實這件事情,就開始進行mechanistic的研究,想找到相關的mechanism,去back up這個吸菸和肺癌間非常robust的correlation。


Mechanistic studies雖然很少能夠真正完全證明因果關係,但通常會讓我們更有信心A和B兩件事情,是有因果關係的。中央研究與TWAS院士,現任陽明大學校長,專長為生物統計學的梁賡義教授,也曾經在演講時說,不管統計做得再好,都要提供機轉上的解釋,才能真正算得是一個好的研究。


於是這些科學家前仆後繼的用各種不同的models,老鼠、細胞培養等等一大堆,慢慢提供了越來越多、越來越充足的科學證據,讓我們相信,吸菸和肺癌之間,是有因果關係存在的。


等這些證據累積到一個程度,有天美國政府覺得,這些證據夠可信了,於是他們決定,要試試看用政策去減少吸菸的人數,看看能不能降低肺癌的盛行率(請注意這又是一個主觀認知)。很不幸的是他在講政策這段的時候我不小心把旁邊的人的包包給掃到地上了,正忙著道歉,所以沒有聽到政策是怎麼執行的,只知道似乎和警語之類的有關。Anyway,政策執行的結果,是吸菸的人數降了,而肺癌的盛行率也跟著降了。


一直到了這個時候,我們才能夠真正相對有信心的說(又是一個主觀判斷!Evidence-based decision making仍是一個充滿主觀判斷的過程!),吸菸會導致肺癌。


這樣的過程也是我們通常在臨床上最後能夠確定因果關係的方式:利用intervention來看看能否達到預期的改變,而不是光靠統計上的correlation。


對我們來說,correlation常常是最好做的研究,特別是在這個omics盛行(genomics, transcriptomics, proteomics),big data好好用的年代,更是如此。Mechanistic studies就難多了,常常是一個PhD以上的研究計畫,所以很難只用一篇論文就做出詳細的mechanism。在這種情況下,光靠一篇paper當證據,你看到的很可能只是correlation,或著是mechanistic studies的冰山一角,甚至是錯誤或spurious的部分,在這樣的狀況下下結論,自然就是相當error-prone的,這也是單一paper證據力不足的原因。



☛ ⟪統計,好難!⟫

在講科學的時候,常常很多人都以為科學家是一群象牙塔裡的專家,知識異常淵博。但其實大部份的專家,也只有在某些地方,比一般人厲害一些些而已。也因此,他們在自己沒那麼熟的領域,其實常常也是理解有限。這樣的結果,就是造成他們在這些地方會不小心犯錯。


而統計作為一個科學上非常重要的工具,被使用的量非常大。但是它又很難,大多數的科學家也都不是專業的統計學者,是以會犯錯,也是常有的事。下面我就講一個非常有趣,關於專家對統計不夠瞭解,因此被人惡作劇的故事。


Peter Sleight是一個非常厲害的cardiologist(心臟專科醫師,也是心血管疾病研究的大頭),同時,他也是少數精通統計的研究者。他和前面提到那個Richard Doll Building裡的Richard Peto教授,都是臨床實驗設計和流行病學的高手,也是大力反對"sub-group analysis"分析法的人。


我們在做臨床測試時,都會先做一些估計,大概抓出這個臨床試驗,需要多少病人和多少對照組,才能夠得到統計上具有效力的結果,這個就是前面提到過的power calculation。而所謂的sub-group analysis,意思是說,在招募完試驗參與者並做完臨床測試之後,再去把這些病人,依照某些特色分組,然後再做其他的統計分析。


舉例來說,本來我的臨床測試,是要研究某一個藥物對於治療心肌梗塞(MI)的影響。我經過power calculation之後,算出我要500個健康參與者,和500個病人,這樣做出來的統計才有效力。


等到這個試驗做完之後,我又根據這些參與者的年紀,去做詳細的分析,看看我的藥是不是對於不同年紀的病人,有不同的效果。於是我就把這1000個病人,又依年紀分成5組,這五組就是sub-groups,而這樣的分析,就是sub-group analysis。前面講到beta-blockers對inferior和anterior MI有沒有效的分析,就是一種sub-group analysis。


這樣的分析會有很多問題,其中一個是你的樣本數就變少了,所以統計的效力可能會跟著降低。另外一個問題是,如果你一直重複做hypothesis testing,你得到false positive的機率就會增加。例如我把一個做出來藥物和安慰劑沒有顯著差異的臨床測試參與者,用sub group分成四十組,然後狂做hypothesis testing,在把顯著差異的標值準設在P < 0.05的情況下,你就會預期只少會有兩組會做出positive result*。


因為這樣的原因,所以Peter Sleight他們才會大力反對sub-group analysis,這是他們在上epidemiology時一直強調的概念,也是他們發paper時非常堅持的原則。


有一回,Peter Sleight主導一個很大型,很經典的心臟病臨床試驗(ISIS trials)。試驗做完之後,他投稿到The Lancet(對,就是那個潘建志醫師口中的權威期刊The Lancet),沒想到The Lancet的審稿人,居然希望Peter Sleight他們做sub-group analysis,提供更多資訊。


氣急敗壞的Peter Sleight和The Lancet的審稿人(通常都是醫學研究的專家學者)溝通失敗之後,想出了個壞主意。


因為當初他們招募參與者的時候,有登記每個人的出生年月日,因此他可以很輕鬆的找出每個參與者的星座。於是他就把每個參與者依照星座分組,分出了12個sub-groups。


而即使是像ISIS這樣超級顯著的臨床試驗(P < 0.00001),他們還是在12組裡面,做出了他們研究的藥,對於雙子座和天枰座的人無效,這樣好笑的結果。


Peter Sleight把這個最新的結果投到The Lancet(對,真真確確就是那個潘建志醫師口中的權威期刊The Lancet),本來還要刊了。也因此後來這個變成Peter Sleight每次都拿來恥笑The Lancet的笑話。


這個例子因為真的太蠢,所以他每次講,大家都笑翻了,星座怎麼可能會影響藥物對人的效果呢?但如果今天是個沒那麼蠢的分法,譬如按照國籍分成12組,或著按照年紀分成12組,大家還能夠這麼容易發現問題嗎?


依照我自己的經驗,其實是沒那麼容易的。我唸博士班的過程,有一些機會幫老闆審別人的paper。過程中還滿常發現別人統計上的錯誤,一度我還真的覺得科學真是沒救了。


直到有一天,我自己在設計實驗的時候,設計到一半去喝杯茶,喝完回來,忽然發現我分析之前,忘了先確認一個很重要的假設。


那時候忽然我就明白了,因為統計這東西真的很複雜也很難,其實犯錯是常常有的事情。而別人在審paper的時候,不一定都會拿原始的數據來分析,審paper的人可能也跟權威期刊The Lancet的審稿人一樣,會在統計思考上不夠小心,那這樣一些分析效力不夠強的paper**,就會被刊出來。


而如果我們不明所以,抓起paper,只看結果就當成決定性的證據,就會造成拿著雞毛,以為是令箭的慘劇。而按照這樣不夠扎實的基礎做出來的決定,很可能就不是一個最佳的決定。這樣就違反了evidence-based的本意了。



*P < 0.05,代表只有5%的機率取到比這個更極端的值。因為機率很小,所以我們主觀認定null hypothesis為假,我們比較的兩個東西,例如兩個平均,不是來自同個母體。但這也代表還是有5%的機率我們會在這個母體內取到比這個更極端的值,因而錯誤的否決null hypothesis。所以我們至少有5%的機率會犯下false postiive的錯誤(type I error)。所以在上面那個例子裡,犯下false positive的機率是5%,40*0.05=2,所以我們預期會有兩組出現positive result。這個不懂就算了,當作是統計好難的證明吧 XD


** 統計效力弱不代表結論就是錯的。譬如說我們看到一個分成12個sub-group的研究,顯示出當中有兩個是positive。如果是按照星座分,因為太蠢,所以我們知道這八成是假的。但如果是比較make sense的分類法,例如血液中血小板的比例,那這時候我們就不知道到底這是假陽性,還是真的是positive。





☛ ⟪沒有randomisation也非blinding⟫

在臨床測試的setting底下,randomisation和blinding是避免系統性偏誤的重要工具。

理想狀態下,當我們要做統計時,我們應該進行的動作是random sampling。所謂的random sampling,就是說在族群(population)中,每一個sample被抽到的機會,都是均等的。在這樣的狀況下,平均而言,這個些samples的特色,會和母體高度相似。

譬如說一個箱子裡有10顆紅球,100顆藍球,和30顆黃球,在純隨機的狀況下,我們抽到籃球的機率,會是紅球的十倍,抽到黃球的機率,則會是紅球的三倍。所以平均而言,我抽球抽十次,看到的比例,應該是紅球:藍球:黃球 = 1:10:3,這個就是random sampling出來的sample會貼近母體特色的概念(統計這叫做smaple representativeness)。

但這樣的方式在實際上是不可行的。以臨床測試來說,我們只能在某些醫學中心做,你可以想像這樣的狀況,會讓我們受到很多限制,讓我們沒辦法隨機的接觸到每個族群中的人,譬如離醫學中心很遠的人,可能就有比較低的機率會特地來參加臨床測試。


在這個情況下,我們只好退而求其次,進行randomisation。


Randomisation的基本概念是在消除可能由人為造成的bias。舉例來說,如果我們要研究抽菸對中樞神經的影響,但其實喝咖啡也會影響中樞神經。如果我們今天用完全隨機的方式將參與受試者分配到A和B兩個組別,理論上喝咖啡者被分配到A組和B組的機率是一樣的。


舉例來說如果我們的受試者有10個抽菸者,平均而言,隨機被分配到A組和B組的機會是50%-50%,所以我們可以期望兩組各會有5個抽菸者,至樣抽菸的影響就被消除了,因為兩組都會看到一樣程度由抽菸造成的影響。如果說剛好出現極端的狀況,譬如說A組9個抽菸者,B組只有1個,我們會知道這是運氣造成的,而不是人為產生的bias。


Blinded test的目的也一樣是在避免人為偏誤。一樣以臨床測試來解釋,一個blinded test,在最理想的狀態下,參與者不會知道自己是分配在安慰劑組,還是新藥組。這樣就可以避免安慰劑效應。而執行臨床測試和分析數據的人*,在最理想的狀態下,也不會知道這樣的資訊。這樣就可以避免先入為主的狀況。 

先入為主即使對科學家而言都是很恐怖的偏誤,我最近剛好深有所感。前陣子有回我把某種酵素(trypsin-EDTA)從-20℃的冰箱拿出來退冰,結果忘了放回一般的冰箱。第二天有個同事發現,就一直大驚小怪,還跟我說他試了好幾次,那罐trypsin都沒有活性,一定是因為沒收進冰箱,所以trypsin「死了」。


這種事情我在臺灣看過無數次了,從來也沒遇過有人的trypsin會因為這樣就死掉,所以我當時覺得怪,難道英國的trypsin比較爛嗎?


不過畢竟是自己犯了錯,我就沒跟他爭,不斷道歉以後自己把那罐trypsin收起來用,用起來根本也不覺得有差 XD


前幾天,那個當初一直抱怨的同事,因為自己的trypsin用完了,就借我的去用,拿的剛好就是那罐「死了」的trypsin。我看他按照平常的方式操作,也是做得很好,沒發現有什麼trypsin死了的問題,這樣你就知道先入為主多恐怖。


所以在實驗時,如果我們先預期哪一個組別會看到怎樣的結果,我們可能就會出現先入為主,把不存在的差異,自己腦補出來的狀況。


有了randomisation跟blinded test這兩個工具,我們就可以盡量把所有的人為bias剔除,那這樣看到的結果,除了運氣之外,就是真正受我們想要研究的因子造成的。


可是在一般的實驗室,也就是非臨床測試的setting下,這兩件事情,受限於資源和操作,基本上是不太可能達成的。事實上,就連在臨床測試的setting底下,也還是有randomisation和blinding 不可能達成的狀況。


舉例來說,末期癌症的新藥,是不可能做randomisation和blinding的。因為來的病人都是已經藥石罔效了,給他們安慰劑等於宣判他們死刑,這種trial根本沒辦法做。所以癌症新藥根本不會有安慰劑組,或做新藥與舊藥的比較,自然也沒辦法用這兩個工具。


另一種無法blinding的狀況,會發生在病人可以明確知道自己有沒有受過operation的狀況。譬如說,我想比較對於退化性關節炎的病人,服用新藥A的效果,和換人工關節的效果,哪個比較能夠回復行動能力。因為我們通常不會做shame operation(假開刀,也就是刀開了卻沒做任何事就縫起來),畢竟這有道德疑慮,所以在這樣的setting裡,blinding根本不可能達成。


實驗室裡頭,則有更多這樣的理由,會讓我們無法做randomisation跟blinded experiments,有時候則存粹是資源不夠(這兩件事情做起來,都很耗人力、金錢,和時間),而這也會影響生物實驗室裡面實驗結果的可信度。



*實務上分析數據的人,特別是統計學家,要blinding會有些困難,因為他們分析有時候會需要un-blind,才有辦法做到好的統計分析跟設計。



☛ ⟪Publication bias⟫


學術界的另一個問題,是通常能夠發表在好期刊的文章,都是要做出差異的文章。也就是說,同樣一個研究,如果我的group在實驗室做出來,是有差異存在的,譬如說服A藥的老鼠,比對起服用安慰劑的控制組,阿茲海默症的進程都減緩了,這樣的研究結果,就會比另一個group,做同樣的研究,做出來沒有差異,要容易登上期刊。

而這樣的問題就會造成一個publication bias:按照p > 0.05的標準,我們有5%的機會錯誤的拒絕null hypothesis,也就是服A藥和服用安慰劑的組別其實沒差,但是我們錯誤的否絕了這個假說的機率是5%。可倘若只有這5%做出來是有差異(false positive)的實驗,能夠被期刊接納,剩下95%的文章,都會被拒絕,那麼就會造成閱讀文章的人,做出A藥真的有效果,這樣的錯誤判斷。


而我們在做systematic review的時候,一個很重要的準則,就是納進來review的文章,不能只有出版的,沒出版的如果能夠拿得到,也要放進來參考,這就是在避免publiscation bias。


而事實上,在現在的科學界,因為大家都在追求速度,所以一個重要的發現出來,大家一定都會想要replicate這個發現。如果能夠重現,就可以以這個為基礎,繼續深入研究下去。而replicate的過程,也可以順便建立起自己的expertise,有益無害。在這樣的情況下,多少可以減低publication bias造成的影響,這點在下一篇文章,我會做進一步的說明。



☛ ⟪巷子內人的遊戲⟫

單一科學論文做EBM,沒有那麼值得相信的原因,還有一個,那就是大多數刊載於學術期刊的研究,其實都已經太專精了,專精到即使是受過科學訓練,但不是在同一個領域的人,都不一定有辦法看出一篇研究論文到底做得好不好。

這點其實有時候在FDA, EMA或著MHRA這類審核藥物上市的機構,也會見到。一種狀況是,他們在審藥的時候,請的顧問,可能和做臨床測試的藥商有利益衝突。這並不是說他們不知道要利益迴避,而是在某些罕見疾病的領域裡,可能專家就那幾個,而一個新藥,可能就是這幾個人的研究成果累積出來的。因為他們是專家,所以很多地方你還是得請教他們的意見,也因為這領域太專精,其他領域類似的人不一定有辦法做出好的判斷。


接著讓我們回到實驗室。我前陣子就經歷過一個很有趣的「巷子內人才知道」的事情,不過開始之前,我得先說一點點高中化學。

讓我們來假設一個情況:今天有一個蛋白酶E,他可以把他的substrate S切成S'和S''兩個部分。這時候我們就可以寫出一個等式:⟪E+S ⇌ E+S'+S''⟫。


這個過程,是由酵素先和substrate結合,變成一個ES的複合物,然後再由酵素把S給切掉,變成ES'S'',然後酵素再和S'與S''分離,變成E+S'+S''的狀況。


而按照我們學過的化學原理,在S的濃度固定的情況下,我們加入E,E的濃度,會決定最終達到平衡時,S和S'+S''的量。


但如果說今天E對於S的affinity很高,那只要濃度相對低的E,就可以把這個平衡式往右邊推。反之,如果affinity很低,那就要很高濃度的E,才能把這個平衡式往右推。


這就告訴我們,只要濃度給得夠高,就算是專一性很高的酵素,也可以切一些本來在生理狀況下,不是他substrate的東西。這個在生科實驗待過的人應該都知道,有些restriction enzymes,如果給的時間夠久,濃度放夠高,他們就會亂切你的DNA。


那現在問題來了。今天我們看到一篇paper,他用10mM的酵素濃度,加上1mM的substrate濃度,發現這個酵素可以切這個substrate,所以宣稱他們找到了這個酵素的substrate。這時候你要怎麼判斷,他們用的濃度合不合理?


這幾乎是一個沒法回答的問題,因為每一個酵素,都有他自己特別的特色,所以怎樣的濃度合理,是一個case by case的狀況。但我隔壁實驗室的人,他們就很有概念,因為他們有很多研究酵素的經驗,所以他們對於幾種特殊的蛋白酶,在怎麼樣的濃度底下,會開始亂切,怎樣的濃度下則專一性很好,就會有比較正確的認知。


我剛到這個研究機構時,有一次因為研究的需要,拿了一篇類似這種蛋白酶切他substrate的paper去請教他們,我當時以為,那篇paper找到了一個還不錯的substrate,我可以拿來用在我的實驗。


結果那間實驗室的PI,馬上翻到materials and methods的部分,看了他們用的濃度,然後再翻到paper的開頭,看了作者的名字,google了一下,接著就哈哈笑兩聲,跟我說不要太相信這篇paper的結果,因為那個酵素的濃度太高了,跟他們的經驗不符,然後這篇paper的作者不是來自做酵素的group,所以他們很可能沒有這個sense。


為求保險起見,他們還是幫我試了一下,然後過了一個禮拜,就跑來跟我說,那個結果真的不太reliable,在那個濃度和反應時間下,酵素甚至會自己切自己。


這個就是很典型,巷子內的人才會有辦法判斷的狀況。我的領域雖然和他們相去不遠,但他們沒跟我說之前,我也對於怎樣是合理的濃度沒概念,甚至他們自己,也只對某一類的蛋白有概念,其他的類別他們也沒那麼了解。


舉這個例子,並不是說科學就只有該領域的科學家能玩,paper只有少數人看得懂。而是說當你不是那個領域的專家時,看paper要很小心,要多收集資料和多問人。只憑藉一篇paper,就很可能會遇到類似我上面的情況,把一篇rubbish paper當成支持你論點的證據。


☛ ⟪證偽的侷限⟫

這篇的最後,我想講一下在實驗科學裡面,使用科學方法的一個很大侷限。

我大學時上過一門羅輯課,整系列的課我都在混,只有一個故事被我聽進去了,但光這個故事,就非常值回票價。


這個故事叫做天下的貓,都是黑的。

故事是這這樣的:

有一天,馬小九和陳小扁打賭,說全天下的貓,都是黑的。

陳小扁很高興的賭了,他跟馬小九說,你是不可能贏的。

馬小九不相信,就帶陳小扁去附近,連續抓了五隻貓。果然,五隻都是黑的。


馬小九得意地說:「怎麼樣?我贏了吧?」


陳小扁說:「還早勒,才五隻而已。你說的是全天下的貓都是黑的。你只要找到一隻貓不是黑的,你就輸了。」


固執的馬小九聽了很不高興,就開始他的無窮無盡的抓貓之旅。旅程中,每隻他抓到的貓,都是黑的。可是每次他拿去給陳小扁看,陳小扁都會說,那是因為你還沒有抓完全天下的貓。


堅持抓完全天下的貓,是大是大非、利大於弊的馬小九,就繼續抓、繼續抓、繼續抓。有一天,他覺得自己抓完全天下的貓了,就跑去跟陳小扁說,真的全天下的貓都是黑的。


陳小扁卻說:「你怎麼知道你真的抓完全天下的貓了?我說還有一隻不是黑的你沒抓到。你再努力找找。」


找了數十年,已經從帥氣小馬哥變成垂奶九趴馬小囧的馬小九,卻怎麼也找不到另一隻貓,於是他就回去跟陳小扁說,他真的把全天下的貓都抓完了。


陳小扁卻說:「你找不到,不代表不存在,你要繼續找,拼命找,但你永遠也不會知道是不是真的還有一隻不是黑色的貓你沒找到。所以你是不可能證明你是對的,這場打賭,是我贏了。」


這當然是一個很智障的故事,不過他說明了關於論述的不可證實性。我們要證偽一個論述,非常簡單,只要找到一個反例就行了。譬如「天下的貓,都是黑的」這個論述,只要你找得到一隻不是黑色的貓,這個論述就被證偽了。可是當你找不到反例,或無法證偽這個論述,卻不代表這個論述就是對的,因為永遠都有可能,只是你還沒找到那隻不是黑色的貓而已。


這個就是科學方法的侷限。我們做科學的人,都想要提出理論。這些fancy的理論,才是讓我們感到興奮的東西,是所謂的eye-catching results。但是我們最多,也只能做到證偽其他我們想得到的可能性(也就是其他的alternatives),並用一些間接的證據,來支持我們的提出的理論。


所以我們這些做實驗的科學家,不會說我的data證實了(proved)某件事,而會說"our data support/indicate/suggest"我們的理論。這不是說我們比較保守,不喜歡把話說死,而是科學方法上,我們真的就沒辦法證實我們的理論是不是正確的。


這個侷限和統計的hypothesis teating,其實是一曲同工之妙,而受限於這兩個我們在實驗科學上最重要的工具,讓我們很難只靠單一個paper下很紮實結論,因為大多數的paper,都只是一篇提出假說的paper,而不是證實了一個理論。是以,based on單一paper的EBM,自然也就可信度很低了。






這篇說了很多關於科學的弱點,好像科學證據,是很不可信賴的東西一樣。不過這絕對是一種誤解。我在這篇要強調的,是單一一篇paper,並不是證據力很強的證據,而不是說科學產生的證據,是不可信的。這個論述看起來好像有點矛盾,不過等下一篇我說明完了之後,各位就會明白為什麼了。



Evidence-biased misunderstanding (3)- individually weak, collectively robust

Evidence-biased misunderstanding (1) --- what is EBM?