Note:

因為blogger會有很多廣告留言,所以我有設留言管制。大家留言留一次就好,只要不是廣告,我都會定期去後檯把留言給撿回來。

造成麻煩還請大家多多見諒。

2015年5月15日 星期五

Brief introduction of good manufacturing practices

在上一篇的最後,我說明了站在毒理學的觀點,Fipronil超標一點點,擺在NOAEL和ADI的概念下,其實不是太嚴重的事情。這件事情之所以很嚴重,是因為它代表著我們的GMP制度出現了問題。這裡,我就簡略說明一下GMP(good manufacturing practices)是什麼。

在進入正題之前,我得先說明一下,我接觸比較多的,是藥品的GMP。藥品的GMP和食品的GMP當然會有所不同,在多數時候,我們對藥品的要求,會比食品更高。然而,雖然guildlines會有不同,但在基本概念上,食品和藥品的GMP概念非常類似,所以我雖然是從藥品的觀點出發,但套到食品上應該不會差太多。

下面這個,是針對藥品,寫出來的GMP定義:



要了解GMP是什麼,得從為什麼我們需要GMP開始。讓我先講個小故事。

我剛到英國的時候,為了省錢,於是決定開始練習自己買菜煮飯。在臺灣已經習慣外頭便當30分鐘解決的我,對於煮菜完全沒有概念,所以我決定去買食譜來參考,看看大廚是怎麼做菜的。

英國這裡有位很有名的廚師,叫做Jamie Oliver。我什麼也不懂,於是就決定崇尚名牌,上了他的網站,研究他的食譜,然後照著做。接著我很快就發現,雖然我努力照著他的方法做,但做出來看起來實在不太像他網站上放的食物。

身為一個臺灣人,很自然就覺得這是缺乏練習的結果,只要勤加練習,我的菜一定會變得越來越像食譜上的樣子。

同一道菜做個幾次之後,大概就會比較熟悉了,也會變得越來越好吃。但很快也會發現,我每次做出來的菜,都會有一點不同,有時鹹了點,有時焦了些。而這樣的差異,主要來自於食譜的描述並不夠詳細,很多地方還是有模糊的空間。加上我買來的材料,每次品質都不一樣,像有一次我買到了不新鮮的雞肉,整盤菜就毀了。

當時我恰好正在上GCP(good clinical practices)的課程,這東西就是GMP的臨床測試版本。然後有一天我忽然就頓悟了,我的菜之所以煮出來每一次都不一樣,就是因為缺乏GMP的緣故。所謂的GMP,放到廚房,就是一整套為了要讓你每道煮出來的菜,吃起來都一模一樣,而設計的guildlines。GMP要保證的事情,就是只要你照著GMP的guildlines做,那你每次做出來的菜不但品質都夠高,色香味俱全,而且會每次做出來都一樣,或著更精確地說,每次做出來的差異,都小到可以被接受。

這個「差異小到可以被當作一樣」的概念,會有人為詮釋的空間。這也是為什麼藥物的GMP和食品的GMP,會有前者較嚴格,後者較鬆的狀況出現。而要保證做出來的東西,品質夠高,且可以被認定為一樣,我們就必須先給予一個定義,再設計一套方法去檢驗,譬如在藥物上,我們就定義了一個名詞,叫做bioequivalence,按照這個定義去設計實驗,檢驗兩批藥物,在品質和特性上,是否能夠被認定為一樣。

現在讓我們簡單想像一下,有一個A藥物,分成X和Y兩批,被製作了出來。當初送審的時候,我們是拿X那一批去送審,並得到了核准上市的資格。那當Y被生產出來的時候,我們該怎麼證明Y和X的差異,小到可以被認定為沒有不同呢?假設X批的A藥物,當初做檢驗的時候,每一公克含有90%的主成份M,8%的副成分N,還有2%的其他物質,那我們就可以拿一點Y批的A,然後用一樣的檢驗方式,去檢驗看看,是不是Y批的A,也含有90%的M、8%N。

這個在產品被做出來之後,拿去檢驗,看看品質是否符合要求的動作,我們稱之為quality control(QC)。

這種事後檢驗,會讓我們知道產品合不合格。可是如果每次都要在產品做出來之後,才能夠知道,這樣對於廠商來說未免過於損失慘重。一樣用煮菜當例子的話,若每次煮完試吃,才知道品質是否合格,這樣既沒效率,也浪費材料,自己煮還罷了,經營餐廳的話肯定很快就會倒了。所以我們也會希望能夠在事前就做一些準備,讓我們能夠預防品質不夠的產品被製造出來,譬如我們我們熬湯的時候,邊熬會邊撈一點起來試喝,看看會不會太鹹或太淡,這種在完成之前先檢驗,預防產品品質不足的方式,我們就把它稱為quality assurance(QA)。

這兩步在每個工廠理論上都會做,是一般製造業維持品質,讓產品品質符合要求的作法,差別只在於這些動作,是廠商自己對品質做要求,還是政府有強制規定。對於藥品和食品,因為牽涉到健康,民眾會希望規定能有強制力,所以多數國家最後都會走到用法律對其品質要求作出規範的這一步。

像我先前說的,我們會希望知道後來生產的藥品,和原來拿去做檢驗,通過審查而能上市的藥品,可以被當作一樣。在食品上,標準會寬鬆一些,可是還是會需要符合特定要求。為了量化方便,這些特定要求會被我們設定成一些數值,譬如說以前發生過三聚氫安參入奶粉的事件,就是因為奶粉會有特定的品質檢驗,像是含氮量要在多少以上。不肖業者就是利用這點,設計出可以欺騙事後檢驗的方法,來通過QC的檢查。

這就是為什麼光靠事後檢驗產品是不夠的,只要知道檢驗設計的原理,就一定有辦法作弊。同時,如果我們再更一步仔細思考,像是在先前茶葉驗出農藥的新聞裡,我們在意的,往往不只是某東西的主成份而以,還有這東西裡面含有什麼雜質,這些雜質的成份和量是多少。一樣用上面那個A藥物當例子,我們想要知道的,還有那2%的其他物質,含有什麼東西。

但要知道這2%是什麼東西,是一件極為困難的事情,實驗設計上難度很高,而且時間和成本也很驚人。

所以比較好的辦法,還是從過程中,就去做管控,然後利用高度管控的過程,去預測要檢驗的項目有哪些。舉例來說,要做A藥,需要用化學反應產生M。假設現在有兩個化學反應,一個是P+Q→M,這個化學反應會產生K這種副產物,這個副產物可能會有毒性。而H+I也可以產生M,但這時候副產物會是F,這個F也有毒。

在這樣的狀況下,倘若我們能夠確定他們的生產流程,一定是由P+Q產生M,那我們就可以設計實驗拿掉副產物K,然後事後做檢驗的時候也可以很專一的檢驗K。

然後我們再進一步假設,譬如P是從某個國家的某種植物來的,該國家的土地已知長期遭到12種農藥污染,所以P很可能會有這些農藥的殘留,那我們就可以設計另外一個實驗,來做檢驗,看看P有沒有殘留這12種原料。

但是什麼原料都要自己檢驗,這樣成本就太高了。所以我們可能會把這些原料,分成幾種等級,譬如說食品級、實驗室級等等,像實驗室級,因為不用吃,所以可能在污染物上就不會要求這麼嚴格。為了方便說明,我們就假設實驗室級不用檢驗農藥,而食品級則要把所有農藥殘留都去除掉,那這樣食品製造商,只要找專門進口食品級原料P的廠商,由他們出示證明,這樣就可以確保自己買到的原料不會含有這12種農藥。這個就是之前毒油風暴時很多專家一直在強調的源頭管制。

現在我們再回到餐廳的情境裡。我們吃飯,除了食物材料的來源,和煮飯的時間會影響菜的風味和衛生之外,廚師的技術,也對菜最後吃起來怎麼樣,會有很大的影響。有的時候只是一些處理順序上的差別,或著菜多洗一次,還有牛肉多熟成一個禮拜,就會對最後菜餚的衛生、營養和風味造成天壤之別。所以,廚師的訓練,如果能夠有一個標準規格,讓他們都照著standard operating procedure(SOP)去做,這樣就比較能保證菜餚品質的統一,這對於連鎖餐廳,特別重要。

食品工廠和藥廠也是這樣。我們必須對於工廠裡的員工,給予嚴格的訓練,讓他們都以符合規範的SOP來做事,這樣才能夠保證他們做出來的產品,每一批之間可以被認定為相同,且符合規範的機率可以提高。

同理,不同功率的微波爐、炒菜是用瓦斯爐還是電磁爐,煮出來的菜很可能也會不一樣。所謂巧婦難為無米之炊,是以用哪些設備煮菜,這些也需要事先規範好。

除了廠內生產時的管理之外,生產完之後,藥品或食品的儲藏,還有再送到消費者或通路時的運輸,也都需要有一定的規範,才能讓一個藥廠出產的藥品,或著食品廠產出的食品,以最好的狀態,被送到消費者,或著通路上。所以這些部分,也需要規範(食品的部分我不確定運送有沒有被納入)。

最後,要讓這些東西都被好好執行,還要能夠隨時檢查,就需要一大堆紀錄,所以我們需要超多資料,準備著以備查核。這樣的查核有兩種,一種稱為inspection,簡單說就是政府單位,例如FDA(美國)、MHRA(英國)或著TFDA(臺灣),直接派人以定期及不定期、通知及不通知等不同方式,直接到廠裡面檢查。另一種就是純粹查核資料,把所有該有的資料拿出來抽查,這種叫做audit。

以上這些,從原料、製成、儀器、QA、QC、人員訓練、儲藏、運輸的管理,就是GMP。也就是說,GMP包含了工廠生產的所有面向,全部的東西,包山包海,就是為了要保障藥品或食品的品質。




下面是藥品GMP比較詳細的條列式guildlines:




如前所述,在很多國家,GMP會被寫入法規,使其具有強制力,這樣才有辦法確保食品和藥品的品質。一般來說,這個部分會由發放證照,或著產品能夠上市這兩關來管控,譬如說要符合GMP規範,才發給營運執照,當新人加入或增加新產線、產品時,也必須讓他們都符合GMP才能讓人開始工作、新產線的產品得到上市的核可。同樣的,食品的規範會比藥品鬆一些,所以實際的要求會做到哪種程度,可能得去細看法規才知道。

而政府機關的角色,並不是在發放證照之後就結束了,還必須不斷做上面說的inspection和audit,特別是沒有事先通知的抽查,來保障GMP一直都有被確實執行。

而臺灣現在會到處驗都驗到有問題的食品或藥品,很大一部分就是因為我們的主管機關,過往根本就沒有做好他們稽查的工作,加上一些環境的問題,讓很多工廠不管有意無意偷工減料,產出的產品根本不可能合格。且就我所知,我們的GMP,並不是全然被寫入法規之內的,很多賣食品廠商過往也不見得一定需要證照才能營運,這樣當然就問題多多。

因為這些食品和藥品安全的問題實在太過複雜,想要確保安全,就一定必須倚靠GMP這樣整個流程的完整管控,而現在臺灣食安和藥品安全的連環爆,就是GMP崩壞的一個現象,如果不從確保GMP被完整納入法規,主管機關強制執行GMP這點去解決,大家做到死也不可能有辦法把食品和藥品的安全給建立起來。

另外很麻煩的一點是,像GMP這種高度倚賴公權力的東西,一旦遇到效能不彰的政府,就會完全失去credibility。像是某大國政府,他們給的證照大概就不會有人敢信,因為政府幫忙偽造證照的情況太多了。以臺灣目前政府的效能,我想也很不樂觀。而現在很多市場上的狀況,例如健保造成幾乎沒有利潤的藥價,也是在提供廠商偷雞的誘因,配合沒有效能的公權力,自然就是食安、藥安問題,遍地開花了。

結束以前,我想額外強調一件事情。前面講的GMP,有那麼多要求,其實就是用政府的力量,為了民眾的健康,去增加廠商的營運成本。廠商不可能沒有利潤,所以最後這些成本,會反應到消費者身上。我們不可能要食品和藥品超級安全,嚴格執行GMP,卻又要廠商自己吸收為了照顧我們的健康,而增加的成本。臺灣因為健保的關係,長期習慣過於便宜的藥價和醫療價格,卻又要享受超高品質與效率的醫療,這本身就是很矛盾的事,一旦廠商或醫院開始入不敷出,就是提供他們造假的誘因,或著讓大家乾脆退出市場。

食品的狀況也很類似,你當然可以要求我們進口的檢驗標準世界最嚴,但你就要願意讓廠商把成本轉嫁到我們消費者身上。不知道大家有沒有聽過P&G這間公司?他們買原料的標準就是世界嚴格,什麼都要你付檢驗證書,所以要賣他們原料,就得自己額外花錢去做檢驗。可是他們出得價格也很好,且一旦原料用了合適,就不會輕易為了一點點價格的差別換供應商,所以還是會有廠商願意配合他們的條件,專門做他們的生意。

食品也是一樣,只要有利可圖,一定會有人願意進來做生意。但我們得考慮到自己的市場大小,還有願意付的價格,訂出合理的法規,而不是什麼都要世界最嚴,把歐盟美國法規上各自最嚴格的部分截取出來,拼湊成我們自己的法規,然後宣稱食、藥品安全書面達標,宇宙最強,但又不願出高價,導致實際上沒人做得了我們的生意,正正當當的廠商不願意進來,剩下的就大家來比走後門,這樣的政治勝利的食、藥安,其實也不過是夢一場罷了。

2015年5月14日 星期四

Parts per notation is not advisable when describing toxicity

這幾年來臺灣的食安問題層出不窮,甚至連藥品也出現了原料來源上的問題。我由於研究的關係,接觸了很多藥品相關的研發與製造法規,也因此接觸到了GMP (Good manufacturing practices)和GCP(Good clinical practices)等概念。在我看來,GMP正是現在食品和藥品管控危機的根源。食品GMP我雖然不熟,但在基本的概念上,和藥品的GMP是極為類似的。因此我打算分享一下我對GMP的了解,看看能不能稍微提供管控食品安全的一些思考面向。

不過在進入GMP之前,有幾個資訊正確性的問題還是需要處理一下。這部份loading就很重了,所以這篇文章會先處理這個部分,GMP等到下篇再說。

這個資訊正確性問題在媒體上還頗為氾濫,不過我在這裡不想講這些糾正不完的新聞,倒是打算從一篇在臉書上被轉載很多次的文章說起:

這篇文章把好幾件不同的事情扯在一起講,讓這個議題變得太過複雜,因此第四點之後,那些過度推論,以及已經被糾正過的水處理問題,我就不發表意見了,這裡只針對我熟悉的部分做解釋。而這可以粗分為幾個比較大的問題,以下我們一個一個來處理:


【五十嵐、、英國藍,到底誰毒誰不毒?】

首先讓我非常感冒的一點,是他的毒理學概念幾乎完全是錯的。關於毒理學的基本介紹,我以前在 ⟪Toxicity is a time-dependent dose-response relationship⟫ 這篇文章裡就介紹過了,有興趣的朋友可以點進去看看。這邊,就讓我們長話短說,難事化簡。

站在人類的立場來看,最簡單的說,一個毒物之所以有毒,是因為他對人體,會產生不良的作用。但毒理學裡頭一個基本的觀念是,每個物質,只要劑量夠高,就會對生物體造成毒性。因此即使如水一般無害的物質,只要喝太多,也是會出現水中毒的症狀。

而一個東西吃進去會不會有毒,基本上是建立在人體對這個東西有多敏感之上。像某些蛇毒,或是氰化物,因為作用機轉的關係,人體對他們非常敏感,所以只要很低的劑量,就足以殺死一個人。反之,我們可以說,人體的生理,對於水份就沒那麼敏感,所以可以吸收很大的量,還是不會有中毒的現象。

有了這個基本概念之後,我們應該就可以很清楚地知道,一個東西毒不毒,和他在茶葉或著便當裡驗出來有多少沒什麼直接的關係,而和人體對他的敏感度有關。假設一個便當驗出含有50公克的農藥A,但是人要吃下超過100公克的農藥A才會產生毒性反應,那吃了這個便當也不會怎樣。反之,另外一個便當若驗出0.002公克的農藥B,但人體只要吃0.00001公克就會死亡,那這0.002公克就很明顯太多。

在這樣的情況下,我們就可以得出一個概念:兩個不同毒物,驗出來的量,是沒辦法直接比較的。是以,該篇文章中:「跟英國藍比起來,英國藍洗洗睡。」的論述是不成立的,因為英國藍雖然含有高量的DDT,但光靠這個資訊,你是無法知道含有0.003ppm Fipronil的五十嵐,是有毒還沒毒,或著有多毒的。我們必須知道人體對Fipronil有多敏感,造成的毒性反應又是什麼,才有可能有辦法判斷。

此外,從超標的量來看,我們也無法判斷,到底DDT和Fipronil比起來,到底誰比較毒,誰的超標又比較嚴重。事實上,DDT以急性毒性(acute toxicity)來看,並不是一個非常毒的物質(LD50是113 mg/kg,也就是說要吃到這個量,才會有一半的實驗動物死亡),DDT的可怕之處在於它是環境賀爾蒙(xenoestrogens),會對很多動物的生殖系統造成影響,劑量高且長時間接觸,也可能對人類的生殖系系統造成影響,甚至影響胎兒發育,像是早產、流產、不孕等等。

反之,Fipronil的研究指出,這東西對某些無脊椎動物,例如某些昆蟲很毒。而在人身上,則可能有一點致癌性。

這樣完全不同的毒性反應,會讓這兩者完全無法比較。想想看,我們要怎麼比造成人類流產和可能在人身上致癌哪個比較毒?要怎麼比較很低劑量就會殺死昆蟲,和會造成老鼠生殖系統的傷害,哪個比較毒?這完全是不同層面的事情,放在不同context會有不同答案,根本不能這樣概略的比較。

不過如果我們分開來看,要知道每一個物質,吃下去特定的量,對人類會不會有毒,這倒是有辦法。一般來說,要判斷這件事情,我們會需要兩個數值,一個叫做NOAEL,另一個叫做ADI或TDI。這部份我講過很多次了,懶得再重寫,就把之前和朋友做的解釋貼上來,想要更詳細的了解,可以點 ⟪Toxicity is a time-dependent dose-response relationship⟫ 這篇文章,裡頭會有更仔細的解釋。

「No observed adverse effect level (NOAEL)是一個劑量,常常會用mg/kg表示,代表的是在這個量以下(含),實驗動物上看不到任何急性與慢性的毒性反應。用mg/kg表示,是因為要對體重做normalisation。譬如說這次五十嵐查到的Fipronil,他在大鼠上做出來的NOAEL是1.9 mg/kg,就表示對一隻1 kg的大鼠來說,他每天做多吃到1.9 mg的Fipronil,在實驗室裡看不到任何毒性反應。

在實驗動物身上找到的NOAEL要轉換到人身上,為了安全,通常會除上一個safty factor,一般來說從大鼠轉到人我們會抓100。這個值完全是由經驗來的,研究時間越短,safty factor會抓越大。譬如做兩年的實驗會除上safty factor 100,但做2個月可能就會除上1000。假設我們用超高標準去看待Fipronil的毒性,把Fipronil在人身上的NOAEL抓在0.0019 mg/kg好了(1.9乘上safty factor 0.001),這樣就是0.0019 ppm(百萬分之0.0019)。以一個60 kg的人來說,他每天可以吃0.114 mg(60 x 0.0019)。這個0.0019 mg/kg的量,又被稱做是acceptable daily intake (ADI),這才是用來判斷Fipronil吃進去會不會有毒的數值。」


【ppm到底是什麼?0.001 ppm到底是大還是小?】

接著讓我們來處理一下「0.001ppm微乎其微」這件事。

在那篇文章中,作者寫道:「去年七月以前國家標準是0.005ppm,去年七月修法以後才改成0.002ppm導致他超標,合理推斷超標的是庫存茶不然就是誤差(0.001ppm微乎其微)」這裡的推論,有一些明顯的問題。

首先,讓我們來定義一下ppm。ppm的全名,是parts per million,他是parts per notation的其中一員。以ppm為例,1 ppm的定義是「在每一百萬個單位中,含有一個單位」。這樣講很拗口,直接用例子解釋會比較簡單。譬如說,今天在一公斤的石頭中,含有百萬分之一公斤的黃金(mg/kg),或著一百萬公升的溶液中,含有一公升的乙醇(L/1M L),又或著在一百萬莫耳的分子中,有一莫耳的葡萄糖(1 mol/ 1M mol),甚至一百萬赫茲中的一赫茲(1 Hz/ 1M Hz,常用在nuclear magnetic resonance (NMR) spectroscopy),這些都叫做ppm。

由上面的例子,我們可以知道,ppm是一個「比例」,而比例,是沒有單位的,因為你分子和分母的單位相同,相除之後,單位就消掉了。

這樣就會造成幾個問題。首先是只看ppm,我們無法知道本來的單位級距是什麼。0.003 ppm的Fipronil可以來自一公斤的茶葉,也可以來自一公克的茶葉,而不知道這件事情,會讓我們沒辦法判斷一個東西毒不毒。下面我再次引用我自己寫過的例子來解說:

「現在我們驗到茶葉含有0.003 ppm的Fipronil。為了簡化,我們就假設這裏是1公斤的茶葉,會含有0.003 mg的Fipronil。假如說一公斤的茶葉可以泡一杯五十嵐,那就是一杯五十嵐會含有0.003 mg的Fipronil。換句話說一個60公斤的人,喝到撐死,也不太可能超過0.114 mg的ADI,而且一公斤的茶葉泡一杯五十嵐是超嚴重的高估,幾十公克通常就濃到喝不下去了。

所以根據這樣算,五十嵐本身查出來的Fipronil量算是很安全。但是這沒辦法光從茶葉驗出有幾ppm的Fipronil直接判斷,你得做上面那些換算才行。假設今天茶葉是需要用100公斤去泡1杯五十嵐,那麼一杯五十嵐就會含有0.3 mg的Fipronil,這樣只要一杯就超標了。這就是為什麼0.001 ppm不見得是微乎其微。ppm是一個比例,不是一個絕對的大小。1的百萬分之1很小,但一百億的百萬分之一卻是很大的絕對值。所以用驗出來的ppm是多少去說一個東西毒不毒,根本是在胡扯,你一定要有ADI,然後進行一系列的換算,才可以判斷。」

從這個例子裡,我們可以知道,0.001 ppm,到底是不是微乎其微,會取決於你起始的絕對值。像那篇臉書文章中石門水庫的例子,雖然0.001 ppm是很小的比例,但在「有效庫容量2億123萬噸的石門水庫,0.001 ppm,就是202公斤的Fipronil」。

202公斤大不大?當然大啊,別說吃死你了,壓死你都可以呢。

而從這裡,就可以回答該篇文章關於實驗誤差的疑問。各位可以想像一下,我們現在要把一個叫做A的東西稀釋十倍。理論上,你是把1 μl的A,加入9 μl的水中,還是把100 μl的A,加入900 μl的水,意思是一樣的。

但假設我們今天在把1 μl的A,加入9 μl的水中的稀釋時,我們使用的工具,多沾到了一小滴的A。一小滴的A,我們假設大概是1 μl的量好了,那你就變成加了2 μl的A,到9 μl的水中,變成了2/11,而不是本來的1/10。以體積濃度來看,這是一個從0.10變成0.18,差了1.8倍的誤差。

可是如果你做的是100 μl的A,加入900 μl的水,然後你不小心多沾了五滴A,那就是105 μl的A,加入900 μl的水,變成105/1005,從體積濃度上來看,就是從0.100變成0.104的誤差,只差了1.04倍。

上面這個例子,是在告訴我們,決定實驗誤差影響大小的,是你的實驗誤差量,佔你實驗總量的比例。所以一般來說,當我們在實驗室做連續稀釋時,雖然理論上把1 μl加入9 μl的稀釋,和把100 μl加入900 μl的稀釋,是完全一樣的,都是稀釋成10%,但我們都會建議把體積放大一點,這樣誤差才不會太大。

而如前所述,ppm剛好就是一個比例的概念,它不是一個絕對值,也沒有單位。所以一個實驗的誤差值,佔實驗值的比例,會不會大到影響實驗結果,是沒辦法從ppm這個資訊去判斷的。如果套到前面那個例子,我們自己創造一個比例叫做parts per ten,ppt好了,那上面兩個例子,都是1個ppt,可是一個的誤差,會大幅影響到你的實驗結果,另一個則不會。是以,要知道0.001 ppm的差距,是否可能是由實驗誤差所造成,你得知道實驗得到的絕對數值,和誤差的絕對數值,才有辦法。

從某個角度上看,這也是我一直都非常反對使用parts per notation的原因。Parts per notation因為沒有單位,也無法從他的數值看出絕對值,因此若這些資訊不給你,你根本無從判斷他現在在講的是體積的ppm、容量的ppm、長度的ppm,還是莫耳數的ppm,也不知道我們現在講的是怎樣一個級距(scale)的概念,是mg/kg,μg/g,還是ng/mg?

這些資訊在每個特定學界,都有約定成俗的用法,所以如果你是巷子內的人,那當然不是問題,你看到人家寫ppm,就會知道大概是在講什麼級距的什麼單位。但隔壁條巷子的人,很可能就讀不懂你的ppm了,因為你的ppm,和我的ppm,很可能是完全不同的兩件事。

把不同單位的ppm弄混,會有什麼問題呢?我下面用把體積和質量弄混來當例子。體積要換算成重量,必須知道密度(密度等於質量除以體積),也就是說我們會在這邊多加入一個因子,把問題變得更複雜。

這通常不是什麼太大的問題,因為在生物體上,大部份的時候,我們都是在處理很稀薄的水溶液,而水的密度大概是1 kg/L,所以這時候體積(或容積)和質量是可以很直觀的轉換的。因為一公斤的水體積大概就是一公升,所以我們在表示ppm的時候,可以把1mg/kg當作是1mg/L,因而直接用1 ppm表示。但是1mg/L = 1 ppm在概念上是錯的,parts per notation必須要分子分母單位相同(dimensionless),才能夠成立。

若回去探究毒理學研究的最源頭,其實我們在做研究時,真正給藥測毒性的時候,常常用的是濃度單位,不管是莫耳濃度,還是體積濃度,他們的分子和分母,單位都不會一樣,也就是說,他們都不應該直接用parts per notation來表示

之所以會用濃度單位有幾個原因,第一個是大部份這些毒物或藥物,都是配成水溶液,在實驗上才會比較好操作。不論是直接加到cell culture中,或著給老鼠做靜脈注射,在操作和藥物動力學的計算上都都會簡單許多。

另一個學理上的原因,是因為我們真正在做毒理學測試的時候,藥物或毒物在生物體內的有效濃度(bioavailability),才是我們真正關注的。一個毒物,不管透過什麼路徑給藥,最後都會進入體循環,也就是血液系統中,這是一個水溶液的系統。而該毒物在這個水溶液系統裡面的濃度、酸鹼值和水溶性,會影響到他跑到不同組織裡的量(distribution)。在組織中若累積多了,就可能會對組織造成毒性,所以在研究毒理學的時候,都要把這些因素考慮進去。

一般而言,我們會把體循環當作是一個單一的空間(single-compartment model),來去做一些簡單的藥理學或毒理學計算,而這裡都是用濃度下去轉換的。也因此,實際上我們做出來的NOAEL,應該是一個濃度。不過我們可以很容易從濃度得到量(dose,通常單位是質量),所以只要做一個簡單的換算,就可以得到吃進去的總量,而量的概念比較直觀,也比較容易對體重做normalisation,所以NOAEL才會以mg/kg這樣的方式表示,也才有之後換成ppm的空間。

換言之,從嚴格的定義上,當一個東西進入到體循環裡面,會形成一個濃度,也就是該物質的量,去除上血液的總體積。然後這個濃度會影響到該物質在體內的分佈,也因此會影響特定組織中該物質的量有多少,量若高到會產生毒性反應,那這東西才會有毒。因此我們給的毒物雖然可以定量,可是這個物質在生物體內的濃度,才是真正影響這個物質毒裡特性的關鍵。

也因此,量的概念,只是一個非常概略的概算法。有的時候,我們可以透過控制某一物質的釋放速率,來改變它在血液內的濃度,讓同樣的量,達到不同的效果。而如果關鍵是濃度,那要考量的,就應該是多少量的某物質,進入到多大體積/容積內(總血液量)

所以當我們用mg/kg做normalisation的時候,其實我們是做了一個體重(body mass)和體積成正比的假設。

這個假設通常不會太離譜,所以我們可以這樣簡單的概算。同時,在不考慮釋放(liberation)的情況下,同樣的量吃下去,或著跑到血液中之後,產生的分佈體積( volume of distribution,吃下去的藥物總量,除以血液中的藥物濃度,可以看出藥物有多少跑到組織中)應該是一樣的,所以這樣的概算通常不會有太大的問題。

也因此,當我們在表示NOAEL,或著ADI的時候,可以直接用mg/kg來表示,也就能夠被換成ppm。加上我們都會除上safety factor,所以就算有一點誤差,理論上還是安全無虞。而食品中規定能夠驗出來的量,通常是除了safety factor之後,還要再低個幾十倍,所以我們可以大致的說,即使驗出超標的某物質,只要不具有生物累積效應,且有辦法快速代謝,基本上應該不會對健康有非常直接且快速的負面影響。

這樣一路推論下來,這裡沒差,那裡可以省略,或許各位會覺得,那使用ppm也沒什麼不可以。從某個角度上來看是這樣沒錯,不然就不會到現在,學術界很多人都還是用ppm來表示自己的研究。可是這裡沒差,那裡沒差,不斷簡略的結果,很可能就是在搞不清楚的情況下,最後做出有差的錯誤判斷,像是這篇文章引用的臉書文,就是這樣,概念上既模糊,又錯誤百出。這也是為什麼我一直很不喜歡用簡略的概念去說明事情:簡化是一種對已經理解道理的人,用來偷懶的方法,但直接解釋簡化的道理,卻很可能會造成不懂的人的誤解,於是基於不精確的前提下,做出離譜的推論。

最後,我這篇文章東扯一點,西拉一些的,有點雜亂,所以要來歸納一下幾個重點:

1) 毒物之間,多數情況下無法直接概略比較誰毒誰不毒;

2) ppm是一種比例,無法回推單位,也無法回推scale。ppm的分子和分母,必須是同個單位,mg/L不是一種ppm的表示法;

3) 描述毒性的時候,最好使用有單位的數值,會比ppm更清楚;

4) 我們無法光從一個產品(譬如茶葉),驗出特定量的毒物(例如Fipronil),得知他有多毒,或有沒有毒。

5) 超標不代表吃下去就有毒,這點是由NOAEL來決定的。人類身上的NOAEL通常是除上safety factor的概略值,所以並不精確,但通常頗安全。

這樣看起來,Fipronil超標一點點,擺在NOAEL和ADI的概念下,好像也沒什麼差,不太嚴重的樣子。但實際上這是一個非常嚴重的事情,因為這代表著整個GMP架構的崩壞,而這也將會是下一篇文章的重點。現在,我們只需要知道,看到某某東西驗出毒物超標時,從這東西有多毒去切入,是很難直接建立關聯性的,也就是說,現在多半的報導,都是用不精確的方式,在製造恐慌。而除去恐慌,才是能夠正確分析事情的第一步。

2015年5月1日 星期五

Fear the power when you are in a position of authority

在柯文哲在選市長的時候,我寫了一篇文章支持他。

現在回頭看,柯文哲仍舊很明顯是兩人之中比較理想的選擇,但他在選舉時就暴露出來的一些問題,也慢慢浮現。身為一個崇尚自由、多元、小政府的人,柯文哲最讓我感到警覺的一點,當然就是他的強人政治,與大政府的傾向。


包含先前的監聽爭議,和這一次柯文哲對於「用監視器抓違規停車」的一連串發言,在在顯示出柯文哲對於法治概念的缺乏。






法治概念的部分,除了已經有錢建榮法官提出解釋之外,大法官林子儀也曾釋憲:

林子儀提到:「此刻,我們必須停下來思考,究竟我們想要什麼樣的社會?想要以什麼為終極目的的國家?如果一個社會裡的成員,人人皆盡透明,沒有什麼動態可以逃脫於國家的監視之下,所有成員的資訊都鉅細靡遺地掌握在國家機器之中,並且可以輕易地透過某一則個人資訊追溯其全部行蹤與活動,這或許將是一個零犯罪的社會,而且很可能是一個非常有效率的政府,但人們也可能將過著充滿被監視恐懼的生活。治安與效率都是國家應該追求之重大公益,惟其終究必須停留在某個界限之後,不能無止境地一昧向前,犧牲其他一切。」

另外關於法治思想的部分,網友汞燈也寫了一篇文章,說明人治思考與法治思考的不同。

這幾位都是法學專業,學有專精的人士,解釋起法治概念,自然比我更到位,在這裡我就不班門弄府了。我這篇文章想說明的,是很多臺灣精英對於自己所處的相對位置缺乏概念,這樣一個普遍的情況。

這麼說好了,應該很多人都看過哈利波特。在哈利波特裡,我印象最深刻的人物,本來是妙麗,但到了最後一集,卻變成了鄧不利多。

在最後一集裡,哈利進到了鄧不利多的思緒裡面,瞭解了鄧不利多的生平,也知道鄧不利多之所以不斷拒絕魔法部長,是因為他深知權力是他的弱點。

這一段一直讓我感到印象深刻,因為我覺得這是一種對自己所處位置,有非常透徹認知的想法,也是一種讓人敬佩的自知之明。

我一直覺得,人生在世上,是不可能平等的。有的人,生下來就擁有非常不對等的優勢,也有人生下來就帶著幾乎難以擊倒的劣勢。

若我們先專注在優勢這點,這就好比有些人生出來就比較聰明,另一些人則生在千金之家。可能對很多人而言,資質聰穎而獲得成功令人敬佩,所以阿扁三級貧戶當總統的故事才會始終讓人津津樂道,而靠家世背景則會惹人嫌惡,好比連勝文在選舉中的慘敗。但對我來說,這些都叫做生下來就擁有的優勢。

這種生下來就有的優勢,就造就了不公平,因為有些人競爭力就會比較強,另一些人的競爭力則會比較弱。更複雜的是,這種天資和家境背景的影響,往往是錯綜複雜,難以一刀兩斷的。以我自己為例子,前陣子我爸的客戶,和他聊天時說到我在英國唸書的事情。他說能拿到獎學金,真的很不簡單,我爸聽了很得意,就跑來跟我說。

確實拿到獎學金是我付出很多努力的結果,但不可否認的,這也是因為我不用畢業就煩惱留學貸款的問題、煩惱要分擔家計,甚至養家活口的問題。我沒有什麼酗酒老爸、吸毒老媽。我受教育的過程雖然跌跌撞撞,但家裡也沒有什麼東西真正攔著我,讓我沒辦法做自己想做的事情。是以,就我出國唸書這件事而言,其實就是好幾個因素- 而且大多是運氣,集合而成的結果。

在這個脈絡之下,對我來說,一個人是靠家世獲得競爭力,還是靠天份,差別其實沒有那麼大。差別比較大的是,當你以你的競爭力,爬到社會上相對較好的位置時,你是怎麼做事的。而這點,我認為和你對於自己所處的位置,有著怎麼樣的認知,息息相關。

讓我這樣解釋吧。我以前寫過一篇文章,叫做【The true elite】。那篇文章,除了旨在批評連勝文之外,另外一個我想表達的重點,是「真正的elite,是一群對於自己所處的位置,有非常深刻的了解,知道自己比起其他人,有更多的競爭優勢,因此比較容易爬到社會上相對較好的位置的人。

以鄧不利多而言,他的競爭優勢是他的天縱英才,所以他有機會當到魔法部長。以連勝文而言,他的競爭優勢是他的家世背景,和臺灣曾被國民黨長期專制統治的歷史,所以他可以出來就選臺北市長,沒事幹就接捷運董事。

不管這個優勢是怎麼來的,他們因為擁有優勢,因此他們會比較容易拿到更有權力、更有影響力的位置。以政治而言,這些位置是立法委員、臺北市長,甚至總統;在哈利波特的世界裡,則是魔法部長,至於在商場上、職場上,則可能是公司的董事長、執行長,是社會中收入和地位都較高的醫師、律師。

而不可否認的,這世界上,的確有一些位置,會比其他位置,擁有更多權力,能夠影響更多人。以產業界來說,Bill Gates搞的基金會,就影響了無數人的生活,也讓熱帶開發中國家,許許多多受項瘧疾等傳染病所苦的人,有了許多希望。或著Steve Jobs,帶領著蘋果的團隊,用一個又一個令人醉心的產品,改變我們的生活,甚至影響我們文化的走向。

更明顯的當然是在政治領域,像是臺北市長,就是一個很典型的例子。

以柯文哲而言,如果不是他先有好的天資,不錯的家境,他大概不會有餘裕去重考,進入臺大。如果他沒有背景和先天優勢,他大概也很難建立世界級的ECMO團隊,成為出名的醫師,儘管得罪很多人,仍能在臺大雄踞一方。而倘若沒有他利用自己優勢建立起的第一流醫師聲望,他大概也不會成為公民力量的出口,最後順利選上臺北市長。

你大概可以想像,即使今天柯文哲不是醫師,他人生也多了更多不幸,讓他的人生旅途比現在還不順遂許多。他的天資,還有他的背景,還是會讓他對這些不幸,或著不幸運,多了很多抵抗力。像是他在臺大醫院被修理,然後登高一呼,出來選臺北市長,居然就真的當選了,就是一個很好的例子。

反之,如果今天是一個資質普通的人,出生在老爸家暴老媽植物人的家庭,他對逆境的抵抗力,就會弱上很多。

這樣我們就有了兩個需要考量的面向,一個是這些人,我們簡稱是菁英好了,他們在社會上,會比較容易爬到相對高的位置,也因此他們會對社會擁有更多的影響力。像是公司的董事長,對公司的整體方向和策略,做出決定之後,將會影響到整個公司的人。更明顯的當然就是政府首長,他們對於政策方向的想法,更是會依其位置,影響到整個市的市民,甚至整個國家的國民。

另一個面向,則是剛好這些有能力做決定影響他人的人,又是相對來說對於政策造成的負面影響,有比較強抵抗力的人。

這兩個面向加起來,就形成了一個頗為恐怖的現象:這些社會菁英,可以很輕易的藉由對制度與政策的制訂,讓優勢繼續不斷倒向他們,讓負面的效果由他人承擔。他們可以很輕易地有意為之,圖利自己或與自己交好的人,然後犧牲其他弱勢、對逆境抵抗力較弱的人的權益。臺灣為人詬病的政商關係,和很多讓人憤怒的不合理政策,大部份都是由此而來。

很多人可能會認為,這是這些菁英滿肚子壞水才會發生的情況。所以,我們只要選一個做事正正當當的好人上去,就可以解決這些問題了。然而,這世界上好心腸卻造成悲劇的例子,卻是多不勝數。舉例來說,當年林義雄要求立委席次減半,就造成了臺灣現在不但票票不等值,而且選區劃分很有問題的結果。我知道當年因為朝小野大,因此在通過修法時,國民兩黨的協商,很可能最後讓這個法案走了樣,也因此很多人主張,不應責怪林義雄。但追究責任歸屬,仍屬於次要重點,最重要的是,我們必須有所認知,很多事情,並不是說只要你立意良好,最後就會得到好結果。中間變數太多,也可能會有意想不到的副作用,且不論過程為何,最後結果出來的這些副作用,就是大家一起承擔,然後抵抗力比較弱的非菁英們,很可能就是會最先陣亡的一群。

就是因為會有這樣的情況,所以我們才要有許多法律,去限制這些菁英,坐到相對較高的位置、手握權力之後的作為,讓他們做起事情來沒那麼方便。

然而,這些法律也不見得是完美的保障。有時候,基於民氣可用,就會有像柯文哲這樣,提出要修法,讓他施政更容易的狀況。在這種時候,就有賴群眾對於限制有權力者的認知,來形成反抗力量。這點,就我這幾天臉書和電視節目聽到的評論看起來,臺灣人比我原本以為的要警戒很多,讓我非常開心。

不過這篇文章,主要說話的對象,還是那些所謂的精英,那些有可能做到較高位置,得到權力,進而影響他人生活和人權的人。我自己知道我部落格有些科學的東西寫得很硬,很多論述寫得很長,可能需要一定的教育水準,或著滿滿的熱情與毅力,才有辦法看得下去。而這三件事情,又是我認為要成為菁英,很重要的三個條件。所以我假設有在看我部落格的人,以後都是有機會爬到那個我所謂相對較高位置的人。這篇章的說話對象,就是你們這些人。

我想說的是,這些離位高權重只有一步之遙的人,或著已經站在那個位置上的人,你們得像鄧不利多一樣,對權力有所恐懼才行。你們要知道,自己的任何一個念頭,付諸實踐時候,都會影響到成千上萬的其他人。而這些其他人,因為資質不夠好、背景不夠好,或著其他任何形式的運氣不好,他們不會像你對於逆境有那高的抵抗力。甚至我可以說,站在國家機器面前,只要機器不是由你操控,再好的資質與家境背景,也都一毛不值。

所以你在做任何決定之時,都要警覺,自己是否濫用了權力、是否可能造成侵犯他人人權的後果。你得知道,那些不方便、看似阻力的法律、規定,是限制你濫權,幫助你不要不小心就傷害別人人權的助力。

而這才是我認為柯文哲最大的問題。

修法讓違規停車在違停熱點以攝影取締變得合法,不管有沒有道理,我都覺得是一個可以討論的問題。透過討論,也可以讓大家對人權和法治有更清楚的認識。

可是身為當權者,柯文哲卻沒有認為因為這樣我做事比較方便,公權力執法比較輕鬆,所以要為我修法的餘裕。你想怎麼做,以及這麼做的利弊得失並不重要,重要的是你有沒有對於手握權力這件事情有基本的恐懼。

換句話說,我會寧可看到柯文哲在他所謂「不見得是弊案的五大弊案」裡頭,因為隨時記得自己的權力要被限制,而沒辦法大快人心的修理廠商,也不希望看到他為了解決這些問題,而讓公權力過度擴張,去達成對市府與市民有利的結果。這是我對權力恐懼的態度,還有我對限縮政府權力的堅持,即使我再怎麼希望看到這些國民黨政府長期執政的遺毒被痛扁一頓,我都不希望當權的政治人物忘了手握權力的自己,可以多麼可怕,帶來多大的遺毒。換個角度想,現在這些棘手到不行的案子,不也就是當年政府毫無節制,對自己手上的權力可能帶來的禍害,毫無恐懼的結果嗎?

在柯文哲學會這點之前,他都不會是一個合格的有權力者。而我們能做的,就是更用力的監督他,逼得他要不就跟上時代,要不就被淘汰。

2015年4月27日 星期一

Constraining freedom of expression should never be an option

最近臺灣鬧很大的一個新聞,是由一個女藝人自殺,而引起對網路霸凌的討論。

這件事情和網路霸凌有何關聯,還有很大的爭議,也不是我今天想討論的重點,所以就先按下不談。我今天想談的,是由網路霸凌衍伸出來,對於網路實名制,和以限制網路表達自由的方式,來達成壓制網路霸凌討論。

網路霸凌,或著任何形式的言語霸凌,是確實存在於這個世界上的事情,而且也是一件需要被關注與處理的事情,對於這一點,我想大部分人都不會有疑義。所以問題的重點,就應該擺在我們應該如何處理這樣的事情。

對於許多臺灣的政治人物而言,直覺式的反應,似乎是覺得限制網路上的表達自由,或著改採實名制的方式,就可以抑制網路霸凌的產生。然而,這樣的連結,卻很可能是過於簡化的錯誤連結。實名制的部分,我們在學校,在生活中,還有很多其他大家知道彼此身份的場合,霸凌事件也從來沒少過。是以,覺得實名制可以透過讓身份曝光的方式,來解決霸凌的問題,顯然是太過天真的想法,更別提像臉書和ptt這樣的平台,其實早就已經非常接近實名制了。

那限制網路言論自由的部分呢?

關於這點,我想從我最近非常喜歡的一個節目,John Oliver的Last Week Tonight講起。

這個HBO的當紅節目,每週都會討論一個上週的熱門話題,從死刑、貧富差距、藥物廣告,到警察裝備的軍事化、基礎建設的維護和美國小姐的競賽等等,John Oliver都會透過誇張、幽默的脫口秀方式,以喜劇的形式呈現這些議題,非常有趣。

讓人驚訝的是,即使在美國這樣一個強大的國家,透過John Oliver的呈現,你也會發現,他們還是有非常多的問題,存在於美國社會上的每個角落。John Oliver呈現這些議題的方式,除了幽默之外,底下其實還藏著非常犀利的批判和嘲諷,如果你是被批判的對象,我相信聽了不會太好受。而這個劍橋畢業生,也的確收過頗有創意與諷刺意味的信件,對他節目中的評論做出很有風度,但也很犀利的反擊。

先不說John Oliver的呈現方式,是否會誇大問題的嚴重性,至少透過他的脫口秀,我們可以接觸到這些議題,如果引起興趣了,就可以自己去做更多功課,多了解這些議題一些。

如果今天美國政府,因為不喜歡John Oliver的批評,因此禁止John Oliver的節目,我們就不會知道,原來在美國這樣的國家當中,有這麼多問題存在。更恐怖的是,這些問題,不會因為表達的平台不存在了,就跟著消失。他們只是不會再被提起,不會受到那麼多人的關注,但還是會繼續存在美國人身邊,侵蝕他們的社會。

同樣的道理也可以搬來用在臺灣這次的網路言論限制事件上。即使我們今天限制網路自由,不讓大家使用某些文字來表達自己的想法,進而達到抑制霸凌的效果,這並不代表霸凌就會在我們的社會上消失。他頂多是轉個形式,變成用另一種形式繼續發生,或著換個地點發生而已。把問題掃到檯面下,從來都不是讓問題消失的辦法。

關於這點,我們其實可以參考中國當作借鏡。中國的網路管制相當嚴格,大家都知道,在中國上網,是查不到六四的。但是六四並不會因為這樣就不存在,只會讓當權者和人民活在謊言之中,失去反省的機會。又或著像這次臺灣的課綱修正,把228拿掉,也把白色恐怖拿掉,但這些並不能抹滅這些歷史事件曾發生過的事實,只會使得這些曾經發生過的問題變得難以被矯正。因此,即使我們透過限制網路上的表達自由,禁止了檯面上的網路霸凌,很可能也只是讓這樣的情況,變成在檯面下發生而已。而檯面下的問題,永遠都比檯面上的更難處理。

再加上我們在限制網路自由之後,將會大幅失去資訊傳遞的容易程度,很多社會上的問題,要傳達到多數人的耳中,將會變得較為困難,這樣一來,我們將失去很多瞭解並解決社會上問題的機會。如果像美國這樣的國家,社會上都有這麼多值得關注,且需要被處理的問題,民主發展相對不成熟,政府需要被高度監督,政商關係也必須被強力監控的臺灣,若失去任何一個資訊得以傳遞的平台,將會失去很多讓我們的社會更進步的機會,也將難以控制這個失能又權力過於擴張的政府。

一個最明顯的例子是去年的太陽花學運。若是少了網路,少了那台把議場內資訊傳達給大眾的iPad,少了那些臉書和其他平台上的溝通串連,很可能學運的力道會被減弱不少。同理,如果沒有網路,那些警察打人的片段未必能夠這麼快流傳出來,正義將無所伸張。

不管你是否支持太陽花學運,你都不可否認,這樣的群眾力量,是對抗政府,限縮政府權力極為需要的。縱使你是國民黨和馬英九的死忠支持者,也得接受,國民黨還是會有在選舉中輸掉的時候,臺灣會有政黨輪替的一天。屆時,你們也會有需要上街頭,對抗自己不喜歡的政府的機會。反之,即使你是民進黨的支持者,也難保由民進黨組成的政府,不會有做錯事的時候,或著有違法濫權的一天。而這個時候,能夠保持所有資訊平台的暢通,讓我們擁有言論自由,可以表達想法,並號召群眾上街頭抗議,就是非常重要的事情。

也就是說,限制網路的言論自由,除了解決不了問題,只會讓問題藏到檯面下,變得看不見,且更難處理,也會大幅失去網路資訊傳遞快速的好處,可說是有害無益。

除了實質的抗議之外,網路訊息傳播的無遠弗屆,也可以刺激社會中組成份子的思考,讓我們對自己所處的社會,該是什麼樣子的,做出充分的討論,讓每個人都能發聲,彙整多元的意見,形成多數人的共識。

最近一個很好的例子,是不斷在臺北市引起關注的新科市長柯文哲。柯文哲的許多施政作為,都令人叫好,但我們也可以從他許多的言論中,看出他的威權思想。他到目前為止,都沒有發展出法律是用來限制政府權力的認知,這點讓人擔憂。

這個問題目前仍不嚴重,因為他的一言一行,都會透過媒體,忠實呈現出來。也因為我們有言論自由,所以我們可以針對自己關注的部分,對其作出批判。柯市長目前的整體作為,應該可以說是正面大於負面,所以很多他的問題,並沒有被特別抓出來批判,但至少我們的言論自由,透過網路傳播,會讓很多人知道,這些問題的確存在。先前柯文哲好幾次被罵到道歉,多少也是因為這種網路言論自由的結果。

另外一個典型的例子,是壹電視的正經限時批。正經限時批曾經因為批評慈濟一事,而讓主持人彭文正和李晶玉兩人,雙雙請辭。當時網路一片撻伐,最主要的原因,就是這種打壓言論自由的方式,令許多人不齒。在此同時,也因為我們擁有言論自由,因此某些不喜歡彭李兩人的人,就挖掘出了他們反對多元成家,打壓同性戀者自由的立場,讓大家知道他們也不是在每件事情上面,都讓人讚賞。

這些都是言論自由的好處,人和事,本來就是擁有多元面向的。而言論越自由,意見和切入的角度就越多,因此越能刺激我們思考,我們也就越能看清事情的真相,也才能在社會上形成共識。是以,我們從來都只需要擔心,言論不夠自由,以及自由的言論傳遞速度不夠快、廣度不夠大。

這樣的自由,當然會帶來一些副作用。很多反烏托邦小說,像是1984和記憶受領員(The Giver)這樣的小說,都有寫過在一個沒有自由、不多元的社會,會有怎樣的優點。其中一個最明顯的優點,就是秩序。可是隨著故事發展,我們也會開始看出,這些反烏托邦社會,往往有很多可怕的問題存在,卻因為高度壓制自由,使這些問題根本無法被處理,甚至無法被看見。

記憶受領員裡面,有一個我個人非常喜歡的橋段,大意是這樣的:

在小說裡那個高度受管控的世界中,統治者消除了差異。他們消除了種族的概念、消除了顏色的概念,也消除了不同的文化,讓大家都變得一致。

但這些統治者沒有笨到以為這些東西就不被需要了,所以他們把對於這些東西的記憶,都交給一個特定的人保管,這個人,就叫做記憶受領員。

記憶受領員當然也會老、會死。所以他必須把記憶傳給他的徒弟,這時候他就變成了記憶傳受者,也就是The Giver這個名稱的由來。

故事的主軸,就是圍繞在老的記憶傳受者,開始把這些世界還是多元的時候的記憶,傳給下一代受領員的過程在打轉。

有一回,老的傳受者把顏色的概念傳授給新一代的受領員。看到世界多彩繽紛的一面,新一代的受領員感動得哭了,他哭著問老受領員:「怎麼會有人要消除這麼美好的東西?」

老受領員告訴他:「顏色、種族、宗教,當人們選擇活在沒有這些東西的世界,我們就創造了sameness。當人之間有所不同,就會出現嫉妒、憤怒、憎恨。所以我們需要一個什麼都相同的世界,我們需要sameness。」

年輕的受領員說:「我完全同意。但我還是覺得,顏色好美。」

我很喜歡這一段plot的原因,是因為他說明了自由和多元的美好,以及他們無可避免會帶來的副作用。

我從不否認言論自由,會帶還很多爭論、甚至可能出現霸凌。可是就和記憶受領員心中的感受一樣,即使知道有這些缺點,我們都無法拒絕承認,言論自由帶來的美好。

更重要的是,在現實世界中,我們是有辦法魚與熊掌,兩者兼得的。

如果網路言論,涉及到毀謗、造謠的部分,我們可以透過法律途徑解決。我們也可以利用網路強大的傳播力,宣導正確的反霸凌概念,對霸凌做出精確的定義,教導大家如何處理、面對這樣的事情。我們甚至可以成立反霸凌粉絲專頁,或著類似的基金會,去匯聚力量,制止霸凌的發生。

最近,前紅襪隊投手,血襪Curt Schilling,就曾經利用網路社群的力量,找出了在twitter上霸凌他女兒的人,讓他們付出代價。他並沒有採取任何利用法律壓制言論自由的方式,一樣達到了這樣的效果(詳細的故事請看這篇文章)。

也許你會說,那是因為他是Curt Schilling,是名震天下的大投手、嘴砲王。而且他因為個人經歷,擁有別人沒有的網路資源與對網路的理解。但我要說的是,一個人的力量也許不夠強大,可是一個社群的力量卻絕對不可忽視。我們只要利用網路的特點,利用我們在網路上擁有的言論自由,任何人都可以透過自己的方式,保護自己不被霸凌。也因為我們擁有網路自由,所以隨便上網一google,都可以找到一堆關於反霸凌的資訊,教你如何去處理這樣的事情。

透過這樣的方式,我們就可以既享受言論自由的美好,又正面對我們不想要的副作用做出正拳回擊,一拳扁在他臉上。

在有這麼多其他方式可以處理網路言論霸凌的情況下,我們實在沒有理由,選擇用一個明知不會有什麼效果,又有一大堆缺點的方式,去處理這樣的問題。

是以,我主張,在處理網路霸凌這件事情上,限制言論自由,永遠都不應該是我們的選項。

2015年4月26日 星期日

Evidence-biased misunderstanding (3)- individually weak, collectively robust

在1920年代,因為一系列的發現,分子生物學家們開始瘋狂尋找所謂的「遺傳物質(genetic materials)」到底是什麼東西。

倘若你翻開分子生物學教科書,例如Benjamin Lewin著名的Genes系列,或由James Watson掛名作者的Molecular Biology of the Gene,在描述這段歷史的時候,多半會提到Frederick Griffith的transformation實驗、第一次確認純化DNA為遺傳物質的Avery–MacLeod–McCarty experiment,和用標定技術確認DNA為遺傳物質的Hershey-Chase experiment。後兩個實驗,一般會被當作是確認DNA為遺傳物質的重要里程碑。但如果你的教科書寫得夠仔細,一定也會提到,在這兩個研究發表之後,大多數的科學家,卻仍然不太願意接受「DNA就是遺傳物質」這樣的概念。

了解這段歷史,對於了解到底為什麼科學有其極限,以及為什麼科學如此強大,還有到底為什麼evidence-based decision是一個既主觀,卻又非常能夠讓人信賴的方法,會有很大的幫助。所以接下來,就讓我們來稍稍回顧一下這段有趣的分子生物學發展史。


【The Streptococcus pneumoniae transformation】

Streptococcus pneumoniae的中文名字,一般應該是翻作肺炎鏈球菌,而他最著名的特色,就是會在人體引起肺炎,同時他也會感染老鼠。

肺炎鏈球菌有幾種不同的亞型(strains),其中一種亞型,Griffith將之稱為S亞型,因為這種亞型的肺炎鏈球菌,在細胞壁的外頭,還有一層多醣體莢膜(polysaccharide capsule)。這種莢膜滑滑黏黏的,讓S亞型的肺炎鏈球菌,在形成聚落(colony)之後,會看起來有比較圓滑的外觀,因此被稱做是S亞型(S for smooth)。這種亞型的特色,是他在給染老鼠之後,會很快地造成老鼠死亡。

Griffith還發現有另一種亞型,他稱作R亞型。這種亞型沒有多醣體莢膜,看起來比較粗糙(R for rough),且在感染老鼠之後,也不會造成老鼠死亡

Griffith首先發現,如果他用熱殺死S亞型的肺炎鏈球菌,然後再注射這些細菌的屍體進入老鼠之中,老鼠並不會死亡。也就是說S亞型要致老鼠於死,必須要是活得才行。

但接下來Griffith發現,如果他把死掉的S亞型和活的R亞型混在一起,注射到老鼠裡,老鼠卻會死亡。更有趣的是,當Griffith再把肺炎鏈球菌,從注射了混合S和R而死掉的老鼠中分離出來,再把這些新的肺炎鏈球菌注射到新的老鼠中,這些新注射的老鼠,便又都會死亡,而且這些新的肺炎鏈球菌所形成colony,看起來會和S亞型一樣,變得圓滑。

從這些實驗的現象,Griffith推論,那些死掉的S亞型,不知道怎麼的,會把R亞型變成S亞型。這個現象,Griffith把它稱作「轉型(transformation)」。


【The Avery–MacLeod–McCarty experiment】

Griffith的研究發表之後過了大約20年,科學家開始有能力使用比較精確的分離技術。因此, Oswald Avery、C. M. MacLeod和M. McCarty決定著手研究到底造成轉型的是哪一種物質。

他們把用熱殺死的S亞型用不同的方法做簡單的分離,然後看看分離出來的哪一個部分可以用來造成R亞型的轉型。受限於當時的分離技術,以及對於到底哪個物質可以造成轉型完全沒有概念,這幾個Rockefeller的研究者,只能用相對粗糙的方離方式,依照物質的物理和化學性質,將他們大致的分離。他們發現只有其中一種分離物,可以造成轉型,且按照其物理和化學的特性,他們認為這個物質應該是DNA (The inducing substance, on the basis of its chemical and physical properties, appears to be a highly polymerized and viscous form of sodium desoxyribonucleate)。

不過這種粗糙的分離技術,以及用物理和化學性質去猜是什麼物質的方法,並不夠精確,且他們無法排除是少量和DNA性質相近,殘留在DNA萃取液中的RNA,造成轉型這個可能性,所以為了更加確定DNA就是轉型物質,Avery等人決定反過來做,使用不同的酵素,一次移除一個物質。

他們使用可以切除蛋白質的酵素(trypsin)移除蛋白質,發現S亞型的屍體依然可以造成轉型。接著他們試了可以切除RNA的酵素(ribonuclease),結果也一樣。但當他們使用只能切DNA的酵素,他們發現S亞型屍體造成轉型的能力就消失了,因此他們就下結論,認為DNA就次造成轉型的物質。而由於這個轉型物質可以一代一代傳下去的特性,因此這也被認為是第一個提供了DNA就是遺傳物質證據的實驗。


【Criticism and reluctant acceptance of the academy】

即使以現在的標準來看,這個實驗都算是做得滿好的了。但考量到當時的技術水準,這個實驗還是有很多可以被批評的地方。例如分離技術的限制,導致很多科學家認為他們的分離物可能不夠純,裡頭少量的不純物,可能會造成解讀上的錯誤。

本來Avery他們使用酵素,就是要對付這樣的批評。然而,再度受限於當時技術的限制,他們其實並沒有辦法分離出高純度的DNase,也就是只切DNA的酵素。他們能做到的,只有分離出可以切DNA的"crude extract",但裡頭到底有什麼東西,或沒有什麼東西,其實他們也不太知道,唯一能確定的是裡頭一定有可以切DNA的酵素。

這雖然是一個頗大的弱點,但卻不是Avery–MacLeod–McCarty experiment不被接受的主要理由。主要的理由是,在當時的科學界,主流的想法是蛋白質才是遺傳物質。

這個想法背後的理由很簡單:「遺傳物質必須準確傳遞非常多樣、非常複雜的性狀,所以這個物質本身的複雜度必須很高」。而由20種氨基酸組成的蛋白質,顯然比只由四種不同核苷酸組成的DNA要複雜得多。因此,雖然客觀上Avery等人的實驗提供了相當不錯的證據,支持DNA才是遺傳物質,但主觀上,大多數的科學家並沒有被這一個實驗給說服。


【The Hershey-Chase experiment】

1952年的時候,Alfred Hershey和Martha Chase做了一個實驗。當時已經知道,T2 噬菌體(phage)會感染細菌,並在大腸桿菌體內複製。Hershey和Chase認為,T2噬菌體要精確複製自己,就必須把遺傳物質送進大腸桿菌裡面。因此,如果他們能夠知道是什麼東西被送進了大腸桿菌,就能提供遺傳物質到底是什麼的證據。

前面提過,當時科學界的主流,是認為蛋白質才是遺傳物質,但是Avery等人的轉型實驗卻支持DNA才是遺傳物質。恰好,當時已經知道,T2噬菌體是由蛋白質和DNA兩種物質組成,因此就成為了解決這個爭議的好材料。

Hershey和Chase很聰明的由DNA和蛋白質的分子組成下手,利用DNA含有磷而蛋白質沒有,然後蛋白質帶有硫,但DNA沒有的特性,分別以同位素磷32和同位素硫35標記DNA和蛋白質。

他們讓帶有兩種同位素的噬菌體分別感染大腸桿菌。噬菌體在感染大腸桿菌之後,Hershey和Chase利用果汁機,輕輕的把留在大腸桿菌表面的噬菌體外殼,和大腸桿菌給分離開來。這裏的假設是,噬菌體在把遺傳物質打入大腸桿菌中,開始複製之後,他的外殼,依舊會留在大腸桿菌表面。所以如果他們能夠把大腸桿菌的外殼,和噬菌體給分離開來,他們就可以分辨到底是什麼物質留在大腸桿菌裡面,而這個東西,就應該是遺傳物質。


把大腸桿菌外殼震掉之後,Hershey和Chase利用離心的方式,把病毒外殼和大腸桿菌給分成兩層。接著他們發現,當感染細菌的噬菌體,標記著磷32的噬菌體,總是會和大腸桿菌層出現在一起,反之,標記著硫35的噬菌體,總是會出現在病毒外殼那一層。更重要的是,標記著磷32的噬菌體,其後代也會帶磷32,但標記著硫35的噬菌體,其後代並不會繼續帶有硫35。


研究至此,Hershey和Chase就可以相當有信心的下結論:會進入大腸桿菌中的物質,是DNA,而非蛋白質。且DNA可以傳到下一代的噬菌體中,所以DNA才是遺傳物質。






【Doubts remain

Hershey-Chase experiment發表之後,DNA是遺傳物質這點,應該就已經非常明顯了。然而,科學界對於這個實驗結果,卻仍然抱持著懷疑的態度。有些人依舊認為污染是一個很大的問題,另一些人則認為,噬菌體和細胞畢竟不同,所以這個結論,不見得有辦法套用到細胞中。DNA在分子組成上遠比蛋白質簡單,而噬菌體也遠比細胞在構造上來得簡單,所以DNA能夠作為噬菌體的遺傳物質,但不能作為細胞的遺傳物質,這樣的說法,似乎也有其道理。

除了這些質疑之外,也有許多科學家也開始思考,假設Hershey和Chase的研究結果是對的,那麼分子組成簡單的DNA,到底是透過什麼樣的方式,將生物體驚人的複雜性,相對精確的一代一代傳下去?也是因為這樣的疑問,才引領了之後的一堆研究,最終導致James Watson和Francis Crick找出舉世聞名,開創現代分子生物學的DNA雙股螺旋結構。

回過頭去看,我想我們可以很公平地說,Avery–MacLeod–McCarty experiment,成功的立下了DNA是遺傳物質的基石,而Hershey-Chase experiment則是讓這個DNA是遺傳物質這個假說,變得難以忽略。可是你卻沒辦法清楚地找出一條界線、一個單一的實驗或一篇論文,清楚的告訴你,DNA就是遺傳物質,case closed。在這個建立DNA是遺傳物質的過程中,每一個實驗,都是建立在先前實驗的結果之上,或著透過不同的角度,去驗證先前提出的實驗結果。在這樣的過程之中,讓眾多支持DNA是遺傳物質的實驗證據,變得越來越不可忽視,也慢慢的,變成大家的共識。


【Individually weak, collectively robust】

這段建立DNA為遺傳物質歷史,完美地說明了用科學強大與脆弱的原因。科學實驗的特點是,每個實驗,都不會是完美的。即使你設計了再漂亮的實驗,你的結論,都可能會有瑕疵與無法說服別人的地方。甚至其他人,可以光靠主觀上的不認可,就拒絕你的研究,對你的實驗結果提出許多質疑。

可是當實驗結果不斷累積,以不同角度研究同一件事,從不同面向提供指向同一個方向的證據,或著以後續實驗,強化先前實驗的結果,彌補先前實驗的弱點,補強其不足之處,研究的結果將變得越來越難以忽略,也越來越難提出有力的質疑。慢慢地,某一結論變成大部分人都接受的共識的那天,就會到來。這就是為什麼,我們會說單一實驗證據,並不是拿來當作決定性證據,但科學研究整體而言,卻是decision-making最強大的基石。

如果能夠對這點有所認知,就會明白evidence-based decision making,是一個就現有證據,主觀下判斷的過程。而隨著證據越來越多,我們的主觀判斷,會和客觀事實越來越接近,也因此會讓我們的判斷能夠更貼近現實。

這個朝客觀事實靠近的過程,經常都不是直線前進的,他會有些曲折,甚至有時會發現我們走錯了路,所以我在這系列前面的文章中,才會一直強調,提出單一論文當作證據,要別人都閉嘴的做法,並不符合evidence-based decision making的精神。

但另一方面,科學提供了我們能夠自我修正的能力,使得我們最終能夠根據一大堆證據,做出相對貼近客觀實驗證據支持的判斷,這個,才是我們要推動vidence-based decision making的最重要原因。


Ridiculous as fuck

近來有兩位敬愛的長輩,對我臉書上的某些發言很不滿。

不,不是對那些批評教育、體制、社會上的不公不義、這世界的愚蠢與可笑、政府、國民黨,或馬英九的內容不滿。

是對我在講這些內容時,常常用的那些語助詞不滿。

對,當馬英九和幹你娘同時出現在一篇文章裡的時候,他們決定,是幹你娘惹怒了他們,不是馬英九。

幹你娘這是什麼狗屎?

我第一次聽到這個抱怨的時候,腦子裡閃過的第一個念頭是:「還好耶穌當年沒被取名叫做幹你娘,不然大概今天教堂裡的神會叫做猶大。」


--

我想是這樣子的,髒話可能不是什麼非常高貴的東西,但就我看來,他也不怎麼低俗。他使用上的妥適與否,純粹決定於你是在什麼情況下使用它。

譬如說前行政院長江宜樺,在有影片為證的情況下,說2014年3月23日深夜,到3月24日凌晨,驅離群眾的警察,只是輕拍肩膀,請學生們離開。

在描述這種行為的時候,就不適合使用幹你娘。因為這比幹你娘還要下流大概一百倍。

不過是這樣的,在很多時候,我們必須策略上的保持禮貌,否則很多事情,會因為這個社會現在的文化,而變得失焦。

譬如陳為廷當年,好不容易找到機會跑進立法院,卻因為「態度上的問題」,讓媒體輕易的模糊了焦點,就是一個很好的例子。

有的時候,為了達成目的,我們必須和這個社會妥協,用他們的方式玩他們的遊戲,才有可能真正達到目的。是以,雖然我當初曾經寫過文章,說明我認為雖然陳為廷不一定有成功傳達他的訴求,但他的行動卻不見得是全然失敗,不過若是能重來一次,我還是會建議他,裝得有禮貌點會是比較好的策略。

可重點是,你必須清楚且堅定的知道,你有禮貌的表現,並不是因為激烈的言語是錯的,而是因為在策略上,這會讓事情簡單很多。

同樣的道理,不罵髒話,其實是一件很簡單的事情。罵人不帶髒字,哪有什麼難的?但在現實生活中,我們不罵髒話,不是因為罵髒話是錯的,而是因為這會讓事情簡單很多。

可是在現實世界裡的臺灣,這常常不是事實。因為我們活在一個,常常搞不清楚對與錯的社會。

我說的不是那種選擇讓失控的火車轉彎撞死一個人,還是不理它讓它撞死一百個人那種哲學上很難有簡單答案的對與錯。

而是323打人的警察一個都找不到,但抗議的學生,卻可以清楚的被辨別出來,然後一個一個被起訴的對與錯。

這個,就叫做悲哀得可笑。

或著,更精確地說,這是一種幹你娘的可笑。


--

我們的社會,用禮貌建築起了一道高牆,把他推到每一場戰事的最前線。誰先射倒了禮貌,他就輸了這場戰爭,即使你最後把對方殺得丟兵卸甲也一樣。

譬如說,我小的時候,若是和別的小孩起了衝突,就會被我媽拉到旁邊罵。我媽總說:「不管你的道理再怎麼對,只要你的態度錯了,你就是錯。」

剛開始的時候,我學得很快。我會馬上向對方為了我的態度道歉。

可是在我道歉之後,我從來沒有見過我媽花一秒鐘去追究,到底我的道理,是不是對的。

從來沒有。

又譬如說,我高三快畢業前,學校發生了一件醜聞。簡單說就是有位同學,疑似偷拍女同學的裙底被抓包,後來一路鬧到教官那裡去。

然後就是標準的校園鬧劇情節:其他學生們都很生氣,要求校方一定要處理。後來聽說偷拍者的父親,是一個有力人士,他出面對學校施壓,於是教官就把這件事情壓下來了。

有一回軍訓課,教官自己講起這件事,要大家不要再討論這件事。我一氣之下,就和教官吵了起來。

教官的說法,是我們沒有證據。但我們的要求,是教官應該要好好調查這件事情,而不是在事情未明朗之前,就要求大家不再談論這件事情。

「連在這種事情上都沒用,你們這些本來就沒屁用,早該離開校園的教官,到底能幹嘛?」講到最後,我真的生氣了,於是就講出了類似這樣的話,口氣更糟些,但沒有那麼直白就是了。

後來,教官送了我四個字:「理直氣和」。

在這事發生之前,我和這位教官本來就不錯。從那之後,到我畢業之前,我和這位教官,也一直繼續保持著不錯的關係。說實話,他是我遇過的教官裡面,相當好的一位,這也是我當初會這麼生氣的原因:我很愚蠢的,對他有著一點點期望。

教官大概覺得這四個字很重要,於是他在我畢業典禮那天,在我的畢業紀念冊上,又寫了一次這四個大字。

「理直氣和」。

看到的當下,我真的很想問那位教官,所以你也知道,我的理,是直的嗎?那和我處在對立立場的你,是不是承認自己理歪了呢?

說老實話,教官是否理歪,我一點都不在乎。我比較在乎,這件事情到底該怎麼處理。

所以這件事情,後來是怎麼處理的呢?

沒有處理。

就像那些打人的警察一樣,沒有處理。

這個就是我們身處的幹你娘的可笑社會。大家都要求你要有禮貌,不可以說髒話。好像你只要有禮貌,不要說髒話,他們就會認真看待你的訴求似的。好像你的訴求沒有被理會,是因為髒話,或著你沒禮貌的口氣、態度,讓他們失了焦,所以他們才沒有理會似的。

然後久了,其他人也會跟著被洗腦,當這些你訴求的對象不理你的時候,很多本來應該要跟你站在同一陣線的其他人,會替你訴求的對象告訴你,你不被理會,是因為你沒有禮貌、態度不佳。

我們在現實社會,不罵髒話,好好執行禮貌,是要讓這些沒看清事情真相的「其他人」,先不要站在我們的對立面,而不是要做給那些被訴求者看。那些被訴求者,是不會理你的,你只能努力的讓更多人看到,當這些被訴求者再也找不到理由,可以忽視你的訴求的正當性時,他們繼續藐視你的臉孔有麼難看。

這才是我們執行「不罵髒話,保持禮貌」這個策略的目的。

當一個社會必須用這種方式,才能達成目的,這就是幹你娘的可笑。


--

可笑的事情,在這個世界常常發生。最近就有兩件發生在我的身上。

第一件事情是這樣的:

我剛來英國的時候,糊裡糊塗的聽學校建議,開了一個學生帳戶。但是我從來沒有用過它。它唯一的功能,就是學校幫我付的房租,會每個月自己入帳,然後再被扣掉。

我後來離開了那個地方,也從那間學校畢業,因為從沒用過那個帳戶的關係,我畢業的時候,根本就忘記了我有開那個帳戶。

最近我在我新的宿舍,收到了另一個人的銀行信件,我猜應該是前一個住這宿舍的學生,他走的時候,忘了改銀行地址。這時候我才想起來,我也幹了一樣的事情。

想到現在住在我以前住的那間宿舍的人,可能不堪其擾,我決定去把那個帳戶結束掉。但是我在搬家的時候,所有的資料,全搞丟了。所以我除了當初一封有我戶頭帳號的email,其他什麼資料都沒有。

於是我只好帶著包括護照在內,所有有我相片的身分證名,到最近的銀行辦事處去,希望他們能幫我結束這個帳戶。

果然,他們第一個就要求我拿出我的提款卡。我說我搞丟了,只有帳號和戶名。接著他們就要求我輸入我的pin number(提款卡密碼),但我說我哪張卡根本沒開卡,pin number也沒改過,我根本就不記得我的pin number,但是我有一大堆ID可以證明我的身份。

那個接洽的小姐搞不定,只好去問主管。他們搞了好久,最後跟我說,他們沒辦法關閉我的帳戶,因為裡面有錢,這樣退錢給我,他們認為不安全。他們必須確認我的身份。

為了確認我的身份,他們先驗了我的護照,然後又問了我三個問題。前兩個問題我都輕鬆答對了,但是第三個問題,是我的戶頭裡有多少錢。

老天,我從來沒用過這個帳戶,我哪知道裡面有多少錢?裡面的錢,就是學校匯給我,扣掉房租之後的錢,加上一點利息。但因為是學校付的,我連房租是多少都不知道,所以也算不出來。

於是,安全認證失敗,我無法被認證是我本人。

當你帶著你所有的photo ID,讓銀行比對上頭的照片和你的臉,但銀行還無法確認你是不是你,這要不是他們的安全機制,實在太可笑了,就是最近有人拿了硫酸,潑在我臉上。

我想我做人應該比馬英九成功很多,大概不會有人想潑我硫酸,也不像江宜樺臉皮超厚,硫酸潑到臉上都沒感覺,所以我想我的臉應該和我所有photo ID的照片,都長得很像。

實在沒辦法,我只好告訴他們,裡面的錢我一毛也不想要,你們要自己收起來,還是拿去捐給慈善機構我都沒差,我只想要結束這個帳戶。不然至少也把地址改到我現在的地址,或著停止寄信給我,不要煩到人家。但是就連這個也不行。

最後辦事處的主管跟我說:「真的很抱歉,雖然我認為你是你(I personally agree you are the guy in the photo),但是我們還是沒辦法幫你關你的帳戶。我知道這很可笑(I know this is ridiculous),但我沒有權限這麼做。」

所以,我並不是唯一一個覺得這件事情很可笑的人。但在和他們交涉的過程中,我可是一句髒話都沒有罵,罵髒話的念頭也從來不曾出現在我的腦海中。

為什麼呢?因為我覺得,他們的安全機制雖然有點誇張,但他們是在努力做好他們的工作:「保障帳戶的安全性」。我察覺不出他們的惡意,也從過程中知道他們很努力想幫助我。結果雖然不盡如人意,但他們很認真的對待了我的訴求,在我離開前,也提供了我其他可能可行的辦法:他們請我有空的時候直接到總行,他們會幫我接洽可能可以處理個高階主管。

我想說的是,我們的生活中,充滿了可笑的事情,也充滿了讓人無奈的事情,和惱人的挫敗。這些事情,卻不見得會構成我想罵髒話的理由。

我想罵髒話,通常要不是對自己生氣,就是因為,我覺得對方充滿惡意,或著根本就不願意處理事情,並且以禮貌當作防護牆,想要敷衍我。

關於這種偽善的行為,最近經濟部那個亞投行的報告,做了最好示範:


一篇15頁的研究報告,寫得跟全是屁話的作文一樣,還有臉在開頭說『本文絕對歡迎分享轉錄高調』,這個就叫做根本不願意處理,又充滿惡意。

這個,才是會讓人忍不住要罵幹你娘的可笑。


--

喔,對了,前面說最近有兩件可笑,但不是幹你娘的可笑的事,發生在我身上。還有一件還沒講。

前陣子,有位AV女優到臺灣宣傳。我的日本同事不知道哪裡得知這個消息,就很興奮的跑來跟我說。這位女優的名字,叫做天使什麼鬼的。

我一開始以為我同事唬我,最好有人的名子這麼不要臉,後來日本同事就google給我看,結果他的名字還真的是天使開頭,在臺灣還有個很屌的翻譯,叫做天使萌。

好吧,我必須承認,這個女優長得的確滿好看的。日本人看我覺得她長不錯,就丟了幾個網址給我,欣賞一下他的演技。

其中有一幕,男優拿出了一根假的陰莖。那根假的陰莖,做得還真的頗像的,我看拿來做醫學院的解剖學教學,大概都沒什麼問題。有趣的是,這根很真的假陰莖,卻沒有打馬賽克。

所以在同一部片裡面,把男優的性生殖器打馬賽克的理由到底是什麼啊?

我把這件可笑的事情跟日本同事講,他聽了整個笑翻了。都已經是A片了,卻不能露生殖器,但是做得很擬真的假生殖器卻可以露。這是什麼可笑的道理?


--

可是現在我回頭想想,這好像也沒那麼可笑。

畢竟,這些日本A片,還搞得清楚,什麼是真的,什麼是假的。不像臺灣,假的,在有禮貌的掩護下,會被說成真的。對的,則只要一句幹你娘,就可以變成錯的。

這才真的是幹你娘的可笑。

面對這些幹你娘的可笑,在現實生活的應對中,我想我還是會乖乖妥協。就像我說的,這是一種達成目的的手段,一種不讓其他人站到我對立面的策略。

但為了提醒我自己,也為了繼續凸顯這種文化的可笑,我決定在這個部落格開一個新的標籤,叫做ridiculous as fuck。以後所有這些發生在臺灣幹你娘的可笑的事情,我都會寫在這個分類裡,然後以刻意盡情的大罵髒話做為寫作風格,直到有一天,爭論不再是先推倒禮貌牆的人就是輸家為止。

直到有一天,在我被制止罵幹你娘之後,人們不會停止,會繼續追到公理正義出來,會去檢驗那個罵幹你娘的人,說的到底是對是錯,而不是在我停止罵幹你娘之後,就讓事情不了了之。

在這些事情發生之前,罵髒話,就是這個分類的文風,是一種對這個偽善社會的抗議與諷刺。


--

不要罵髒話?幹你娘、幹你娘、幹你娘。

Evidence-biased misunderstanding (2) --- the intrinsic weaknesses ofstats and science

前一篇文章提到了單一科學文章證據強度不夠的問題,這樣的狀況,其實和科學方法的本質有很大的關係。在科學上,我們很重要的一個工具是統計,但是統計卻有很多弱點,也常常沒辦法回答我們想問的問題。


☛ ⟪統計沒有回答你的問題⟫

關於這個統計上的問題,我以前在這個blog也提過(請參考:Evidence-based, but still subjective),不過這樣寫好像太硬了,也不是那麼好懂。所以在這篇文章裡,我想換個方式,用一些故事,和一些比喻,來說明統計的一些問題。

不過在講故事前,我們還是必須解釋一些工具名詞但意義。

我們在科學上最常用的一個工具,是hypothesis testing,也就是我們常常在科學文章上看到的p> 0 .05的那個significant test。

Hypothesis testing本身的概念,其實是非常非常科學的東西。因為他的建立基礎,在於證偽你的null hypothesis。在EBM這個setting裡面,通常我們的null hypothesis會是控制組和實驗組之間沒有差異,譬如【打了A疫苗的病人們和只打安慰劑的病人在得到流行性感冒的比例上,沒有差別】,這就是一個很標準的null hypothesis。

而統計用的方法,是用創造出一個工具,讓我們可以用小樣本,去推論如果null hypothesis成立,這個data的母體分佈會長怎麼樣,然後我們再比較兩個不同的sample groups,像不像都來自於這個母體。

我有時候喜歡用瞎子摸象來說這件事。我們隨手摸了A和B兩個地方,想看看是不是都是來自同隻動物(在這裡這隻動物就是大象)。我摸到的A感覺起來像是個長長的鼻子,我覺得他長得很像大象的鼻子。我摸到的B感覺起來則像是一個小小毛毛的耳朵,不太像大象的耳朵,所以我認定A和B來自不同動物,也因此推翻了A和B來自於同一隻動物的null hypothesis。我們如果用一個數字來表示這件事,譬如說B實在有夠不像大象,大概只有小於5%的機率,你隨便摸一個點,會比這個摸起來更不像大象,那這時候我就說我的p>0.05。

請注意這是一個主觀拒絕null hypothesis的動作,因為我們是覺得B長得很不像大象,所以主動認為他不是大象的一部分,但客觀事實上我們其實不知道這件事是否為真。所以統計其實無法回答我們本來問的問題,也就是A和B是否都來自大象。他回答的是B真的不太像大象,然後交由你自己去判斷他是不是來自於大象。

可是通常我們在科學研究上,想要做的論述,並不只是A和B不是來自同一個動物。我們還想說,A和B一個是來自於大象,另一個是來自於老虎。然而即使我們利用統計幫助我們主觀推翻了null hypothesis,也就是A和B都來自大象,而A和B也真的是來自不同動物,我們也無法保證B是來自於老虎。

用統計上的名詞來說,就是推翻了null hypothesis,不等於alternative hypothesis為真。

現在讓我們想像一個狀況。

今天我做了一個研究,非常成功的推翻了我的null hypothesis。然後我心中,有兩個alternative hypotheses,其中一個,非常合理,但也沒什麼特別。另外一個,還算合理,但是非常令人驚艷。大家覺得,哪一個alternative hypothesis被寫出來會比較容易被Nature, Cell, Science (CNS)給接受呢?

我想答案應該很明顯,那些fancy, eye-catching的假說,會比較容易被這些期刊接受。可是你的significant test並沒有證明這個超酷炫的alternative hypothesis為真,且按照常理推斷,這些合理但是令人驚豔的假說,很多都是相對unlikely的狀況,所以才會讓人覺得又酷又炫。也因此,他們是錯的機率,其實也很高。這是某一些科學家,對於CNS retraction rate高的解釋:當你要提出驚世駭俗的假說,其實也就是讓自己身陷於「這個假說其實很可能不是真的」這樣的窘境。

喔,對了,我在這裡使用的是假說這個詞。因為這些單一論文的研究,按照科學方法的角度去解讀,都只能被視為「仍待驗證」的假說而已。


☛ ⟪樣本數常常都不夠⟫

受限於資源和時間等種種因素,還有power calculation計算上的困難(詳情請參照:樣本夠大不夠大?這篇文章),這些單一一篇的研究,常常都處於under power的狀況。

從很多經驗之中,我們都知道小樣本容易出現極端數值。譬如說Steph Curry會在MSG對上NYK的比賽裡砍進54分,也會在對Mavs的比賽裡砍進51分,但他生涯的平均每場得分也才20.7而已。這兩場比賽Steph都砍進了10顆三分球以上,但這位可能是NBA史上最好的射手,生涯平均一場大概也才進3顆分球而已。

假設我們對Curry生涯的比賽做隨機抽樣,譬如說抽兩場,然後很不幸剛好有一場是上述兩場50分以上的比賽,這樣就會大幅拉高我們取樣後得到他的單場平均得分數值。但如果我們改抽100場,即使這兩場50分以上的比賽都在其中,他們也會被稀釋掉,影響力就不會這麼大了。

同樣的道理在棒球場上也常常看到。波士頓紅襪隊的王牌投手Josh Beckett在2007年Red Sox拿下四年內第二座冠軍時,季後賽的表現根本是見神殺神,遇佛斬佛。光看他那幾場的表現,你會以為他是一個比Pedro Martinez還要厲害的投手。可是如果你比較兩人的生涯數據,Pedro Martinez很快就會跳到史上最強那個層級的討論,Beckett卻只是一個非常不穩定的好投手。

再舉一個最貼近我們生活的例子。譬如說我最討厭的馬英九,我相信如果你在他總統生涯做過的所有事情裡面隨機抽樣三件,搞不好還會抽到兩件他做得不錯的事情。但如果你review他整個總統生涯,要覺得他是個好總統大概很困難吧。

科學研究上面,我們遇到的經嘗就是這樣的狀況。小樣本常常會出現false positive,等到樣本數累積足夠,這樣的false positive就會被抓出來,這也是systematic review和meta-analysis會被視為較高階證據的原因之一:他們比單一研究集合了更多的樣本數。

不只是false positive,在樣本數不足的情況下,很可能genuine difference也不會被抓出來。一個很有名的例子是β-blokers在myocardial infarction (MI,心肌梗塞)上的使用。

在一開始的時候,臨床研究發現β-blokers對於anterior MI有效,但對於inferiror MI卻是沒有效果。這個研究的特色是,在做這個分析的時候,總MI的病人數量是夠的,但是如果把MI病人分成anterior MI和inferiror MI,樣本數就變得太小,變成under power的研究了。

後來隨著越來越多這類型的研究被完成,讓我們可以做mata-analysis之後,很快我們就發現,其實β-blokers對inferiror MI也一樣是有效的。如果我們只用單一一篇研究結果做結論(我這裡引用的還是有做randomisation的臨床研究!),那麼我們就會做出β-blokers不應被使用在有inferiror MI的病人身上,那這樣這些病人就無法享受β-blokers帶來的好處了!

* 最近Nature也有一篇相當好的文章在說小樣本的問題,值得一看:Power failure: why small sample size undermines the reliability of neuroscience


☛ ⟪光靠統計證實不了的因果⟫

今年諾貝爾獎得主,也是美國能源部部長的朱隸文(Steven Chu,剛聽到的時候耳背,還以為是周星馳要來演講 XD),受邀到Univeristy of Oxford有名的Romanes Lecture演講,主題當然就是新能政策和氣候變遷。

朱隸文在演講中提到他們當初做相關能源政策研究時,其實是偷了epidemeology(流行病學)的概念。為了說明流行病學的研究概念,他很禮貌的舉了當年很有名的香菸與肺癌研究當作說明。很禮貌是因為找出這個關係的Richard Doll是Oxford的教授,Oxford還有一棟以Richard Doll為名的大樓,最酷的是Richard Doll本來是個老菸槍,但做出這個研究之後,就戒煙了,這就是真正身體力行的evidence-based practise啊!XD


由於Romanes Lecture的演講slides並沒有開放給聽眾下載,所以我手邊也沒有,不過還是可以簡單描述一下。朱隸文說,當時其實有好幾條線的發現,都指向吸煙和肺癌的關聯性,譬如香菸的普及度和肺癌的盛行率高度相關,以及吸菸者和非吸煙者肺癌盛行率的顯著不同等等。


但我們這些做研究的人,當然不會只滿足於「相關」這個概念。我們想看到的是「因果」,也就是吸菸會導致肺癌這樣的概念。


但事實上光靠epidemiology的correlation研究,是永遠做不到這件事情的。也因此,儘管當時這樣的因果關係很明顯,仍然有很多科學家不買單,認為correlation does not imply causation。


很多科學家為了證實這件事情,就開始進行mechanistic的研究,想找到相關的mechanism,去back up這個吸菸和肺癌間非常robust的correlation。


Mechanistic studies雖然很少能夠真正完全證明因果關係,但通常會讓我們更有信心A和B兩件事情,是有因果關係的。中央研究與TWAS院士,現任陽明大學校長,專長為生物統計學的梁賡義教授,也曾經在演講時說,不管統計做得再好,都要提供機轉上的解釋,才能真正算得是一個好的研究。


於是這些科學家前仆後繼的用各種不同的models,老鼠、細胞培養等等一大堆,慢慢提供了越來越多、越來越充足的科學證據,讓我們相信,吸菸和肺癌之間,是有因果關係存在的。


等這些證據累積到一個程度,有天美國政府覺得,這些證據夠可信了,於是他們決定,要試試看用政策去減少吸菸的人數,看看能不能降低肺癌的盛行率(請注意這又是一個主觀認知)。很不幸的是他在講政策這段的時候我不小心把旁邊的人的包包給掃到地上了,正忙著道歉,所以沒有聽到政策是怎麼執行的,只知道似乎和警語之類的有關。Anyway,政策執行的結果,是吸菸的人數降了,而肺癌的盛行率也跟著降了。


一直到了這個時候,我們才能夠真正相對有信心的說(又是一個主觀判斷!Evidence-based decision making仍是一個充滿主觀判斷的過程!),吸菸會導致肺癌。


這樣的過程也是我們通常在臨床上最後能夠確定因果關係的方式:利用intervention來看看能否達到預期的改變,而不是光靠統計上的correlation。


對我們來說,correlation常常是最好做的研究,特別是在這個omics盛行(genomics, transcriptomics, proteomics),big data好好用的年代,更是如此。Mechanistic studies就難多了,常常是一個PhD以上的研究計畫,所以很難只用一篇論文就做出詳細的mechanism。在這種情況下,光靠一篇paper當證據,你看到的很可能只是correlation,或著是mechanistic studies的冰山一角,甚至是錯誤或spurious的部分,在這樣的狀況下下結論,自然就是相當error-prone的,這也是單一paper證據力不足的原因。



☛ ⟪統計,好難!⟫

在講科學的時候,常常很多人都以為科學家是一群象牙塔裡的專家,知識異常淵博。但其實大部份的專家,也只有在某些地方,比一般人厲害一些些而已。也因此,他們在自己沒那麼熟的領域,其實常常也是理解有限。這樣的結果,就是造成他們在這些地方會不小心犯錯。


而統計作為一個科學上非常重要的工具,被使用的量非常大。但是它又很難,大多數的科學家也都不是專業的統計學者,是以會犯錯,也是常有的事。下面我就講一個非常有趣,關於專家對統計不夠瞭解,因此被人惡作劇的故事。


Peter Sleight是一個非常厲害的cardiologist(心臟專科醫師,也是心血管疾病研究的大頭),同時,他也是少數精通統計的研究者。他和前面提到那個Richard Doll Building裡的Richard Peto教授,都是臨床實驗設計和流行病學的高手,也是大力反對"sub-group analysis"分析法的人。


我們在做臨床測試時,都會先做一些估計,大概抓出這個臨床試驗,需要多少病人和多少對照組,才能夠得到統計上具有效力的結果,這個就是前面提到過的power calculation。而所謂的sub-group analysis,意思是說,在招募完試驗參與者並做完臨床測試之後,再去把這些病人,依照某些特色分組,然後再做其他的統計分析。


舉例來說,本來我的臨床測試,是要研究某一個藥物對於治療心肌梗塞(MI)的影響。我經過power calculation之後,算出我要500個健康參與者,和500個病人,這樣做出來的統計才有效力。


等到這個試驗做完之後,我又根據這些參與者的年紀,去做詳細的分析,看看我的藥是不是對於不同年紀的病人,有不同的效果。於是我就把這1000個病人,又依年紀分成5組,這五組就是sub-groups,而這樣的分析,就是sub-group analysis。前面講到beta-blockers對inferior和anterior MI有沒有效的分析,就是一種sub-group analysis。


這樣的分析會有很多問題,其中一個是你的樣本數就變少了,所以統計的效力可能會跟著降低。另外一個問題是,如果你一直重複做hypothesis testing,你得到false positive的機率就會增加。例如我把一個做出來藥物和安慰劑沒有顯著差異的臨床測試參與者,用sub group分成四十組,然後狂做hypothesis testing,在把顯著差異的標值準設在P < 0.05的情況下,你就會預期只少會有兩組會做出positive result*。


因為這樣的原因,所以Peter Sleight他們才會大力反對sub-group analysis,這是他們在上epidemiology時一直強調的概念,也是他們發paper時非常堅持的原則。


有一回,Peter Sleight主導一個很大型,很經典的心臟病臨床試驗(ISIS trials)。試驗做完之後,他投稿到The Lancet(對,就是那個潘建志醫師口中的權威期刊The Lancet),沒想到The Lancet的審稿人,居然希望Peter Sleight他們做sub-group analysis,提供更多資訊。


氣急敗壞的Peter Sleight和The Lancet的審稿人(通常都是醫學研究的專家學者)溝通失敗之後,想出了個壞主意。


因為當初他們招募參與者的時候,有登記每個人的出生年月日,因此他可以很輕鬆的找出每個參與者的星座。於是他就把每個參與者依照星座分組,分出了12個sub-groups。


而即使是像ISIS這樣超級顯著的臨床試驗(P < 0.00001),他們還是在12組裡面,做出了他們研究的藥,對於雙子座和天枰座的人無效,這樣好笑的結果。


Peter Sleight把這個最新的結果投到The Lancet(對,真真確確就是那個潘建志醫師口中的權威期刊The Lancet),本來還要刊了。也因此後來這個變成Peter Sleight每次都拿來恥笑The Lancet的笑話。


這個例子因為真的太蠢,所以他每次講,大家都笑翻了,星座怎麼可能會影響藥物對人的效果呢?但如果今天是個沒那麼蠢的分法,譬如按照國籍分成12組,或著按照年紀分成12組,大家還能夠這麼容易發現問題嗎?


依照我自己的經驗,其實是沒那麼容易的。我唸博士班的過程,有一些機會幫老闆審別人的paper。過程中還滿常發現別人統計上的錯誤,一度我還真的覺得科學真是沒救了。


直到有一天,我自己在設計實驗的時候,設計到一半去喝杯茶,喝完回來,忽然發現我分析之前,忘了先確認一個很重要的假設。


那時候忽然我就明白了,因為統計這東西真的很複雜也很難,其實犯錯是常常有的事情。而別人在審paper的時候,不一定都會拿原始的數據來分析,審paper的人可能也跟權威期刊The Lancet的審稿人一樣,會在統計思考上不夠小心,那這樣一些分析效力不夠強的paper**,就會被刊出來。


而如果我們不明所以,抓起paper,只看結果就當成決定性的證據,就會造成拿著雞毛,以為是令箭的慘劇。而按照這樣不夠扎實的基礎做出來的決定,很可能就不是一個最佳的決定。這樣就違反了evidence-based的本意了。



*P < 0.05,代表只有5%的機率取到比這個更極端的值。因為機率很小,所以我們主觀認定null hypothesis為假,我們比較的兩個東西,例如兩個平均,不是來自同個母體。但這也代表還是有5%的機率我們會在這個母體內取到比這個更極端的值,因而錯誤的否決null hypothesis。所以我們至少有5%的機率會犯下false postiive的錯誤(type I error)。所以在上面那個例子裡,犯下false positive的機率是5%,40*0.05=2,所以我們預期會有兩組出現positive result。這個不懂就算了,當作是統計好難的證明吧 XD


** 統計效力弱不代表結論就是錯的。譬如說我們看到一個分成12個sub-group的研究,顯示出當中有兩個是positive。如果是按照星座分,因為太蠢,所以我們知道這八成是假的。但如果是比較make sense的分類法,例如血液中血小板的比例,那這時候我們就不知道到底這是假陽性,還是真的是positive。




☛ ⟪沒有randomisation也非blinding⟫

在臨床測試的setting底下,randomisation和blinding是避免系統性偏誤的重要工具。

理想狀態下,當我們要做統計時,我們應該進行的動作是random sampling。所謂的random sampling,就是說在族群(population)中,每一個sample被抽到的機會,都是均等的。在這樣的狀況下,平均而言,這個些samples的特色,會和母體高度相似。

譬如說一個箱子裡有10顆紅球,100顆藍球,和30顆黃球,在純隨機的狀況下,我們抽到籃球的機率,會是紅球的十倍,抽到黃球的機率,則會是紅球的三倍。所以平均而言,我抽球抽十次,看到的比例,應該是紅球:藍球:黃球 = 1:10:3,這個就是random sampling出來的sample會貼近母體特色的概念(統計這叫做smaple representativeness)。

但這樣的方式在實際上是不可行的。以臨床測試來說,我們只能在某些醫學中心做,你可以想像這樣的狀況,會讓我們受到很多限制,讓我們沒辦法隨機的接觸到每個族群中的人,譬如離醫學中心很遠的人,可能就有比較低的機率會特地來參加臨床測試。


在這個情況下,我們只好退而求其次,進行randomisation。


Randomisation的基本概念是在消除可能由人為造成的bias。舉例來說,如果我們要研究抽菸對中樞神經的影響,但其實喝咖啡也會影響中樞神經。如果我們今天用完全隨機的方式將參與受試者分配到A和B兩個組別,理論上喝咖啡者被分配到A組和B組的機率是一樣的。


舉例來說如果我們的受試者有10個抽菸者,平均而言,隨機被分配到A組和B組的機會是50%-50%,所以我們可以期望兩組各會有5個抽菸者,至樣抽菸的影響就被消除了,因為兩組都會看到一樣程度由抽菸造成的影響。如果說剛好出現極端的狀況,譬如說A組9個抽菸者,B組只有1個,我們會知道這是運氣造成的,而不是人為產生的bias。


Blinded test的目的也一樣是在避免人為偏誤。一樣以臨床測試來解釋,一個blinded test,在最理想的狀態下,參與者不會知道自己是分配在安慰劑組,還是新藥組。這樣就可以避免安慰劑效應。而執行臨床測試和分析數據的人*,在最理想的狀態下,也不會知道這樣的資訊。這樣就可以避免先入為主的狀況。 

先入為主即使對科學家而言都是很恐怖的偏誤,我最近剛好深有所感。前陣子有回我把某種酵素(trypsin-EDTA)從-20℃的冰箱拿出來退冰,結果忘了放回一般的冰箱。第二天有個同事發現,就一直大驚小怪,還跟我說他試了好幾次,那罐trypsin都沒有活性,一定是因為沒收進冰箱,所以trypsin「死了」。


這種事情我在臺灣看過無數次了,從來也沒遇過有人的trypsin會因為這樣就死掉,所以我當時覺得怪,難道英國的trypsin比較爛嗎?


不過畢竟是自己犯了錯,我就沒跟他爭,不斷道歉以後自己把那罐trypsin收起來用,用起來根本也不覺得有差 XD


前幾天,那個當初一直抱怨的同事,因為自己的trypsin用完了,就借我的去用,拿的剛好就是那罐「死了」的trypsin。我看他按照平常的方式操作,也是做得很好,沒發現有什麼trypsin死了的問題,這樣你就知道先入為主多恐怖。


所以在實驗時,如果我們先預期哪一個組別會看到怎樣的結果,我們可能就會出現先入為主,把不存在的差異,自己腦補出來的狀況。


有了randomisation跟blinded test這兩個工具,我們就可以盡量把所有的人為bias剔除,那這樣看到的結果,除了運氣之外,就是真正受我們想要研究的因子造成的。


可是在一般的實驗室,也就是非臨床測試的setting下,這兩件事情,受限於資源和操作,基本上是不太可能達成的。事實上,就連在臨床測試的setting底下,也還是有randomisation和blinding 不可能達成的狀況。


舉例來說,末期癌症的新藥,是不可能做randomisation和blinding的。因為來的病人都是已經藥石罔效了,給他們安慰劑等於宣判他們死刑,這種trial根本沒辦法做。所以癌症新藥根本不會有安慰劑組,或做新藥與舊藥的比較,自然也沒辦法用這兩個工具。


另一種無法blinding的狀況,會發生在病人可以明確知道自己有沒有受過operation的狀況。譬如說,我想比較對於退化性關節炎的病人,服用新藥A的效果,和換人工關節的效果,哪個比較能夠回復行動能力。因為我們通常不會做shame operation(假開刀,也就是刀開了卻沒做任何事就縫起來),畢竟這有道德疑慮,所以在這樣的setting裡,blinding根本不可能達成。


實驗室裡頭,則有更多這樣的理由,會讓我們無法做randomisation跟blinded experiments,有時候則存粹是資源不夠(這兩件事情做起來,都很耗人力、金錢,和時間),而這也會影響生物實驗室裡面實驗結果的可信度。



*實務上分析數據的人,特別是統計學家,要blinding會有些困難,因為他們分析有時候會需要un-blind,才有辦法做到好的統計分析跟設計。



☛ ⟪Publication bias⟫


學術界的另一個問題,是通常能夠發表在好期刊的文章,都是要做出差異的文章。也就是說,同樣一個研究,如果我的group在實驗室做出來,是有差異存在的,譬如說服A藥的老鼠,比對起服用安慰劑的控制組,阿茲海默症的進程都減緩了,這樣的研究結果,就會比另一個group,做同樣的研究,做出來沒有差異,要容易登上期刊。

而這樣的問題就會造成一個publication bias:按照p > 0.05的標準,我們有5%的機會錯誤的拒絕null hypothesis,也就是服A藥和服用安慰劑的組別其實沒差,但是我們錯誤的否絕了這個假說的機率是5%。可倘若只有這5%做出來是有差異(false positive)的實驗,能夠被期刊接納,剩下95%的文章,都會被拒絕,那麼就會造成閱讀文章的人,做出A藥真的有效果,這樣的錯誤判斷。


而我們在做systematic review的時候,一個很重要的準則,就是納進來review的文章,不能只有出版的,沒出版的如果能夠拿得到,也要放進來參考,這就是在避免publiscation bias。


而事實上,在現在的科學界,因為大家都在追求速度,所以一個重要的發現出來,大家一定都會想要replicate這個發現。如果能夠重現,就可以以這個為基礎,繼續深入研究下去。而replicate的過程,也可以順便建立起自己的expertise,有益無害。在這樣的情況下,多少可以減低publication bias造成的影響,這點在下一篇文章,我會做進一步的說明。


☛ ⟪巷子內人的遊戲⟫

單一科學論文做EBM,沒有那麼值得相信的原因,還有一個,那就是大多數刊載於學術期刊的研究,其實都已經太專精了,專精到即使是受過科學訓練,但不是在同一個領域的人,都不一定有辦法看出一篇研究論文到底做得好不好。

這點其實有時候在FDA, EMA或著MHRA這類審核藥物上市的機構,也會見到。一種狀況是,他們在審藥的時候,請的顧問,可能和做臨床測試的藥商有利益衝突。這並不是說他們不知道要利益迴避,而是在某些罕見疾病的領域裡,可能專家就那幾個,而一個新藥,可能就是這幾個人的研究成果累積出來的。因為他們是專家,所以很多地方你還是得請教他們的意見,也因為這領域太專精,其他領域類似的人不一定有辦法做出好的判斷。


接著讓我們回到實驗室。我前陣子就經歷過一個很有趣的「巷子內人才知道」的事情,不過開始之前,我得先說一點點高中化學。

讓我們來假設一個情況:今天有一個蛋白酶E,他可以把他的substrate S切成S'和S''兩個部分。這時候我們就可以寫出一個等式:⟪E+S ⇌ E+S'+S''⟫。


這個過程,是由酵素先和substrate結合,變成一個ES的複合物,然後再由酵素把S給切掉,變成ES'S'',然後酵素再和S'與S''分離,變成E+S'+S''的狀況。


而按照我們學過的化學原理,在S的濃度固定的情況下,我們加入E,E的濃度,會決定最終達到平衡時,S和S'+S''的量。


但如果說今天E對於S的affinity很高,那只要濃度相對低的E,就可以把這個平衡式往右邊推。反之,如果affinity很低,那就要很高濃度的E,才能把這個平衡式往右推。


這就告訴我們,只要濃度給得夠高,就算是專一性很高的酵素,也可以切一些本來在生理狀況下,不是他substrate的東西。這個在生科實驗待過的人應該都知道,有些restriction enzymes,如果給的時間夠久,濃度放夠高,他們就會亂切你的DNA。


那現在問題來了。今天我們看到一篇paper,他用10mM的酵素濃度,加上1mM的substrate濃度,發現這個酵素可以切這個substrate,所以宣稱他們找到了這個酵素的substrate。這時候你要怎麼判斷,他們用的濃度合不合理?


這幾乎是一個沒法回答的問題,因為每一個酵素,都有他自己特別的特色,所以怎樣的濃度合理,是一個case by case的狀況。但我隔壁實驗室的人,他們就很有概念,因為他們有很多研究酵素的經驗,所以他們對於幾種特殊的蛋白酶,在怎麼樣的濃度底下,會開始亂切,怎樣的濃度下則專一性很好,就會有比較正確的認知。


我剛到這個研究機構時,有一次因為研究的需要,拿了一篇類似這種蛋白酶切他substrate的paper去請教他們,我當時以為,那篇paper找到了一個還不錯的substrate,我可以拿來用在我的實驗。


結果那間實驗室的PI,馬上翻到materials and methods的部分,看了他們用的濃度,然後再翻到paper的開頭,看了作者的名字,google了一下,接著就哈哈笑兩聲,跟我說不要太相信這篇paper的結果,因為那個酵素的濃度太高了,跟他們的經驗不符,然後這篇paper的作者不是來自做酵素的group,所以他們很可能沒有這個sense。


為求保險起見,他們還是幫我試了一下,然後過了一個禮拜,就跑來跟我說,那個結果真的不太reliable,在那個濃度和反應時間下,酵素甚至會自己切自己。


這個就是很典型,巷子內的人才會有辦法判斷的狀況。我的領域雖然和他們相去不遠,但他們沒跟我說之前,我也對於怎樣是合理的濃度沒概念,甚至他們自己,也只對某一類的蛋白有概念,其他的類別他們也沒那麼了解。


舉這個例子,並不是說科學就只有該領域的科學家能玩,paper只有少數人看得懂。而是說當你不是那個領域的專家時,看paper要很小心,要多收集資料和多問人。只憑藉一篇paper,就很可能會遇到類似我上面的情況,把一篇rubbish paper當成支持你論點的證據。


☛ ⟪證偽的侷限⟫

這篇的最後,我想講一下在實驗科學裡面,使用科學方法的一個很大侷限。

我大學時上過一門羅輯課,整系列的課我都在混,只有一個故事被我聽進去了,但光這個故事,就非常值回票價。


這個故事叫做天下的貓,都是黑的。

故事是這這樣的:

有一天,馬小九和陳小扁打賭,說全天下的貓,都是黑的。

陳小扁很高興的賭了,他跟馬小九說,你是不可能贏的。

馬小九不相信,就帶陳小扁去附近,連續抓了五隻貓。果然,五隻都是黑的。


馬小九得意地說:「怎麼樣?我贏了吧?」


陳小扁說:「還早勒,才五隻而已。你說的是全天下的貓都是黑的。你只要找到一隻貓不是黑的,你就輸了。」


固執的馬小九聽了很不高興,就開始他的無窮無盡的抓貓之旅。旅程中,每隻他抓到的貓,都是黑的。可是每次他拿去給陳小扁看,陳小扁都會說,那是因為你還沒有抓完全天下的貓。


堅持抓完全天下的貓,是大是大非、利大於弊的馬小九,就繼續抓、繼續抓、繼續抓。有一天,他覺得自己抓完全天下的貓了,就跑去跟陳小扁說,真的全天下的貓都是黑的。


陳小扁卻說:「你怎麼知道你真的抓完全天下的貓了?我說還有一隻不是黑的你沒抓到。你再努力找找。」


找了數十年,已經從帥氣小馬哥變成垂奶九趴馬小囧的馬小九,卻怎麼也找不到另一隻貓,於是他就回去跟陳小扁說,他真的把全天下的貓都抓完了。


陳小扁卻說:「你找不到,不代表不存在,你要繼續找,拼命找,但你永遠也不會知道是不是真的還有一隻不是黑色的貓你沒找到。所以你是不可能證明你是對的,這場打賭,是我贏了。」


這當然是一個很智障的故事,不過他說明了關於論述的不可證實性。我們要證偽一個論述,非常簡單,只要找到一個反例就行了。譬如「天下的貓,都是黑的」這個論述,只要你找得到一隻不是黑色的貓,這個論述就被證偽了。可是當你找不到反例,或無法證偽這個論述,卻不代表這個論述就是對的,因為永遠都有可能,只是你還沒找到那隻不是黑色的貓而已。


這個就是科學方法的侷限。我們做科學的人,都想要提出理論。這些fancy的理論,才是讓我們感到興奮的東西,是所謂的eye-catching results。但是我們最多,也只能做到證偽其他我們想得到的可能性(也就是其他的alternatives),並用一些間接的證據,來支持我們的提出的理論。


所以我們這些做實驗的科學家,不會說我的data證實了(proved)某件事,而會說"our data support/indicate/suggest"我們的理論。這不是說我們比較保守,不喜歡把話說死,而是科學方法上,我們真的就沒辦法證實我們的理論是不是正確的。


這個侷限和統計的hypothesis teating,其實是一曲同工之妙,而受限於這兩個我們在實驗科學上最重要的工具,讓我們很難只靠單一個paper下很紮實結論,因為大多數的paper,都只是一篇提出假說的paper,而不是證實了一個理論。是以,based on單一paper的EBM,自然也就可信度很低了。






這篇說了很多關於科學的弱點,好像科學證據,是很不可信賴的東西一樣。不過這絕對是一種誤解。我在這篇要強調的,是單一一篇paper,並不是證據力很強的證據,而不是說科學產生的證據,是不可信的。這個論述看起來好像有點矛盾,不過等下一篇我說明完了之後,各位就會明白為什麼了。



Evidence-biased misunderstanding (3)- individually weak, collectively robust

Evidence-biased misunderstanding (1) --- what is EBM?