Note:

因為blogger會有很多廣告留言,所以我有設留言管制。大家留言留一次就好,只要不是廣告,我都會定期去後檯把留言給撿回來。

造成麻煩還請大家多多見諒。

2015年2月15日 星期日

Evidence-biased misunderstanding (1) --- what is EBM?

前陣子看到潘建志醫師在部落格和臉書刊出兩篇關於「實證醫學」的文章,說明他由實證醫學的例子,得出限制酒精廣告的結論。



這兩篇文章有其對實證醫學誤解之處,也有對醫學研究解讀不夠嚴謹的地方。本來是懶得鳥他,不過因為潘醫師要出來選舉,而且居然打著實證醫學的名號要推動這個禁止廣告含酒精飲料的法案,這就有比較大的影響,有必要提出來討論一下。加上最近看到一些關於科學的討論,發現不少人對於如何應用、解讀科學的結果,讓它變成政策或著決策的一環,還是有根本性的誤解,所以乾脆就寫篇文章,稍微解釋一下我對於現在很流行的evidence-based decision making的理解。由於我自己的背景還是比較偏向醫學和生物醫學的研究,所以在解釋的時候還是會以實證醫學(evidence-based medicine, EBM)為出發點,舉一些臨床和生物學研究的例子。

要講EBM,就得先解釋一下什麼是EBM。

不過在給定義之前,我想先說一個小故事。


☛ ⟪實證醫學的起源⟫

我在高中的時候,有一次膝蓋受了很嚴重的傷,甚至沒辦法走路。受傷的第一時間,我被送到家裡附近的健保中醫診所,那裏的治療師幫我「推一推」,然後就叫我回家了。

但後來發現我根本無法走路,覺得應該不是喬一喬就可以的問題,所以我去了家裡附近的大醫院掛號。那裏的醫師這裏摸摸那裡碰碰,直接宣告我的十字韌帶應該是撕裂了,馬上就要幫我安排關節鏡手術的時間。

我那時候聽了嚇一大跳,對那個醫師又不熟,不知道給他開刀好不好。剛好有一個很熟識的長輩是某大醫學中心的骨科主任,就跑去找他尋求第二意見。他也是在診間摸摸碰碰,叫我做一些動作,後來告訴我,我應該只是傷到側邊的小韌帶,前後十字韌帶應該都沒事。

於是我現在有了兩個不同的「專家意見」,在沒有其他證據的情況下,我該如何決定要相信誰呢?或著我們換個狀況,今天兩個醫生在討論我的病況,一個認為我十字韌帶斷了,需要開關節鏡,另一個認為我只是傷到小韌帶,只要好好休息就好,他們兩個要怎麼知道,誰才是在替病人做出最佳的醫療診斷與治療?

這樣的問題在臨床上其實已經存在很久。在沒有統一資料的情況下,每個醫生可能都有自己診斷和治療的偏方,這些偏方都是基於自己的經驗,可是卻沒辦法被驗證,知道自己是否替病人做出了最佳的處置。

而EBM,就是為了解決這樣的難題,而被發明出來的一個「decision making process」。雖然是一個很早就有的概念,但EBM這個概念比較精細的定義,是一位叫做Archie Cochrane的英國教授,於他的著作中提出來的。這個概念後來被Duke University的David Eddy進一步發揚光大,並第一次在正式發表的文章中,使用了evidence-based這個詞。大概在同個時代, McMaster University的Gordon Guyatt和David Sackett兩個人,前者提出了"scientific medicine"的概念,將科學方法導入了醫學研究之中,後者則提出了"critical appraisal"的概念,替EBM建立起了基礎的方法學,也讓當今的EBM雛型得以形成。

後來這個概念就逐漸被發揚光大,以英國政府為例,他們在Oxford建立了以Archie Cochrane為名的Cochrane Centre來推動EBM,EBM的使用也逐漸變成醫學間的主流共識。對於EBM更詳細的歷史,有興趣的人,可以參考這篇文章:


☛ ⟪實證醫學的定義⟫

那麼到底什麼是EBM呢?

如前所述,它其實是一個做決定的過程(decision making process)*。它的做法,是評估我們手上有的最好證據,讓我們可以依據這樣的證據,盡量讓我們的醫療行為(clinical practice)達到最佳化的結果。我們可以利用這些證據,做出最合理的醫療決定,使病人得到最大的利益。

舉例來說,如果我們今天有A和B兩種藥,可以用來治療類風濕性關節炎。我手上的證據顯示,70%的病人對於A藥有良好的反應,且副作用很低,但只有20%的病人會對B藥有反應,而且副作用還很嚴重,那我就可以推論說,在沒有其他證據的情況下,讓我的病人先服用A藥,應該是可以由這個證據得出來的最佳決定。

* 以下附上David Sackett對於EBM的定義原文: "Evidence-based [health care] is the conscientious, explicit and judicious use of current best evidence in making decisions about the care of individual patients…[it] means integrating individual clinical expertise with the best available external evidence from systematic research."


☛ ⟪實證醫學上的證據可信度等級⟫

在知道這個定義之後,我們馬上就會面臨執行EBM時的兩個問題。

第一個問題是,如果證據相互衝突時,我們該怎麼辦?

為了解決這個問題,科學家和醫師,還有統計學家做了很多努力,替更各種證據做出了分級(evidence hierarchy)。一般比較常看到了分級,是類似這樣的金字塔圖:


這樣的金字塔圖雖然好用,不過卻有把問題過度簡化的問題。我個人比較偏好Oxford EBM Centre的分類法:




為了不讓這篇文章變得太複雜,怎麼分類的細節我就不解釋了。總之結果就是我們現在有了這樣的證據分級機制,因此當證據相衝突的時候,我們會把證據力比較高,也就是在金字塔比較上層的證據,在評估時給與更高的比重。以剛剛治療風濕性關節炎的藥物為例,如果有systematic review的證據顯示說A藥效果比較好,這樣的證據力就會大過一個說B藥比較好的cohort study。

而如果我們用潘建志醫師在他blog引用到那篇⟪The Lancet⟫的文章來當例子,然後對回去Oxford Centre of EBM的表格,你會發現他並不全然是一篇systematic review的文章,也就是他在證據力上面,並不是處於最高的位階。所以除非我們手邊只有這一項證據,不然只靠這篇文章就做出強烈的論述主張,甚至想將之入法,其實是頗不負責任的做法。



另外我想要強調一下,如果仔細看一下那個表格的最後一行,就會發現大部份的「生物醫學研究」,是被排在證據級距中,最低階的一級。所以網路上常常有一些基於某些特定論文研究,做出強烈論述的文章,譬如說反對基因改造食品,主張基改食品對健康有害的"科普文",他們在證據力上,其實是很弱的。這類單一研究論文的證據力之所以弱,有好幾個不同層面的原因,這個我們後面再做解釋。

關於證據等級,還有另一點我想要說明。

我們可以看到證據可信度最高的,不管在哪個領域,都是systematic review。Systematic review,和我們一般當研究生時,做的literature review,是不一樣的。它之所以叫做"systematic",就是因為它是依據一套有系統性的方法,來去做這個review的動作。這套方法,常常會包含meta-analysis這樣的統計技巧,而搜尋文章和納入的方式,也有其一定的標準。也就是說,並不是你把某幾個關鍵字打到PubMed, Google或其他資料庫裡,找到幾篇支持你論點的文章,就叫做systematic review。

對systematic review有興趣的朋友,可以閱讀這篇文章:What is a systematic review

所以當我們檢視證據的時候,最好的方法,就是去搜尋別人已經替你做好的systematic review,特別是那些有包含meta-analysis的systematic reviews那就更好了。這樣就可以省去自己做systematic review的麻煩,也可以直接用證據力最強的證據,來了解某個議題。


☛ ⟪實證醫學證據的解讀⟫

讓我們回到剛剛那個類風濕性關節炎的例子:

『今天有A和B兩種藥,可以用來治療類風濕性關節炎。我手上的證據顯示,70%的病人對於A藥有良好的反應,且副作用很低,但只有20%的病人會對B藥有反應,而且副作用還很嚴重,那我就可以推論說,在沒有其他證據的情況下,讓我的病人先服用A藥,應該是可以由這個證據得出來的最佳決定。』

這個是一個很標準的簡化版EBM決定過程。這裏客觀的證據顯示,對A藥有反應的病人,在比例上超遠超過對B藥物有反應的病人(70% vs. 20%),且A藥的副作用比較小。到這裡都還是事實陳述的部分。

在看到這個事實之後,我做的推論是,因為對A藥有反應的病人遠多過B藥,因此我手邊這個病人,對A藥有反應的機會比較大。且由於A藥的副作用較低,因此先嘗試A藥似乎比較合理。

這是一個看起來極為合理的推論,但是不要忘記了,這仍然是我主觀的推論,而不是客觀事實。我手邊的病人還是有可能是屬於那個對A藥沒有反應的30%,且可能他對A藥會產生少見而強烈的副作用。

舉這個例子,主要是要說明,雖然EBM是based on evidence的decision making process,但這個decision making process的動作,還是相對主觀的,也會受到我如何解讀證據的影響,因此,在做這個decision的時候,還是必須非常小心。

在理解實證醫學的概念時,一個一定會提到的觀念,叫做critical appraisal。簡單來講,critical appraisal就是利用systyematic的方式,去批判、評估某一特定證據的意義和強度(robustness),這和systematic review一樣,是有特定方法的,網路上也有很多資源可以讓你練習,譬如著名的CASP toolkit

值得注意的是,critical appraisal很重要的一個環節,就是要從方法上去理解產生出來的證據,信度和效度如何,解釋力到什麼地方。透過這樣的方式,也才有辦法瞭解證據告訴你的到底是什麼,並做出相對正確的決定,達到EBM將醫療行為「最佳化」的目的。

接下來我就以潘建志醫師引用的那篇⟪The Lancet⟫文章當作例子來說明。

這篇名為⟪Drug harms in the UK: a multicriteria decision analysis⟫的文章,利用的方法,是找一群該領域的專家,針對20種藥,以16種評斷標準,用一種叫做multicriteria decision analysis的方法,作出評分。這16種標準,可以大致分為「對個體的傷害」和「對他人的傷害」這兩大類。

為了讓這16種標準的評分可以比較,他們將每一個項目的評分給予了不同的權重,讓他們可以放到同一個量尺上去比較。為了方便理解,我這裡舉個簡單的例子說明。譬如說,我們針對海洛英做評分,在「直接致使用者於死」這件事情上,他得到80分(滿分100,越高越嚴重),而在「令使用者喪失工作能力」上,則得到90分(一樣滿分100,越高越嚴重)。

但我們可以很直觀的認知到,這樣的評分有問題,因為「直接致使用者於死」的嚴重性,應該是高於「令使用者喪失工作能力」,所以「令使用者喪失工作能力」的90分,影響力應該低於「直接致使用者於死」的80分。這時候為了讓這兩個分數可以放到同一的量尺上相加,我們就給予「直接致使用者於死」比較高的權重,例如把「令使用者喪失工作能力」這項分數乘上0.7,這樣就可以讓各項的分數相加,做成下面這張圖:






由這張圖中我們可以看到,酒精是20種藥物之中,綜合加總分數最高的。尤其是他「對他人的傷害」這項分數特別高,在他72分得總分上佔了超過一半,甚至超過第四名安非他命的總分。

也就是藉由這張圖,讓潘建志醫師,在臉書上做出『醫學研究証實,酒精的危害總和遠勝任何毒品(見附圖,出自Lancet,剌胳針,國際最重要醫學期刊之一)。』這樣的結論。

但如果你仔細去看這篇研究的研究方法,他們在評估「對他人的傷害」時,是有把藥物的使用者數量間接納入考量的。而這就暗示了,在「對他人的傷害」這一項上面,藥物分數的高低,會受到當前各種藥物的"availability"影響。那些相對容易取得,使用者也多的藥物,在這項分數上面可能就會高,而這就會造成解讀上的困難。

舉例來說,當我們看到酒精對他人的危害遠高過海洛因時,其實有兩種可能性。第一種是酒精在使用人數上遠高過海洛因,同時在每個使用者造成的危害上,也高過海洛因。另一種可能,則是每個酒精使用者造成的危害只有海洛因的1/20,但是使用者卻是海洛因的100倍(數字我亂給的)。

也就是說,我們看到的那個數字,反應的是當前英國社會對各種藥物採取管制之後,達到平衡做出來的結果。而這代表的是,除非臺灣在藥物管制跟使用普遍性上,和英國極為相似,不然我們很難直接把這樣的結果套到臺灣社會上。

更嚴重的是,由於這個研究只有評估「藥物造成的傷害」,而沒有把藥物的好處納入計算,所以這其實是一個非常偏頗的評估,因為每個藥物,都會有其有益的部分,也有其有害的部分,這跟使用方式,還有藥物使用的劑量,都有關係。這篇文章因為把益處全都捨棄了,所以它評估的狀況,其實有一個"misuse"的預設前提。

舉例來說,像是酒精飲料,在合理劑量下,可能對健康有益,也可以帶來經濟成長和工作機會。這類的益處,也必須以EBM的方式放入評估,然後在cost-benefit上做一個平衡,才能夠真正客觀的知道我們現在的管制是否需要修正。

最後,也是最根本性的問題,在於潘醫師想要推動法案的理由,是想要降低酒駕造成的傷害。可是他並沒有夠好的證據指出,禁止廣告代言,會漸少酒駕。我們可能會很直觀地認為,如果廣告可以降低飲酒人數(這個假設同樣沒有證據),因此可以降低酒駕人數。但這樣的連結其實不夠強,至少絕不是這篇權威The Lancet論文有辦法支持的論述*。所以這並不是像潘醫師說得那樣,是醫學實證的結果,反而比較像是誤解了研究解果,並以之支持自己的信念,這是相當違反科學精神的做法。


*我只針對這篇臉書上的文章做反駁,而沒有納入他blog裡的其他研究文章,因為其他研究我載不到,但他在推論上的問題相當類似。


☛ ⟪單篇論文的證據強度⟫

前面有提到單篇論文的證據強度通常不足,可能會讓不少人感到訝異,畢竟這些論文,都是科學的結果。難道科學這麼不可信嗎?

在開始解釋這件事情之前,我先讓大家看一些數字。我手上的數據不夠完全,所以只能讓大家看個大概,不過還是可以讓大家對這個現象的"scale"有一個基本的概念。

在2011年一篇叫做⟪Retracted Science and the Retraction Index的文章中,作者發明了一個叫做retraction index的東西(rate of retraction per 1,000 papers),來評估一流期刊的retraction rate,並將各期刊的retraction index和impact factor做成correlation,生出了下面這張圖:



我沒有很仔細的去看他的original data,然後去跑stats,但這個correlation不一定太有意義,大家姑且看之。重點在於你可以看到幾個極有名的期刊,他們的retraction index都很高,譬如Nature, Cell, Science,當然還有NEJM。

而根據一個叫做retraction watch的網站做的統計:


你可以看到retraction的絕對數字,其實是相當低的,某部分這也是我們對於科學還是相對有信心的理由。不過這些都是所謂"highly renowned journals",所以我們還是認為這不是一個太好的數字。另外沒被retracted的papers,並不代表結論就是正確或結果能夠被重現的。另一個不好的消息是這幾個top journals的retraction rates都是在往上走的,很多人都把這視為一個警訊:




此外現在因為open access journals大行其道,很多rubbish papers會被pulished到上頭,可能根本沒人看,也沒人想要嘗試重現他們,當然也不會被retracted,所以這個現象還是引起了不少重視,譬如Nature自己就有針對這個議題寫新聞:


而諾貝爾獎得主Randy Schekman也針對這件事情投書過,表明將杯葛這些top journals。

⟪How journals like Nature, Cell and Science are damaging science⟫

這類對於retraction問題的重視,對增加科學的品質,還有證據的強度,都很有幫助,所以某種程度上,科學研究的文章,還是相當有價值。

那麼為什麼這些科學研究文章,在Oxford Centre of EBM的分級裡面,會位在最底層呢?這其實和scientific method和stats的本質有關。接下來的文章,我會針對這個部分做比較詳細的解釋。




Evidence-biased misunderstanding (2) --- the intrinsic weaknesses ofstats and science

Evidence-biased misunderstanding (3)- individually weak, collectively robust

2015年2月2日 星期一

Unscrutinised, excessive empowerment is the best way to cultivate another Lord Ruler

柯文哲最近在新聞上獨領風騷,眾家媒體也努力維繫臺灣製造業的競爭力於不墜。

在眾多讓人搞不清楚是失言還是媒體創作的柯語錄中,最讓我梗梗於懷的,還是他對於監聽的看法。

無獨有偶,賴清德市長在大戰臺南市議會之後,又提出了女星不應代言酒品的言論。和柯文哲一南一北,這兩個神字輩醫師胡說八道的背後,其實反映出來的是同樣令人害怕的價值觀。


Brandon Sanderson在他的經典之作-迷霧之子中,創造了一個所向無敵的統御主 (the Lord Ruler)。

隨著故事的發展,我們明白了原來這個殘暴自大的統御主,其實並沒有那麼壞。他壓制了毀滅一切的神祉滅絕 (Ruin) ,然後用他能夠改變世界的力量,創造了最後帝國。但是統御主缺乏足夠的知識,他把太陽移得太近,讓生命無法存活,於是他只好再創造出灰燼,擋住殺人的陽光,但也因此讓植物永遠枯黃。

他把世界弄得一塌糊塗,卻也讓世界能夠苟延殘喘。

後來同樣的力量被知識的守護者沙賽德擁有,他用正確的知識,把太陽擺回正確位置,把世界變回本來的面貌。

小說的故事總是擁有美好結局,現實世界卻比較殘忍。在無情的現實中,情況也很可能是反過來的- 擁有知識的沙賽德被後來的統御主取代,然後統御主用他無窮無盡的力量,出於好意也好,基於自己的野心也罷,讓這個世界陷入混亂。

或著也有可能有天沙賽德轉了性、瘋了,沈醉於自己無可比擬的力量,然後決定讓世界變得恐怖,讓人類受苦。更可能沙賽德的知識還是有缺陷,或著他有某些偏見,於是他的世界出現了可怕的瑕疵,眾人卻無力去挑戰他。

在現實世界中有太多種可能,會讓這個擁有太多力量的人,帶來惡果。

我們的政府首長,其實就是迷霧之子裡的統御主;而政府機關,就是那個可以改變世界的力量。當我們把過多的力量賦予某個人,也就等於給了他帶來難以收拾的可怕惡果的能力。

像是柯文哲的監聽說,即使我們相信柯文哲現在是為了做好事,也難保他以後不會變壞。即使我們相信他永遠不會濫用這個權力,也無法保證臺灣政壇之後不會出另一個統御主,用這個權力奪取自己的利益,傷害人民自由。

如果我們因為賴清德的guts,就認同他反對藝人代言酒品的言論,難保以後不會出現另一個統御主,禁止藝人代言打電動、代言臉書、代言摩托車,或著一切這個統御主不喜歡的東西。

所以最好的方法,就是一開始就不要把這樣的權力賦予他們。

我認為法律之所以存在,最重要的目的就是要限制國家的無限擴權。我希望這些新上任的縣市首長,在法律允許他們做事的範圍內,用最高的效率,把市政做好。但我不希望他們為了把市政做好,而能夠凌駕於法律之上,或著隨意改變法律,擴張政府的權力。

柯文哲上任以後,一件一件檢驗臺北的建設案。透過他的努力,我們看到了一個權力不受限制與監督的政府,可以多輕鬆地用合法的方式,做出不合理的事情。在這樣的情況下,我們還要繼續相信「大政府」,是利大於弊嗎?

要防止這類事情再度發生,我們需要的是公開透明,而不是更大而有為的政府。柯文哲截至目前為止的確是個還不錯的市長,看起來也是個值得信賴的人。但對於人的信賴,永遠不應該高過對於權力的警戒。柯文哲除了興利除弊,更重要的,恐怕還是要立下公開透明的制度,還有限縮政府無限擴張的權力。否則即使他做得再好,下台之後,只要換上一個統御主,就前功盡棄了。

柯文哲不會是完人,也沒有人會是。我們必須牢牢記住這點。然後我們得時時提醒自己,不要繼續沉醉於自己對明君聖王的想像。從陳水扁開始,一路到馬英九、賴清德和柯文哲,我們都可以看到臺灣人對賢明統治者的渴望,甚至你從柯文哲自己對於蔣經國的讚賞,也可以見到這種根深蒂固,卻錯得離譜的價值觀。

推翻獨裁政體最大的優點,在於把參政權還給人民。既然我們有了參政權,就要努力行使它,而不是懶惰得把這個權力,通通再交給某個我們心中的完美人選。

我們需要強悍的制衡政府,限制他們的權力,不然就很可能會反過來,被政府給限制自由。

有的時候,為了對抗政府,我們會需要強大的人物。但這樣的人物,一旦掌了權,就得被當成另外一個政府對待。迷霧之子中,我最喜歡的角色是凱西爾;而我最喜歡的橋段,則是凱西爾的死亡。

凱西爾在故事裡,為了化解大家對於統御主無敵的恐懼,把自己經營成了另外一個神。但我認為這也成了他不得不死的原因。他透過對自己死亡的巧妙安排,讓倖存者這個名字被神格化了,使得人民得到了反抗統御主的勇氣。可是也因為他的死亡,讓這個被神格化的人物永遠無法掌權,所以這個故事才不會有第二個統御主。

在現實世界中,被選為臺北市長的柯文哲不像凱西爾是迷霧之子,擁有無堅不摧的力量。反而是我們這些公民,只要願意參與政治,就會擁有如同鎔金術般足以撼動政府、限制濫權的力量。

美國第三任的總統Thomas Jefferson曾經說過:"When the government fears the people, there is liberty; and when the people fear the government, there is tyranny." (當政府懼怕人民,這就是自由。當人民懼怕政府,這就是暴政)。

我喜歡自由、痛恨暴政。所以我反對政府擴權,也反對賦予政府任何可能侵犯人民自由的權力。就算這個人在臺北市打敗了我最討厭的國民黨也一樣。