前陣子看到潘建志醫師在部落格和臉書刊出兩篇關於「實證醫學」的文章,說明他由實證醫學的例子,得出限制酒精廣告的結論。
這兩篇文章有其對實證醫學誤解之處,也有對醫學研究解讀不夠嚴謹的地方。本來是懶得鳥他,不過因為潘醫師要出來選舉,而且居然打著實證醫學的名號要推動這個禁止廣告含酒精飲料的法案,這就有比較大的影響,有必要提出來討論一下。加上最近看到一些關於科學的討論,發現不少人對於如何應用、解讀科學的結果,讓它變成政策或著決策的一環,還是有根本性的誤解,所以乾脆就寫篇文章,稍微解釋一下我對於現在很流行的evidence-based decision making的理解。由於我自己的背景還是比較偏向醫學和生物醫學的研究,所以在解釋的時候還是會以實證醫學(evidence-based medicine, EBM)為出發點,舉一些臨床和生物學研究的例子。
要講EBM,就得先解釋一下什麼是EBM。
不過在給定義之前,我想先說一個小故事。
☛ ⟪實證醫學的起源⟫
我在高中的時候,有一次膝蓋受了很嚴重的傷,甚至沒辦法走路。受傷的第一時間,我被送到家裡附近的健保中醫診所,那裏的治療師幫我「推一推」,然後就叫我回家了。
但後來發現我根本無法走路,覺得應該不是喬一喬就可以的問題,所以我去了家裡附近的大醫院掛號。那裏的醫師這裏摸摸那裡碰碰,直接宣告我的十字韌帶應該是撕裂了,馬上就要幫我安排關節鏡手術的時間。
我那時候聽了嚇一大跳,對那個醫師又不熟,不知道給他開刀好不好。剛好有一個很熟識的長輩是某大醫學中心的骨科主任,就跑去找他尋求第二意見。他也是在診間摸摸碰碰,叫我做一些動作,後來告訴我,我應該只是傷到側邊的小韌帶,前後十字韌帶應該都沒事。
於是我現在有了兩個不同的「專家意見」,在沒有其他證據的情況下,我該如何決定要相信誰呢?或著我們換個狀況,今天兩個醫生在討論我的病況,一個認為我十字韌帶斷了,需要開關節鏡,另一個認為我只是傷到小韌帶,只要好好休息就好,他們兩個要怎麼知道,誰才是在替病人做出最佳的醫療診斷與治療?
這樣的問題在臨床上其實已經存在很久。在沒有統一資料的情況下,每個醫生可能都有自己診斷和治療的偏方,這些偏方都是基於自己的經驗,可是卻沒辦法被驗證,知道自己是否替病人做出了最佳的處置。
而EBM,就是為了解決這樣的難題,而被發明出來的一個「decision making process」。雖然是一個很早就有的概念,但EBM這個概念比較精細的定義,是一位叫做Archie Cochrane的英國教授,於他的著作中提出來的。這個概念後來被Duke University的David Eddy進一步發揚光大,並第一次在正式發表的文章中,使用了evidence-based這個詞。大概在同個時代, McMaster University的Gordon Guyatt和David Sackett兩個人,前者提出了"scientific medicine"的概念,將科學方法導入了醫學研究之中,後者則提出了"critical appraisal"的概念,替EBM建立起了基礎的方法學,也讓當今的EBM雛型得以形成。
後來這個概念就逐漸被發揚光大,以英國政府為例,他們在Oxford建立了以Archie Cochrane為名的Cochrane Centre來推動EBM,EBM的使用也逐漸變成醫學間的主流共識。對於EBM更詳細的歷史,有興趣的人,可以參考這篇文章:
☛ ⟪實證醫學的定義⟫
那麼到底什麼是EBM呢?
如前所述,它其實是一個做決定的過程(decision making process)*。它的做法,是評估我們手上有的最好證據,讓我們可以依據這樣的證據,盡量讓我們的醫療行為(clinical practice)達到最佳化的結果。我們可以利用這些證據,做出最合理的醫療決定,使病人得到最大的利益。
舉例來說,如果我們今天有A和B兩種藥,可以用來治療類風濕性關節炎。我手上的證據顯示,70%的病人對於A藥有良好的反應,且副作用很低,但只有20%的病人會對B藥有反應,而且副作用還很嚴重,那我就可以推論說,在沒有其他證據的情況下,讓我的病人先服用A藥,應該是可以由這個證據得出來的最佳決定。
* 以下附上David Sackett對於EBM的定義原文: "Evidence-based [health care] is the conscientious, explicit and judicious use of current best evidence in making decisions about the care of individual patients…[it] means integrating individual clinical expertise with the best available external evidence from systematic research."
☛ ⟪實證醫學上的證據可信度等級⟫
在知道這個定義之後,我們馬上就會面臨執行EBM時的兩個問題。
第一個問題是,如果證據相互衝突時,我們該怎麼辦?
為了解決這個問題,科學家和醫師,還有統計學家做了很多努力,替更各種證據做出了分級(evidence hierarchy)。一般比較常看到了分級,是類似這樣的金字塔圖:
這樣的金字塔圖雖然好用,不過卻有把問題過度簡化的問題。我個人比較偏好Oxford EBM Centre的分類法:
為了不讓這篇文章變得太複雜,怎麼分類的細節我就不解釋了。總之結果就是我們現在有了這樣的證據分級機制,因此當證據相衝突的時候,我們會把證據力比較高,也就是在金字塔比較上層的證據,在評估時給與更高的比重。以剛剛治療風濕性關節炎的藥物為例,如果有systematic review的證據顯示說A藥效果比較好,這樣的證據力就會大過一個說B藥比較好的cohort study。
而如果我們用潘建志醫師在他blog引用到那篇⟪The Lancet⟫的文章來當例子,然後對回去Oxford Centre of EBM的表格,你會發現他並不全然是一篇systematic review的文章,也就是他在證據力上面,並不是處於最高的位階。所以除非我們手邊只有這一項證據,不然只靠這篇文章就做出強烈的論述主張,甚至想將之入法,其實是頗不負責任的做法。
另外我想要強調一下,如果仔細看一下那個表格的最後一行,就會發現大部份的「生物醫學研究」,是被排在證據級距中,最低階的一級。所以網路上常常有一些基於某些特定論文研究,做出強烈論述的文章,譬如說反對基因改造食品,主張基改食品對健康有害的"科普文",他們在證據力上,其實是很弱的。這類單一研究論文的證據力之所以弱,有好幾個不同層面的原因,這個我們後面再做解釋。
關於證據等級,還有另一點我想要說明。
我們可以看到證據可信度最高的,不管在哪個領域,都是systematic review。Systematic review,和我們一般當研究生時,做的literature review,是不一樣的。它之所以叫做"systematic",就是因為它是依據一套有系統性的方法,來去做這個review的動作。這套方法,常常會包含meta-analysis這樣的統計技巧,而搜尋文章和納入的方式,也有其一定的標準。也就是說,並不是你把某幾個關鍵字打到PubMed, Google或其他資料庫裡,找到幾篇支持你論點的文章,就叫做systematic review。
對systematic review有興趣的朋友,可以閱讀這篇文章:What is a systematic review
所以當我們檢視證據的時候,最好的方法,就是去搜尋別人已經替你做好的systematic review,特別是那些有包含meta-analysis的systematic reviews那就更好了。這樣就可以省去自己做systematic review的麻煩,也可以直接用證據力最強的證據,來了解某個議題。
☛ ⟪實證醫學證據的解讀⟫
讓我們回到剛剛那個類風濕性關節炎的例子:
『今天有A和B兩種藥,可以用來治療類風濕性關節炎。我手上的證據顯示,70%的病人對於A藥有良好的反應,且副作用很低,但只有20%的病人會對B藥有反應,而且副作用還很嚴重,那我就可以推論說,在沒有其他證據的情況下,讓我的病人先服用A藥,應該是可以由這個證據得出來的最佳決定。』
這個是一個很標準的簡化版EBM決定過程。這裏客觀的證據顯示,對A藥有反應的病人,在比例上超遠超過對B藥物有反應的病人(70% vs. 20%),且A藥的副作用比較小。到這裡都還是事實陳述的部分。
在看到這個事實之後,我做的推論是,因為對A藥有反應的病人遠多過B藥,因此我手邊這個病人,對A藥有反應的機會比較大。且由於A藥的副作用較低,因此先嘗試A藥似乎比較合理。
這是一個看起來極為合理的推論,但是不要忘記了,這仍然是我主觀的推論,而不是客觀事實。我手邊的病人還是有可能是屬於那個對A藥沒有反應的30%,且可能他對A藥會產生少見而強烈的副作用。
舉這個例子,主要是要說明,雖然EBM是based on evidence的decision making process,但這個decision making process的動作,還是相對主觀的,也會受到我如何解讀證據的影響,因此,在做這個decision的時候,還是必須非常小心。
在理解實證醫學的概念時,一個一定會提到的觀念,叫做critical appraisal。簡單來講,critical appraisal就是利用systyematic的方式,去批判、評估某一特定證據的意義和強度(robustness),這和systematic review一樣,是有特定方法的,網路上也有很多資源可以讓你練習,譬如著名的CASP toolkit。
值得注意的是,critical appraisal很重要的一個環節,就是要從方法上去理解產生出來的證據,信度和效度如何,解釋力到什麼地方。透過這樣的方式,也才有辦法瞭解證據告訴你的到底是什麼,並做出相對正確的決定,達到EBM將醫療行為「最佳化」的目的。
接下來我就以潘建志醫師引用的那篇⟪The Lancet⟫文章當作例子來說明。
這篇名為⟪Drug harms in the UK: a multicriteria decision analysis⟫的文章,利用的方法,是找一群該領域的專家,針對20種藥,以16種評斷標準,用一種叫做multicriteria decision analysis的方法,作出評分。這16種標準,可以大致分為「對個體的傷害」和「對他人的傷害」這兩大類。
為了讓這16種標準的評分可以比較,他們將每一個項目的評分給予了不同的權重,讓他們可以放到同一個量尺上去比較。為了方便理解,我這裡舉個簡單的例子說明。譬如說,我們針對海洛英做評分,在「直接致使用者於死」這件事情上,他得到80分(滿分100,越高越嚴重),而在「令使用者喪失工作能力」上,則得到90分(一樣滿分100,越高越嚴重)。
但我們可以很直觀的認知到,這樣的評分有問題,因為「直接致使用者於死」的嚴重性,應該是高於「令使用者喪失工作能力」,所以「令使用者喪失工作能力」的90分,影響力應該低於「直接致使用者於死」的80分。這時候為了讓這兩個分數可以放到同一的量尺上相加,我們就給予「直接致使用者於死」比較高的權重,例如把「令使用者喪失工作能力」這項分數乘上0.7,這樣就可以讓各項的分數相加,做成下面這張圖:
由這張圖中我們可以看到,酒精是20種藥物之中,綜合加總分數最高的。尤其是他「對他人的傷害」這項分數特別高,在他72分得總分上佔了超過一半,甚至超過第四名安非他命的總分。
也就是藉由這張圖,讓潘建志醫師,在臉書上做出『醫學研究証實,酒精的危害總和遠勝任何毒品(見附圖,出自Lancet,剌胳針,國際最重要醫學期刊之一)。』這樣的結論。
但如果你仔細去看這篇研究的研究方法,他們在評估「對他人的傷害」時,是有把藥物的使用者數量間接納入考量的。而這就暗示了,在「對他人的傷害」這一項上面,藥物分數的高低,會受到當前各種藥物的"availability"影響。那些相對容易取得,使用者也多的藥物,在這項分數上面可能就會高,而這就會造成解讀上的困難。
舉例來說,當我們看到酒精對他人的危害遠高過海洛因時,其實有兩種可能性。第一種是酒精在使用人數上遠高過海洛因,同時在每個使用者造成的危害上,也高過海洛因。另一種可能,則是每個酒精使用者造成的危害只有海洛因的1/20,但是使用者卻是海洛因的100倍(數字我亂給的)。
也就是說,我們看到的那個數字,反應的是當前英國社會對各種藥物採取管制之後,達到平衡做出來的結果。而這代表的是,除非臺灣在藥物管制跟使用普遍性上,和英國極為相似,不然我們很難直接把這樣的結果套到臺灣社會上。
更嚴重的是,由於這個研究只有評估「藥物造成的傷害」,而沒有把藥物的好處納入計算,所以這其實是一個非常偏頗的評估,因為每個藥物,都會有其有益的部分,也有其有害的部分,這跟使用方式,還有藥物使用的劑量,都有關係。這篇文章因為把益處全都捨棄了,所以它評估的狀況,其實有一個"misuse"的預設前提。
舉例來說,像是酒精飲料,在合理劑量下,可能對健康有益,也可以帶來經濟成長和工作機會。這類的益處,也必須以EBM的方式放入評估,然後在cost-benefit上做一個平衡,才能夠真正客觀的知道我們現在的管制是否需要修正。
最後,也是最根本性的問題,在於潘醫師想要推動法案的理由,是想要降低酒駕造成的傷害。可是他並沒有夠好的證據指出,禁止廣告代言,會漸少酒駕。我們可能會很直觀地認為,如果廣告可以降低飲酒人數(這個假設同樣沒有證據),因此可以降低酒駕人數。但這樣的連結其實不夠強,至少絕不是這篇權威The Lancet論文有辦法支持的論述*。所以這並不是像潘醫師說得那樣,是醫學實證的結果,反而比較像是誤解了研究解果,並以之支持自己的信念,這是相當違反科學精神的做法。
*我只針對這篇臉書上的文章做反駁,而沒有納入他blog裡的其他研究文章,因為其他研究我載不到,但他在推論上的問題相當類似。
☛ ⟪單篇論文的證據強度⟫
前面有提到單篇論文的證據強度通常不足,可能會讓不少人感到訝異,畢竟這些論文,都是科學的結果。難道科學這麼不可信嗎?
在開始解釋這件事情之前,我先讓大家看一些數字。我手上的數據不夠完全,所以只能讓大家看個大概,不過還是可以讓大家對這個現象的"scale"有一個基本的概念。
在2011年一篇叫做⟪Retracted Science and the Retraction Index⟫的文章中,作者發明了一個叫做retraction index的東西(rate of retraction per 1,000 papers),來評估一流期刊的retraction rate,並將各期刊的retraction index和impact factor做成correlation,生出了下面這張圖:
我沒有很仔細的去看他的original data,然後去跑stats,但這個correlation不一定太有意義,大家姑且看之。重點在於你可以看到幾個極有名的期刊,他們的retraction index都很高,譬如Nature, Cell, Science,當然還有NEJM。
而根據一個叫做retraction watch的網站做的統計:
你可以看到retraction的絕對數字,其實是相當低的,某部分這也是我們對於科學還是相對有信心的理由。不過這些都是所謂"highly renowned journals",所以我們還是認為這不是一個太好的數字。另外沒被retracted的papers,並不代表結論就是正確或結果能夠被重現的。另一個不好的消息是這幾個top journals的retraction rates都是在往上走的,很多人都把這視為一個警訊:
此外現在因為open access journals大行其道,很多rubbish papers會被pulished到上頭,可能根本沒人看,也沒人想要嘗試重現他們,當然也不會被retracted,所以這個現象還是引起了不少重視,譬如Nature自己就有針對這個議題寫新聞:
而諾貝爾獎得主Randy Schekman也針對這件事情投書過,表明將杯葛這些top journals。
⟪How journals like Nature, Cell and Science are damaging science⟫
⟪How journals like Nature, Cell and Science are damaging science⟫
這類對於retraction問題的重視,對增加科學的品質,還有證據的強度,都很有幫助,所以某種程度上,科學研究的文章,還是相當有價值。
那麼為什麼這些科學研究文章,在Oxford Centre of EBM的分級裡面,會位在最底層呢?這其實和scientific method和stats的本質有關。接下來的文章,我會針對這個部分做比較詳細的解釋。
Evidence-biased misunderstanding (2) --- the intrinsic weaknesses ofstats and science
Evidence-biased misunderstanding (3)- individually weak, collectively robust
Evidence-biased misunderstanding (2) --- the intrinsic weaknesses ofstats and science
Evidence-biased misunderstanding (3)- individually weak, collectively robust