Note:

因為blogger會有很多廣告留言,所以我有設留言管制。大家留言留一次就好,只要不是廣告,我都會定期去後檯把留言給撿回來。

造成麻煩還請大家多多見諒。

2013年5月19日 星期日

Corporal punishment- who grants you the right?

這陣子什麼老爸打女兒然後把照片放到facebook上、推行愛的教育不體罰導致老師難以管教學生以及在禁止體罰之後小孩子愈來愈沒禮貌的消息在網路上引起廣大網友的注目,正反兩造立場的辯論也進行得如火如荼,格主就在這裡跟風一下,說說自己的看法。

同樣的一件事情,通常都可以由好幾個不同的切入點去看。而由不同的角度去看,也就會引領出不一樣的討論內容。譬如在那個老爸打女兒的例子裡,有些人關注的是把照片上傳到facebook公開這件事,也有人不認同的是爸爸體罰女兒的理由。不過這些都不是格主今天這篇文章想要討論的重點。格主沒有小孩,自然也不曾有教育小孩的親身經歷,所以對於我們應該要怎麼教育小孩以及父母體罰小孩時的心情體會都不深刻,因此雖然格主對體罰學生與小孩有自己的看法和立場,但我並無意針對這些議題進行討論。

真正激發格主寫這篇文章的,是在格主看了好多網友的討論之後,於許多父母、長輩和老師的字裡行間,看到對於自己可以體罰小孩、晚輩和學生的那種「理所當然」。

記得以前看Steve Jobs的訪問,Jobs曾說過,在business上,有很多事情都是「因為以前的人這樣做,所以我們現在這樣做」,但做的人其實也不知道為什麼要這樣做、不知道這樣做的優點與缺點,自然也就不會知道改進的方法。而在體罰這件事情上,很多人的態度與想法也是這樣,因為以前老爸老媽就是這樣體罰我的、因為以前我就是這樣被老師從小打到大的、因為以前長輩就是這樣揍我的,所以我現在也這樣做。至於為什麼要這樣做?這樣做有什麼效果?還有最重要的「為什麼我有權力這樣做?」則從來不曾被好好思考過。

因此,我們會在網路上看到類似「做得好!小孩子不乖就是要教訓!」、「這樣的學生就是欠揍!」、「現在的小孩就是因為沒有體罰所以才這麼沒禮貌」這樣的言論。可是你仔細想想,就會發現這些理所當然的言論背後,其實並非那麼有道理。而這又可以分成兩部分來討論。

首先,讓我們先來思考「到底是什麼賦予父母/長輩/老師打小孩的權力」這件事。

在這個blog裡,格主曾不止一次的表示過自己對於中華文化中的階級制度極度不滿,其中一個很重要的原因就是這樣的階級制度會賦予某些人可以不尊重其他人、侵犯他人人權的權力。舉例來說,因為我們的倫理制度,所以我們會很自然的覺得父母和長輩擁有體罰小孩及晚輩的權力,同理,也因為我們尊師重道的道德觀,因此我們會很合理的覺得老師有體罰學生的權力。

可若你進一步去想,當你理所當然的覺得某些階級的人擁有傷害他人的權力時,是否也就意味著你認為身處高位的人擁有侵犯低位階者的權力呢?是否這也意味著,小孩、學生和晚輩,在中華文化中,是不俱有人權的呢?

格主並非不認同老師和父母因為身份的關係,可以擁有某些權力去限制小孩和晚輩的行為。例如當你的小孩今天要去無人管理且常有暗流與瘋狗浪的海灘玩耍,身為父母,你當然應該為了小孩的安全著想,試著向他說明這種行為的危險性,並告訴他你反對他去海灘玩耍。可是這樣的權力所要達成的目的應該是「保護」而非「傷害」。這條線如果不能被緊緊的踩住,那麼我們就很難把那條劃在「教育」與「侵犯」之間,已經很模糊的界限給看清楚。舉個極端一點的例子,如果老師理所當然的可以打學生,那為什麼總統不能理所當然的下令監禁人民?那個可以與不可以的界限到底在哪裡?如果我們認為人民擁有人權、總統只是個職務,職務以外和其他的人民一樣,都是社會的公民、都享有一樣的權力,也一樣應該被尊重,那憑什麼你認為學生就不應該和老師一樣擁有人權?不應該一樣被老師尊重而不被侵犯?

或著我們反過來講,如果站在「學生是來向老師學習知識,除此之外一切對等」的觀點來看,倘若老師有權在學生犯錯時體罰學生,那學生是否也理所當然有權在老師犯錯時體罰老師?對於這樣的說法,想必這個社會上幾乎沒有人會接受。如果是這樣,為什麼我們就可以這麼理所當然的接受老師可以體罰學生的想法?同樣的道理,父母教育小孩,如果是站在尊重小孩是個個體的立場,或許也該捫心自問,到底自己憑什麼有權力去體罰小孩。

更有甚者,由於父母之於小孩以及老師之於學生的特殊利害關係,小孩和學生很有可能對來自父母與老師的要求是無力抵抗的,因此我們在處理這種事情的時候,其實應該更加小心才對。對於這類特殊的利害關係,在格主念書的地方有個特別的詞去定義它,叫做"susceptible groups"。在這裡,政府為了保護susceptible groups,對於很多行為都有做特別的規範,而supervisor和各層級的學校行政人員,也對這種事情特別敏感。

舉個例子來說,格主之前和同學一起去ward觀摩,看一看organiser就說如果我們想要學習ECG的實際操作,他可以安排我們對自己進行ECG。我們討論了一下,覺得應該滿有趣的,於是就請organiser安排時間讓我們進行實作。Organiser聽了就很慎重的拿出了consent form,然後向我們說明這個ECG拿到的data不會被拿來做除了現場教學之外的其他用途,另外做ECG的人有權力要求其他人不可以看他的data,以及我們每個人都有權力拒絕在自己身上進行ECG等等。

為什麼organiser對於我們自己要求的實習課程要這麼慎重其事的進行informed consent呢?

因為我們和organiser的師生關係,學校擔心我們會感到不得不答應任何organiser要求的壓力(畢竟分數掌握在人家手上),所以對於這類的事情有非常嚴格的規定。

另外一個很好的例子是抽血。由於研究需要,我們常常會用到healthy donor的血液,有時候貪圖方便,就會想要抽自己的血。但實際上學校方面是禁止這種行為的,原因也是在於學生和superviosr的特殊關係(能否畢業掌握在人家手上),因此他們要刻意保護學生,以免學生因為不敢拒絕supervisor的要求而捐血,因而身心受創。一間學校對於保護學生不要受到傷害都做得如此仔細小心,父母對小孩的體罰又怎能來得如此理所當然?

第二個部分則是關於體罰的目的。每當格主開始質疑父母與老師擁有體罰權力的正當性時,往往都會得到「不然如何管教小孩/學生」這個答案。先不提這個回覆並沒有辦法回答格主的質疑,即使我們順著這個問題去想,都會想出很多蹊蹺來。

既然會有「不然該如何管教?」這樣的疑問出現,我們可以很合理的推測在這樣說的人心中,體罰是一種有效的管教方式。可是這樣理所當然的想法,卻未必有任何的依據。以格主自己來說,我從小就是一個非常不聽話的小孩,在學校被老師打、在家被父母打,次數從來沒少過。光是這一個一直被打的事實,就足以當做體罰無效的supportive evidence了,不然何須一打再打?打過一次,就該乖得不像話了啊。

更重要的是,格主一直認為父母/老師之所以和孩子/學生有所謂的「特殊關係」,很大一部分是來自前者對於後者俱有教育的責任。

既然是教育,那就要想辦法讓孩子/學生明白犯錯的原因,使其了解該如何處理犯錯的結果,而不是讓孩子害怕犯錯本身,或著害怕犯錯所帶來的處罰。而這也正是體罰很可能無法達到目的的原因。以格主小時候的故事為例,以前爸媽出去要格主在家裡念書,結果格主在家逮到機會就猛看電視,書一個字都沒讀,爸媽回來被抓包,也是會被揍。但揍完以後,學到的只是下次要怎樣偷看電視才不會被抓包,而不會是下次要好好念書。

同樣的情況在學校也一樣在發生。格主讀國中時,班上的導師規定我們下課不可以去福利社買汽水喝,格主直到今天都還搞不懂,福利社既然都賣了汽水,為什麼我們不能去買來喝?不過每次向班導抗議,從來也不曾得到個答案。

那個時候格主一天的零用錢才20元,每天去學校除了想著要打籃球和捉弄班上同學外,就是在盤算要怎麼花這20元。當時學校正在流行喝一種有氣泡和水果香味的汽水,冰冰涼涼甜甜的,非常好喝。問題是喝了以後嘴裡就會有果香味,班導一聞就知道,而被班導知道了,就免不了會被愛的小手(把這麼惡劣的東西取了一個這麼矯情的名字,還真是噁心)或熱熔膠管打手心。但這並沒有阻止我們下課去買汽水的行為,我們要不是想盡辦法避免被班導發現自己喝汽水,就是乾脆擺爛喝完以後隨你打。像格主這種比較俗辣的,則是整天在觀察今天班導帶到班上打人的是哪種工具。椅子拆下來的木條最不痛,可以痛快暢飲,愛的小手有點痛,一次要喝個兩瓶被打才划算,熱熔膠最痛,那天得忍耐一點,掃地時間不要掃地,偷跑去福利社買回來,等放學再喝。結果搞了老半天,格主也沒有學會不要喝飲料,只學會了整天觀察計算怎樣被罰才最經濟實惠。

也就是說,體罰這種行為對很多學生,其實不一定是有效的。而且很多時候即使你成功的以疼痛抑制了學生或小孩的某種行為,他們其實也只是對避免疼痛這件事作出反應,而不是真正明白為什麼這個行為是不對的,就好像格主從來沒有搞懂為什麼不可以喝汽水,只知道喝汽水被揍會很痛所以要小心一樣。

對於格主而言,這並不是一種教育。如果體罰只是要壓抑小孩的某種行為,讓他們表面上看起來很順從聽話,卻不知道為什麼要順從聽話,沒有自己思考與辨思的能力,這樣的行為充其量只是大人們為了方便、為了耳子清靜、為了容易管理小孩以及為了展現自己的權威而使用的恫嚇手段罷了,與教育根本沾不上邊。這種行為在格主眼中,和獨裁者為了維護自己的政權、為了方便統治,因此以嚴刑厲罰管控言論自由,逼反對者噤聲,其實只有一線之隔。

此外,每當格主聽到父母說小孩的某種行為讓我生氣,所以我打了小孩的屁股,或著老師說他快被學生氣死,然後拿起愛的小手把學生痛打一頓,格主都會很好奇,到底現在這個體罰的行為,真的是為了大家口口聲聲說的教育目的、是為了要教小孩,還是只是大人們管控不住自己的情緒,因此把情緒發洩到小孩身上?如果是後者,這和一個丈夫因為老婆菜燒壞了,一時管控不住自己的情緒而把老婆痛揍一頓有什麼不一樣?為什麼我們對於丈夫打老婆如此反感,對父母打小孩、老師打學生就這麼通融?

像這樣的事情,在格主看起來,是很複雜且很需要時間去好好思考的。可是格主現在在這個社會上比較常看到的,卻是父母或老師理所當然,想也不用想的說小孩打了才會乖,或著說現在的學生就是不能體罰才會這麼不聽話。這在格主的眼中,是個很嚴重的問題,因為這代表了我們會把一個很可能是錯誤的,或著至少是無效的陋習一代又一代的傳遞下去,讓自己身上受到的傷害重複發生在下一代身上。

毫不思考的後果是很可怕的,毫不思考的重複陋習,讓它變成一種習慣,讓它在不知不覺間扭曲我們的價值觀則更是可怕,而且這件事已經在我們的社會上發生很久了。

記得在格主國中的時候,我們班上還有那種老師會規定你每次考試要考到幾分,少一分就打一下的制度。格主印象很深的是當時做這個規定的老師打人超大力超痛的,所以我們都很怕被打。可是國中生皮得不得了,整天貪玩,總是會有書沒好好念的時候,且即使好好念了,也是會遇到粗心大意寫錯的情況,因此每次發考卷,一定都會有一堆人被打。

那個時候我們班上排座位是按照成績來排,坐在第一排的六個還七個學生,就是班上段考排名的前六(七)名。格主國中時念得不是人情班,班上同學又皮又愛玩的不在少數,因此格主雖然非常不愛念書,但每次段考考完排座位,總是會留在第一排。而老師對第一排的學生要求又總是特別高,常常都是規定要考個什麼95分之類的,沒到就是少一分揍一下。然後如果哪天不小心考了100分,下次退步一樣是少一分就要被揍一下,也因此常常會出現第一排的學生被揍得特別慘的情況。

久了以後,固定坐在第一排的幾個學生,慢慢也都明白了被揍是無可避免的事情,也就逐漸習慣了每次這個老師發考卷,就是要被痛揍的事實,後來甚至在這之中找到了一些樂趣。

那時候班上有個比較臭屁的同學,也總是坐在第一排。大家特別喜歡看他一臉臭屁結果沒考到標準,被老師痛揍的樣子。所以後來每次輪到他被打,大家都像是在看一場表演,歡呼、鼓噪,然後看到那個同學被揍,痛得哇哇亂叫的樣子,大家都笑得特別開懷。

當時格主肯定是笑得最大聲的其中一個。

本來這事我也忘了,是後來長大了,有次開同學會時同學講起這事,我才又想起來。同學會時大家笑得開心,我卻只覺得噁心。

到現在,我都還記得那個老師打人有多痛。是痛到如果你要被揍三下,每一下之間他要讓你休息一陣子,先打別人不然你會受不了的那種痛。是痛到你要在同學鼓噪說「不要那麼俗辣好不好!」、「幹,你娘們喔!」,才有辦法為了面子鼓起勇氣把手伸直給老師打的那種痛。是痛到你會在老師把棍子揮下來時,出於本能的把手往下閃,讓老師要一次又一次重打的那種痛。而這一切,居然都只是為了考卷上的那三兩分。

不過這還不是讓我感到噁心的。真正讓我覺得噁心的,是我們居然在那麼小的時候,於潛移默化間,習慣了laugh at other's suffering這件事。這是多麼扭曲的心態,可是卻被掩蓋於體罰的理所當然之下,而變成了一個同學在多年後講起來仍然覺得好笑的笑話。

這就是格主覺得我們把體罰這件事情想得如此理所當然,如此不加思考就將之付諸實行的可怕之處。就像格主在以前的文章提過的,這社會上很多真正嚴重的問題, 都是因為我們太習慣、太覺得理所當然,因此就變得看不到了。甚至有很多問題,正是因為我們習慣了去忽視它,所以才會變成如此嚴重的問題。

記得這次Malaysia的選舉醜聞爆發之後,格主一個來自Malaysia的朋友在臉書上發表了一篇文章,主要的內容是希望他的同胞不要因為失望就不再關心Malaysia的政治議題。她說,如果我們繼續關心,繼續用行動去表達我們的不滿,我們就還有機會成功。那些以不正當手段獲得選舉勝利的人,真正希望的是大家失去faith,因此對政治變得冷感、因此不再關心這個議題。而當我們不再關心,久了,就會開始忽視它的存在,就會對政治現況感到理所當然,這個時候,我們才是真正的輸了這場戰爭。

格主覺得這位朋友說得這段話非常有道理,而且不只是在政治議題上如此,在社會議題上也是如此,用到現在這個體罰的議題上,更是非常貼切。

我們現在面臨的問題,就是有太多人對體罰的存在感到理所當然,因此長期漠視「到底為什麼我們有權力執行體罰」這個問題,所以衍生出來的人權問題、心態的扭曲才會這麼嚴重。

也許當我們開始願意在體罰學生與小孩前多想一下,想一想自己為什麼有權力這樣做、為什麼要這樣做以及這樣做有什麼效果,這個社會對於體罰的態度與人權的價值,會有很不一樣的想法吧。

2013年5月5日 星期日

相信自己

前陣子台灣因為H7N9的事情鬧得沸沸揚揚,主要就是有位網友上網爆料台灣已有第一起案例的消息,因此要被疾管局開罰五十萬,這件事情讓大家在網路上吵成一團。

格主無意在這裡討論疾管局是否說謊或隱匿疫情,所以對這部分有興趣的朋友麻煩移駕千羽宗次郎的科學小窩,自己做判斷。

我想講的,是一些更基本的事情。

在這次該罰與不該罰的爭論當中,格主看到不少認為應該開罰的網友,以「一般民眾沒有能力判斷資訊真假」以及「醫療與防疫為專業領域」為由,認為我們應該要把發佈資訊的權利交給疾管局,並因此認為散佈謠言或搶在疾管局之前發佈情報是不被允許的行為,所以疾管局開罰合理。

這個論點是在所有論點當中格主個人最不喜歡的一個,因為它反應出了我們依舊習慣將自己的思考與判斷能力交給少數人,然後自己偷懶跟著走的習慣。但是持這個論點的人都忘記了,這些少數人也可能會犯錯,甚至可能充滿惡意。SARS時政府處理上的差池以及其他政府不論何種原因做出錯誤決定的情況三不五時上演,而政府製造的麻煩比解決的問題還多也早已不是新聞,在這樣的狀況下還能夠這麼大剌剌的選擇放棄自己去瞭解事情的權力,讓政府替你決定疫情的狀況,這種勇氣實在非常人也。

如果你這麼輕易地就把自己思考與瞭解事情的權力交給他人,我們的民主是不可能真正成長茁壯的。一個習慣把搜集資訊、思考消化和做出判斷這個過程交給別人代為處理的族群,即使有了投票權,也只不過是一群被操弄的投票機器,今天會因為不了解防疫和醫學而讓疾管局壟斷資訊並犧牲言論自由,明天也許就會因為不了解國際情勢和如何維持國內安定,而投票讓政府實施戒嚴。

更好笑的是,這些人口口聲聲說「一般民眾沒有能力判斷資訊真假」,講得好像自己不是一般民眾一樣。自己假定了一個一般民眾沒有判斷力的前提,昭告天下自己是無能的,然後把本來屬於自己的權力理所當然的交給少數人去統一處理,這麼貼心的宣言,還真是中華文化燃燒自己照亮別人美德的完美寫照。

話又說回來,如果說問題真的是出在民眾沒有判斷能力,針對這件事情管制言論自由和限制資訊透明流動,聽起來也不像個解答。舉個例子來說,今天你的小孩沒有英文能力,你會因此禁止他看英文報導和禁止他跟Americans/Britions接觸嗎?

不會吧。你會做的事情,應該是教他英文,讓他更多更頻繁的接觸英文,讓他有機會認識native speakers,讓他常常和English speakers聊天,因此習慣說英文這件事。

同樣的道理,就算所謂的一般民眾沒有判斷能力,那我們應該做的事情就是即刻開始讓他們培養這個極為重要的能力。由多接觸公共議題開始,學會接收資訊、處理資訊然後思考判斷,這樣下次再遇到同樣的事情,民眾才會有判斷能力,也才能真正阻絕那些總是在網路上流傳,什麼洗沐浴乳會致癌、Nobel Prize超過一半是Germans拿的和H7N9病毒基因3個已移位,再移一個就人傳人這類狗屁不通的留言(BTW,最後一個是「新聞報導」,不知道寫出這種新聞的傢伙要不要罰五十萬?)。

事實上也就是因為一般大眾的族群夠diverse,只要言論夠自由,資訊夠透明然後訊息流動得夠快,這些消息一定會有遇到專家的一天。一般大眾裡會有醫師、會有流病博士、會有法律教授臉書戰神李茂生老師這些人。他們只要有格主一半雞婆,就很可能會願意跳出來糾正這些事情,然後讓正確的觀念散播出去。更何況像H7N9是否已在台灣有第一例這麼容易明白真偽的事情,怎麼會認為一般民眾沒辦法學會如何思考判斷呢?

講到底,這還是一個長久歷史文化熏陶下的產物。我們還是希望有個賢君、能人來帶領我們,而不是自己把責任扛起來。可是既然你是活在一個民主國家,認同民主的價值,就應該自己把這個責任給扛起來,去關心、理解這些事,而不是一句「一般民眾沒有能力判斷資訊真假」就把責任丟給政府。

退一萬步來講,開放民眾在網路上發佈疫情的相關消息,最差也不過是讓大家接收到錯誤資訊,但不論是政府或著真正的專家,都還是有機會出來糾正這些錯誤資訊,而且疾管局也還是可以繼續做他們防疫該做的事。但如果我們把資訊散佈的權力全交給疾管局,一旦疾管局犯錯(不論有意無意),由於沒有任何人有資訊,我們根本不可能得到正確的資訊,也不會有辦法去應變處理。

在這樣的情況下,與其相信政府,我認為相信一般民眾、相信自己,才是真正的硬道理。

2013年5月4日 星期六

Sensitivity, Specificity and Drug screening

是說前陣子在和朋友討論一篇關於cancer screening test的文章,裡頭提到該test sensitivity只有大約60%的問題,那個時候我一直在argue這個sensitivity太低,而且從報導中我們不知道specificity,所以無法判斷這個test有沒有用。

然後昨天又和網友討論到全面尿篩的事情,從人權觀點講到Bayes' theorem,在討論當中帶出了一些關於設計screening test的概念,我覺得滿值得拿出來討論的,不過很多東西在討論時你一言我一語的,很難有個完整的架構,不如直接寫成文章來得清楚,所以就稍微整理一下,把格主的想法整理成一篇文章,看看能不能釐清一些概念。

在開始之前,我先稍微定義一下這篇文章中最關鍵的兩個詞:sensitivity和specificity。

在一個binary classification test中(test做出來的結果只會被分為兩類,例如有或沒有,黑或白,好或壞之類的,為方便說明,之後一律以positive和negative兩種分類來說明),sensitivity指得是【在此一population中,真正為positive的samples有多少比例可以被這個test正確的identified出來】。舉例來說,如果一個母體為100人的population中,有5個人是true positive,但這個test只抓出了4個,那麼這個test的sensitivity就是0.8,用數學去表示的話就是:

Sensitivity = 4/(4+1)%=80%

這裡我特別把5拆成4+1去表示是有用意的,這個等等會提到。

接下來我們換個角度去想。如果說今天我們已經知道一個test的sensitivity是80%,而在一個population中,有100個true positive samples (regardless the population size),這時候我們拿這個test去跑,就會成功的identify 80個true positive samples,而另外20個會被這個test給漏掉。這漏掉的20%,我們會稱之為missing rate(雖然是positive但卻漏掉沒被抓出來的)反過來說,那80%被抓出來,就被我們叫做true positive rate。

接下來重點就來了。

很多人會在這裡很直觀的想說,既然80%是"true positive rate",那剩下的那20%就是所謂的false positive rate了。

但如果你從定義上去思考,就會發現這個完全錯誤的推論。所謂的false positive,指得是【negative samples卻被判定為positive】,所以這個positive result是假的,因此我們才會把它叫做"false" positive。同理,false negative則是【positive samples被判定為negative】,所以才會說這個negative是假 (false) 的。

好,現在我們再回頭去看前面那個例子裡那20%的missing rate。

這20%的missing rate是『沒被identified出來的positive samples』,也就是說他們是被判定為negative,但實際上他們卻是positive samples。因此按照上面的定義來講,這20個samples應該是false negative,那20%的missing rate則是false negative rate才對。

如果把這個概念用一個簡單的等式來表示,那就是:

1-sensitivity = false negative rate

所以sensitivity的反邊,是false negative,從sensitivity中,你無法得知任何與false positive有關的資訊。

這個時候讓我們再一次回頭,去看看上面那個被我故意拆成 (4+1) 的5。

在那個例子裡,我說一共有5個true positives,而其中有4個被我們的test identified出來,所以sensitivity是:4/(4+1) 。這個(4+1)裡的4,是"被identified出來的true positive",而那個1,就是所謂"沒被identified出來的positive",也就是被認定為negative的positive。所以,這個1,就是false negative的數目。由這裡我們就可以很輕易的得到結論:

Sensitivity = (identified true positives) /[(identified true positives) + (false negatives)]

用了這麼多不同的方式來表示sensitivity這個概念,目的就是希望不論你是習慣靠直觀去理解事情,還是習慣靠數學去理解事情的人,都可以真正明白sensitivity這個概念是在說什麼。

接下來,我想用一個很簡單的例子來說明很多人對sensitivity的一個誤解。

假設今天我們使用一個sensitivity為80%的test去測試某個population,然後得到100個positives。這個時候我們可以說,因為此一test的sensitivity為80%,所以這100個positives裡頭有80個為true positives嗎?

很顯然不行。首先,按照上面那個sensitivity的公式,我們根本找不到足夠的條件可以帶進去算出true positives。另一方面,如果你用直觀去理解,假設這80個真的是 identified true positives好了,那剩下的那20個就應該是"false negatives"才對(1-sensitivity = false negative rate),可是很顯然的那20個並不是false negatives,都被驗出來是positives了,頂多也就是false positives,不可能跟negative再有任何關聯不是嗎(別忘了false negative的定義是驗出來是negative但其實不是)?

由這個例子和上面那一大串的解釋,我想大家應該開始會有一個sense:

【Sensitivity的高低和false positive rate無關】。

以剛剛那個例子來說,就算你用的test sensitivity是100%,但你還是不知到你驗出的那100個positives裡面有多少個是false positive,你只知道這個population中所有的true positives都一定會被這個test給找出來,至於這個這個population裡頭到底有100個、80個還是25個positives,你是無法透過sensitivity來檢驗的。

因此,當我們想要在一個population中找出真正的positives時,選擇sensitivity高的test並不是一個好的辦法,因為你永遠不會知道你得到的結果中有多少比例是false postives。

反過來說,由於我們知道highly sensitive test測出來的結果"false negative rate"非常低 (1-sensitivity = false negative rate,when sensitivity ➝ 1, false negative will ➝ 0) ,所以我們可以很有信心地說,一個highly sensitive test測出來的negatives,有非常非常高的可能性是true negatives。

因此,我們可以說一個highly sensitive test其實是比較適合用來"exclude positive results"的。舉例來說,你用一個sensitivity 99.9%的flu test做出來是negative,那我們可以很確定的說你幾乎不可能患有flu (false negative rate=0.1%),但如果你測出來是positive,其實我們並不知道你是不是真的患有flu。

有了這樣的概念,那我們就知道high sensitivity test可以用在哪裡了。

它可以用在我們不care false positive但是非常concern false negative的時候。例如像這篇文章開頭提到的那個cancer test。如果是當作一個初步的screening test來使用,我們並不會特別在意病人驗出來的結果是false positive,因為這只是一個初步篩檢,篩完之後如果呈現positive result,顯示該受試者有cancer,我們還可以用其他方法做進一步的確認。但是在這個case裡面我們非常concern false negative,因為這意味著有實際上患有cancer的patients沒被檢驗出來。在這樣的情況下,一個highly sensitive test就會很適合用來做這樣的screening。不過那篇文章中所用的test sensitivity只有60%,而這就意味著false negative rate會是40%,以一個screening test來說這個比例實在是太高太高了。

這時候很多人腦海中可能會開始出現這樣的疑問:「那如果情況反過來,我們這時候concern的是false positive,而比較不care false negative,那該怎麼辦呢?」

這樣的情況在真實世界當中也是常常會遇到的,譬如說第一段提到的尿篩,一個false positive很可能會害一個人莫名的吃上官司或著被老師同學認定為有吸毒的壞學生,這樣的結果有多devastating我想應該不難想像。

這裡,就是輪到specificity出場的時候了。

在這邊,我打算利用上面大家對false positive的瞭解,用反著推回去的方式嘗試讓大家明白specificity是什麼東西。

首先,既然false positive rate是【negative samples卻被判定為positive的比例】,那麼如果我們將所有驗出來為negative的samples扣掉false positive,那剩下的就是成功的被identified出來的"true negatives"。一樣用數學去表示的話就是:

1-false positive rate = true negative rate

或著我們可以把它改寫成:

1-true negative rate = false positive rate

然後在這邊,我們就把這個成功identify negative的比例,也就是"true negative rate",稱為是specificity。是以上面那個式子又可以改寫成:

1-specificity = false positive rate


所以如果一個population中有5個true negatives,其中4個被某個test給identified出來,那麼我們就可以說這個test的specificity是:4/(4+1),而這時候這裡的1,就是false positive的數目。

因此,若改成文字敘述的話,我們可以說specificity其實就是【用一個binary classification test測試某個population時,在此一population中,真正為negative的samples有多少比例可以被這個test正確的identified出來】。

和sensitivity那個case裡一樣的是,雖然specificity是個以identify negatives來定義的概念,但他和false negative完全無關,所以今天即使有一個test的specificity是100%,然後他identify出來了1000個negatives,但其實我們並不知道這裡面有多少是false negative。

不過因為highly specific test的false positive rate一定很低,所以這個test測出來呈現positive的samples,極有可能是"true positive"。在這樣的情況下,當你看到這個high specificity test測出來的結果是positive的時候,這個result其實是相當reliable的。

一樣來個簡單的例子,一個specificity=99.9%的test,如果測出來是positive,由於false positive rate只有0.1%,所以我們可以很有信心的claim這個sample非常非常可能是true positive。反之,如果這個test測出negative result,因為我們不知道false negative rate,所以我們並不知道這樣的result到底有多麼reliable。

如果上面這些對於sensitivity和speficity的解釋都能瞭解的話,我想讀者應該就會開始建立起下面這個觀念:

【我們永遠無法利用一個test去確定一個sample是positive或negative,但我們可以用highly sensitive或highly specific的test去盡量排除某個sample是negative或是positive的可能性】。

也就是說,我們永遠只能"反過來做",嘗試rule out一個sample是positive或negative的可能性。

這個過程其實跟所謂的scientific process很像,我們永遠無法證明一個hypothesis是對的,所以我們嘗試用各種方式推翻它,如果都失敗的話,就讓這個hypothesis成為一個theory。同樣的,我們永遠無法證明一個sample是positive的,但是我們可以利用它非常非常可能不是true negative,所以說宣稱他是positive。

又或著你可以用stats中的取樣來想,以一個normally distributed population來說,如果今天你手上的sample放進這個distribution後的位置位於兩個standard deviation之外,那你就可以說因為這個sample的值很極端,所以他來自這個population的機會非常低,因此你可以主觀的說這個sample很有可能是來自另外一個population。

倘若這樣的觀念建立起來的話,我們就可以進入這篇文章的最後一個主題:【Bayes' Theorem and drug screening tests】。

基本上Bayes' Theorem就是一個conditional probability的概念。很簡單的說,conditional probability就是在處理假設今天有A和B兩事件,在A先發生後B發生的機率或著在B發生後A發生的機率這類的事情。而Bayes' Theorem基本上就是在處理這樣的事情,嘗試把A發生的機率、B發生的機率、在B已發生的情況下A發生的機率以及在B已發生的情況下A發生的機率之間的關係用數學式子給表示出來。

Bayes' Theorem的詳細討論並不是這篇文章的重點,所以大家只要對這東西有個大概的概念就好。重點是Bayes' Theorem可以用來計算這篇文章開頭提到的驗尿問題,看看我們使用的test到底有多準確。

在這裡我直接引用wiki的例子來說明。

簡單講,假設今天有一個drug test的sensitivity和specificity都是99%,然後在這個population中有0.5%的人是真正的drug users。在這個情況下,如果我們隨機在這個population裡挑一個人(不知道他是不是drug user)來做這test,那這個人既是user又會被驗出來是positive的機率是多少?

然後我們就按照Bayes' Theorem的公式去算,就會算出大約有33.2%的人會被驗出來成positive的嚇死人結果。

這是怎麼回事?怎麼一個highly sensitive and highly specific test會不準成這樣呢?

在能理解這件事情的問題到底在哪裡之前,我們必須對於Bayes' Theorem為什麼會算出這樣的數字有一定程度的理解。但一來解釋數學不是我的專長,二來用數學解釋一定有很多人會看不下去,所以這邊我會用一個比較直觀的方式解釋,這也是在我不知道Bayes' Theorem之前,自己理解這件事情的方式。他很簡單,是屬於那種你自己靜下來想一想就能察覺到問題在哪邊的一種方式。

我一開始的想法是這樣的:如果sensitivity和specificity是一個"percentage",那就代表不管percentage的高低,我們都有可能拿到一個極大或極小的absolute number。舉個例子,如果說坐太空梭旅遊的死亡率是100%,而坐飛機旅遊的死亡率是20%,但是每年做太空梭的人只有100個,而坐飛機的人有10000個,那麼其實每年因為坐飛機死掉的人會是坐太空梭死掉的人數的20倍 (100 vs. 2000) 。因此,如果我們今天處理的兩個sample pools差距太大,就會發生小pool被大pool的數字給汙染的狀況。

把這個例子套回到sensitivity和specificity上,由於今天上面那個例子的假設是drug users只佔5%,比較起來和non-users實在太小,所以就很容易被來自non-users的數字給汙染,即使這個test再準也一樣。

譬如說今天我們的population共有1000人,那麼drug users就有5人,而non-drug users則有995人。這5人裡面,有5×0.99 (sensitivity) =4.95人會被驗出來成positive。但是在non-drug users中則有955×0.01 (false positive) = 9.55人會被驗出來成positive。因此,在這些被驗出來呈現positive的人裡面,真正是既是user又被驗出來是positive的機率只有4.95/(4.95+9.55)=34%。上面那個Bayes' Theorem的例子,基本上就是用數學公式去解釋這個情況而已,所以算出來的答案當然也就和我們這樣推想的差不多。

所以你可以很清楚的從這樣的例子裡看到,雖然9.55相對於955是個極小的數字,但和5相比起來還是太大,所以即使今天這個test是100% sensitive也沒用,他做出來的結果還是會被false positive過大的absolute number給汙染,導致整個test非常不精確。由此,我們就可以得到一個很簡單的結論:

當一個population中true positive samples存在的比例很低時,一個test不管sensitivity和specificity再高,測出來的positive結果,都是很不精確的】。

這就是上面那個Bayes' Theorem的例子想要表達的東西。他在數學上是完全正確的,可是在實務上,這個問題是可以很輕易地被避免的。怎麼說呢?

還記得我前面說的【我們永遠無法利用一個test去確定一個sample是positive或negative,但我們可以用highly sensitive或highly specific的test去盡量排除某個sample是negative或是positive的可能性】這個概念嗎?

如果按照這個概念去推論,你就會知道如果你想要focus在positive sample,你要做的應該是盡量排除這個sample是negative的可能性,而不是嘗試證明他是positive。

所以對於上面那個狀況,我們應該換個角度去做假設。我們把重點放在這個population中有95%的人是non-users,然後在所有的non-users中,會有99% (specificity) 被identified出來。這時候,會被identified出來的non-user就是995×0.99=985.05人,而users中會被判定成negative的則有5×0.01 (false negative) =0.05人。

在這樣的情況下,我們就知道被驗出來是negative的人中,真正是negative的人有:985.05/(985.05+0.05)=0.999,也就是99.9%。因此,我們可以非常確定說99.9%的negative results是genuine negative,而測出來不是negative的samples是false positive的機會很低(false positive rate只有1%)。加上在一個binary test中,結果不是positive,就是negative,所以我們可以說這個不是negative的sample非常可能就是positive

但是別忘記這1%也是比例,放到超大的population裡面還是會有相當數量的absolute number,這也就是為什麼我們要複驗的原因。假設A test的false positive rate是7%,B test的false positive rate則是5%,那麼一個negative sample連續兩次都被判定為positive的機率就只有0.07×0.05=0.0035,也就是0.35%。因為這個情況發生的機率真的很低,所以我們就會主觀認定這個sample是positive的了。

由這樣說明之後,各位應該就會很明白,這類大規模的screening test,其實最適合還是用來【說明學生沒有吸毒】這件事。用來說明學生有吸毒還是可以,甚至可以focus在排除negative上,以複驗來增加【因為不是negative因此判定為positive】的信心,避開前面Bayes' Theorem那個例子的問題,所以實際執行上,還是會有一定效力的。

但是不要忘記了,我們還是永遠無法確定該生是否真的有吸毒,而且現實生活中的尿檢不論在sensitivity和specificity上,都不太可能達到上述假設的水準,更別提尿檢的結果很容易受到其他食用品或藥物的影響,所以全面實施尿篩,其實是一個很沒有效力的做法。不過比起這些支微末節而且常常被誤解、錯誤引用的機率和測試設計問題,全面尿篩其中隱含的【有罪推定】假設及其衍生出來的【侵犯人權】問題,只怕才是我們更應該花時間去關注的。

註:Sensitivity和specificity與false positive、false negative也可以用stats上的type I及type II errors去理解,但要說明這部分還要去扯null hypothesis,為了簡化,我就沒有特別在這篇文章裡面提起了。但如果你的stats底子不錯,用type I和type II errors的觀念去理解specificity和sensitivity是絕對正確,而且很可能會更容易的。