武汉肺炎疫情来势汹汹,目前治疗方面还是采取临床上常规治疗手段,进行对症治疗。 值得一提的是,丁香园有文章指出,至今已过17年的SARS,也仍是“以对症支持治疗为主。目前没有经验证的有效抗病*药物。……当年激素使用可能较为普遍,但是时至今日仍没有循证医学证据。” 现代医学经历了从经验医学到循证医学的发展,不过两者间的是是非非至今未有定论。本文节选自中信出版社年出版、医院主治医生德劳因·伯奇所著的《药物简史》一文,讲述了近几十年医疗实践中的“怀疑之美”。
一
今天医生们所做的事,会有多少被证明有效呢?
年的新西兰,当阿奇·科克伦打断了演说,称他的朋友克尔·怀特为“混蛋骗子”,并指出医疗干预中至多只有10%是基于有力的证据时,他所说的数据并非随口编造。
这一数字是来自年《医疗》(MedicalCare)上的一篇论文,文中报告了对英国北部19名家庭医生为期两周的调查结果。在此期间,这些医生被要求记录所有开出的处方,并在调查期末将他们所开的药物与所要治疗的症状进行对比,以确认其中有多少存在可靠的证据支持。结果数据为9.3%——科克伦说的约10%还有一点儿水分。
贯穿整个历史,人类都在努力提升具有可靠证据支持的医疗实践所占比重,但成功的历程却磕磕绊绊。随着20世纪逐渐过去,随机对照试验的力量展现得越来越清晰,虽说如此,它却难以对医生们的多数举措形成支持。
在大部分时期,对医疗干预有效性的统计学研究都被称为“临床流行病学”。对于这样一项具有普遍重要意义的工作而言,这个名字显得过于模糊而且令人不悦。因此,20世纪80年代才在加拿大麦克马斯特大学的医学教学研讨中诞生了另一个术语:“循证医学”(Evidence-basedmedicine,缩写为EBM)。这个词最早出现在《美国医学会杂志》(JournaloftheAmericanMedicalAssociation)年的一篇文章中,最近才被广泛使用。
“循证医学”显然只是个宣传术语,存在同义赘述,它代表了一种思想派系,即认为某些特定类别的证据要比另外一些在整体上更稳健、更有价值——实验胜于猜测,测试胜于传言,干预胜于观察。
相比经验医学,循证医学主张将临床证据、个人临床经验与患者的价值诉求三者相结合(出处见图中标注)
很多医生讨厌“循证医学”这个词,他们的怒气源自其宣传论调,明里暗里指向他们的行为没有遵循证据。经常有争议认为,这一运动其实是以最缺乏思考的方式为最荒唐可笑的事物寻找试验证据。
比如年《英国医学杂志》上由戈登·史密斯(GordonSmith)与吉尔·佩尔(JillPell)所写题为《降落伞在预防引力挑战引起的死亡与重大创伤中的作用》(ParachuteUsetoPreventDeathandMajorTraumaRelatedtoGravitationalChallenge)的论文中说道:
如同许多期望预防健康问题的措施一样,降落伞的有效性尚未通过随机对照试验来进行严格的评估。循证医学的支持者批评这项措施仅以观察数据评估后便被采用。我们认为,如果循证医学的最激进倡导者能组织并亲身参与一项针对降落伞的双盲随机安慰剂对照交叉试验,将会对所有人都有益。
另一方面,EBM的支持者却似乎乐于对降落伞之类干预措施显然有效的结论通盘接受。年的《柳叶刀》上发表了一篇论文,题为《住院病人的整体医疗具备证据基础》(Inpatientgeneralmedicineisevidencebased),为“循证医学的最激进倡导者”实际要求的证据标准提供了很好的指导,同时指出医学自年起已获得了长足进步。
论文的作者之一是加拿大医生戴维·萨基特(DavidSackett),他正是EBM运动最重要的传道者之一。这篇论文研究的是萨基特的医生团队在位于牛津医院中,在一个月内对病人进行的所有治疗措施。萨基特对此评论道:
我们发现,像我们这样致力于寻找最佳证据来指导医疗干预的机构,能够以SR(整合多个高质量试验而进行的系统评价)和RCT(随机对照试验)为基础治疗53%的病人,另有29%的病人是在具有说服力的非试验性证据的基础上进行治疗,而仅有19%的治疗是基于猜测与期望。
有超过80%的决策是基于良好的验证证据,哪怕是在一位宣誓要跟从证据的医生所带领的医疗团队中,这也是个惊人的进步。
萨基特以心脏骤停时采用电击术为例,来说明哪些治疗措施是他认为无须经过随机对照试验证据就能认可的。在医疗领域,这种电击就如同使用降落伞。极少有人能从1万英尺高空坠落到树林或雪地里还能幸存,或者自行恢复心跳到正常频率——要存活下来,一般都必须施加干预,也就是降落伞或者电击。
这一研究激起了一系列在不同医疗环境和科室内的类似研究,其中有两个着眼于家庭医生领域。
一项是来自利兹大学(吉尔等)的研究,于年发表在《英国医学杂志》上。在调查一个家庭诊所两天内的接诊量后,他们研究得出了与《柳叶刀》上论文相似的数据,即有31%的治疗是基于RCT证据,而51%是基于“有说服力的非试验性证据”。
在同年的另一篇发表在《英国医学杂志》的文章中,由鹤冈圣(KokiTsuruoka)领衔的一组日本家庭医生报告了对49次接诊的评估结果(样本数量只有牛津或利兹研究中的大约一半),其用于判断何为具有说服力的证据的标准与另两个研究一致,并发现有81%的治疗是基于良好证据。
小山浩(HiroshiKoyama)及其同事重复了年《柳叶刀》医院的研究,看有多少治疗决策是基于RCT证据做出的。根据他们年发表在《国际医疗质量杂志》(InternationalJournalforQualityinHealthCare)上的内容,他们研究的例不同的医疗干预中有49%具有RCT支持,和萨基特在牛津大学的医疗团队得出的数据一致。
其他科室也重复了此类工作,来评估自己在多大程度上是基于证据来行医。年,在专注于产科与妇科的《BMC妇女健康》(BMCWomen’sHealth)杂志电子版的一篇论文中,来自英国伯明翰大学的埃马尔·卡恩(AamirKhan)等人回顾了年到年依序就诊的名住院病人,发现他们所接受的医疗干预中有42%是基于RCT。
年来医院的一篇论文指出,当时的儿科手术还较少获得相关研究的支持。巴拉蒂尼(Baraldini)和其他手医院中的手术进行了一个月的观察,结论是仅有26%的重大手术具有RCT支持,有3%落入了自证有效的范畴,3%的手术回溯来看与所有现存证据相悖,而剩下的68%则在正反两面都缺少充足证据。
香港一篇由眼外科医生完成的审查结果(赖等)发表在年的《英国眼科杂志》(BritishJournalofOphthalmology)上,其作者发现在他们年7月的例连续治疗干预中,有43%得到了RCT支持,有34%具有次一等的观察证据,剩下的23%要么尚无任何证据支持,要么与现有证据相反。
关于当今医学在多大程度上具有证据支持,其他衡量方式得出的结果也与上述论文类似。很显然,在医学治疗方面,今天的我们要比年时更有信心;不光是治疗方法取得了进步,我们对于其真实效果也有了更多的明确知识。
如何理解对部分试验中“显然”有效的治疗措施的估计呢?他们是怎么断定哪些疗法属于不证自明的范畴,因此无须RCT证据的支持呢?
小山浩的京都大学团队声称有47种疗法是属于这一类别,其中(和牛津大学一样)包括对心脏骤停者提供电击。他们列举的例子还包括为患阑尾炎的患者切除阑尾,给呼吸困难的人吸氧,患腺热者应当静养观察,静脉深处存在血栓的病人需用华法林稀释血液,而体内停止生产胰岛素或甲状腺素的患者则需要补充相应激素。
利兹大学(吉尔等)年的家庭医生研究也将使用甲状腺素列入了43种“已被具有说服力的非试验性证据证实的医疗干预”中。其他疗法也都差不多一样清楚,比如脱水病人需要补充液体。
但这份清单中也包含一些会立刻引发质疑的疗法,例如用某种抗生素来治疗特定的感染症状。有些感染更可能是源于病*而非细菌,比如扁桃体炎和胸腔感染——虽然他们提及的抗生素都是非常安全的种类,但与所有药一样,有时也会造成危害。(可以基本肯定地说,唯一没有副作用的药就是完全没用的药。)
针对背部疼痛的强效止痛药也进入了效用不容置疑之列。这确有可能是真的,但鉴于更温和的止痛药或许能在提供疗效的同时,具有较低的重大危害(比如胃肠出血)风险,其中也仍存在疑问。
二
当代医学知识的错误主要来自两个方面。
一是由于某个假设看起来显然为真,而未能对其进行适当的检验。激素替代疗法(HRT)就是最近一个很有代表性的例子。
几十年来,更年期后的女性由于自身已不再合成激素,就服用激素进行替代。这是基于人体生理学理论,推测如果给老年人补充年轻时体内会分泌的激素,或许会对人体有益,而且这种想法也不无合理之处。随后的观察显示,在更年期后使用替代性激素的女性确实比未使用的女性寿命更长,健康状态也更好。
但问题是,人们以为这些观察可以构成一项试验,但事实上并不能。这些女性并不是通过随机分配决定使用或不使用激素——她们在进行选择。这意味着,选择了其中一项的女性与选择另一项的女性本身具有差异。直到年,才有一项相关试验开展。
女性健康启动项目(Women’sHealthInitiative)是美国的一项研究,招募了超过16万名已绝经的女性,并将她们分配到激素替代疗法或安慰剂组。到年,由于HRT组中因乳腺癌而死亡的人数已高于预期,这项试验便提前结束了。
根据英国的估算,本国每年因使用HRT可导致额外例乳腺癌。尽管如此,女性健康启动项目事实上并非为了测试HRT是否安全而开展的研究,其设立是因为医生们相信它会证明HRT的救治效果。
第二个仍然常犯的错误是仓促接受方向正确,但因尚未被充分完成而不够可靠的试验证据。
抗抑郁药物就是个例子。关于它曾有过很多研究,其中不少也具有随机选择、双盲、变量控制机制,但这些研究不是规模太小,就是时间太短、设计太差、太容易被既得利益者曲解,因而效力受到贬损。*府与医生继续认可此类试验,是因为他们未能理解良好证据基础的本质与重要性。
糟糕的研究显然是不值得信任的,正如那些关于沙利度胺的早期研究,它们本来就没想对药物进行客观评价。有一系列药物可以用来治疗抑郁,很多都只有细微的差别。在理想状况下,我们想知道这些药物从期来看,在人们最关心的疗效上相对彼此的确切效果如何,即是否能帮助人们变得更安全、健康、快乐。
制药公司仅在他们所需的范围内对试验进行资助,目的是说服医生开立处方,说服*府准许其上市,但这也会带来问题。
《新西兰医学杂志》(NewEnglandJournalofMedicine)年刊载了一篇对12种抗抑郁药物具有的证据的调查研究(特纳等),其中比较了制药公司在申请监管批准时向食品药品监督管理局递交的试验数据和最终发表供公众查阅的数据。药企在开展临床研究时必须向食品药品监督管理局注册,并提交研究发现的任何结果,但没有义务公开发布。这篇论文找到了74个相关研究,涉及超过1名病人。
“在食品药品监督管理局检视的具有负面或可疑结论的研究中,”文章指出,“要么没有发表结果(22例),要么采用了在我们看来是在传达正面结果的发表方式(11例),只有3例例外。从已发表的文献看,仿佛有94%的试验得出了正面结论,但食品药品监督管理局的分析却与之相反,显示仅有51%的正面结论。”
这种公开呈现上的差异——被称为“发表偏差”——应当归结于药企只愿意拿出最有利的结果,还是因为医学期刊没有兴趣发表那些指出某种治疗方法效果不显著的研究,作者感到难以判断。
综合所有相关结果来看,食品药品监督管理局批准的所有药物都具有疗效,但这篇论文发现,这些疗效并没有被准确地呈现给医务人员。他们因此得出结论,“选择性发表可能导致医生做出不恰当的处方决策,不符合患者的最大利益。”
更早时候,年发表在《柳叶刀》上的一篇论文(惠廷顿等)研究了一类用于儿童抑郁症的抗抑郁药物——选择性血清再吸收抑制剂(SSRI),也发现了同样的结果。把未发表的药企试验合并到已发表的结果中去时,药物的有效性就显得完全不同了;已发表结果中收效似乎压过了危害,但加入了额外据之后,结论却恰恰相反。
这些影响重要吗?一篇年发表在《美国医学会杂志》上的论文(陈安文等)给出了肯定的答案。
陈及其团队研究了—年在丹麦获批的临床试验,并跟踪查看了它们的对外呈现方式。在获得处方许可到公开发表期间,约有三分之二的试验更改了它们原先声称测量的变量——真是种绝妙的试验调整方法,总能产出你想要的结论。(根据统计学惯例,如果一项发现纯属运气的概率低于1比20,就可以认为数值显著。因此,每进行20次试验,就可能有1次得到肯定结果,但实际上不过是运气而已。一项优质的研究会在一开始就声明它的主要测试目标,并坚持不变。)
陈的研究发现,“关于试验结果的报告不仅常常不完整,而且还会存在偏差,或未能遵照程序进行。已发表的文章及相关评论就可能因此失去可靠性,并会高估一项医疗干预的实际疗效”。他们希望监管法规能进行修订,强制研究者以更准确、完整的方式发表其研究结果。
科克伦协作网的设立是为了实现阿奇·科克伦的目标,让医学获得更强的实证基础。作为一家非*府组织,它的目标是发表针对各类治疗措施可得数据的全面分析。对抗抑郁药物,科克伦协作网也完成了几项综述,其中一篇发表于年,特别