首页
>
资讯
>
NEJM 综述:12个问题,3大方向,指明临床试验主要结局阴性的出路
出自识林
NEJM 综述:12个问题,3大方向,指明临床试验主要结局阴性的出路
2022-01-21
研究人员从构思、撰写临床试验方案 、入组患者、实施干预到数据分析 ,花费数年心血完成临床试验,但主要结局获得了阴性结果,第一反应一定是:哪里出错了?治疗真的无效吗?还有一线希望吗?下一步怎么办?
《新英格兰医学杂志》(NEJM)的一篇综述以多项试验为例,提出了可为我们指明前进方向的12个问题。我们已介绍前6个问题,本周介绍后6个问题以及研究人员可以选择的3个方向(点击查看第一部分 )。
试验实施过程是否有缺陷?
如果不遵循研究方案,真正疗效可能被淡化或完全消失。例如在TOPCAT试验中(6个国家参与,比较螺内酯与安慰剂 用于左心室射血分数保留的心力衰竭患者)(文中所有试验的完整名称见文末表格),复合结局(心血管原因死亡、心脏停搏或心力衰竭住院)仅显示出有利于螺内酯的非显著趋势(风险比,0.89;95% CI ,0.77~1.04;P=0.14)。但俄罗斯和格鲁吉亚患者发生的主要结局事件很少,这提示这两个国家的研究实施过程有一些问题或者纳入的患者不典型。将分析范围仅限于其他四个国家时,结果显示了显著的治疗获益(风险比,0.82;95% CI,0.69~0.98;P=0.026)。关于这一事后证据是否有足够的说服力将螺内酯推荐用于左心室射血分数保留的心力衰竭患者,一直存在争议。
宣称非劣效性是否有意义?
当一种新疗法相对于活性药对照未显示出优效性 ,此时可否宣称达到非劣效性 ?如果新疗法具有其他优势(例如侵入性较小或副作用较少),则宣称非劣效性可能有意义,但在大多数情况下,只有预先设定了非劣效性假设,才适合这样宣称。例如在VALIANT试验中(有并发症的心肌梗死患者接受缬沙坦、卡托普利或这两种药物治疗),缬沙坦在主要结局(全因死亡)方面未显示出益处(风险比,1.00;97.5% CI,0.90~1.11;P=0.98)。但这一置信区间 不包含预先设定的非劣效性界值1.13,因此研究者可以得出缬沙坦与卡托普利相比具有非劣效性的结论。因此,对于因不可接受的副作用(例如咳嗽、味觉障碍或皮疹)而不能服用卡托普利的患者,缬沙坦是可接受的替代方案。
亚组结果是否显示阳性信号?
尽管在大型试验中考虑亚组结果都是合适的,但是对于主要结局的总体结果为中性或阴性的试验,考虑亚组结果通常会产生误导,因为它常常暗示对其他亚组有潜在危害。在定性意义上的上述交互作用往往并不可信(除非有强有力的机制支撑这一观点),并且分析通常不会做多重比较校正;即使交互作用的统计学检验结果显著,此类结果一般充其量也只能视为有助于提出假设。事实上,我们很难举出一项阴性试验中某一亚组的明显获益在后续试验中得到证实的例子。
尽管如此,上述设想仍然推动了对冠状动脉血运重建策略开展的大规模国际性试验。SYNTAX试验(比较PCI与冠状动脉旁路移植术[CABG]用于三支血管病变或左主干病变患者)的总体结果表明CABG具有优效性 。但对于左主干病变亚组(进一步排除解剖结构复杂程度高的患者),PCI似乎是可接受的CABG替代方案(PCI可能优于CABG)。此项事后亚组分析推动了之后的EXCEL试验(比较PCI与CABG用于解剖结构复杂程度低至中的左主干病变患者)。该试验表明,对于上述患者人群,在5年时的复合结局(死亡、卒中或心肌梗死)发生率方面,PCI与CABG无显著差异。
次要结局是否获得阳性结果?
如果主要结局的结果为阴性,次要结局的阳性结果通常被视为有助于提出假设。当然,监管机构不太可能据此批准新药。然而,在某些情况下,次要结局的结果足以影响治疗指南和临床实践。例如,在ASCOT试验中(比较氨氯地平与阿替洛尔治疗高血压),复合主要结局(非致死性心肌梗死或致死性冠心病)的风险比为0.90(95% CI,0.79~1.02;P=0.11)。然而,有压倒性的证据支持氨氯地平在卒中、总体心血管事件、全因死亡和新发糖尿病方面的优效性 (分别为P<0.001、P<0.0001、P=0.02和P<0.0001)(图1)。事后看来,该试验选择的主要结局十分奇怪:高血压试验决定不纳入卒中并不符合惯例。这些结果成为了不推荐阿替洛尔作为一线或二线抗高血压药的基础。
虽然主要结局未达到统计学显著性,但多项次要结局的结果为阳性。鉴于这些结果在生物学上的合理性以及与既往试验结果的一致性,本研究的结果提供了可指导高血压治疗决策的有意义数据。CHD表示冠心病。
很少有研究的统计学功效适合评估对死亡率的影响。因此,当一项大规模试验显示全因死亡率(看似合理但并非预设结局)降低时,正确解读结果可能很有难度,尤其是在主要结局结果为阴性的情况下。例如在MATRIX试验中,接受PCI的急性冠脉综合征患者被随机分配采用比伐卢定或普通肝素 进行抗凝。两组的30日复合主要结局(死亡、心肌梗死或卒中)无显著差异(相对危险度,0.94;95% CI,0.81~1.09;P=0.44)。然而,比伐卢定组的大出血发生率明显较低,全因死亡率也较低(相对危险度,0.71;95% CI,0.51~0.99;P=0.04),这一结果也见于既往的一些研究。比伐卢定组的死亡率降低虽然在机制上合理,但最好通过统计学功效充分的后续研究来阐明上述结果。
备选分析方法是否有帮助?
协变量校正
在包含与主要结局密切相关的基线变量的协变量校正分析中,统计学功效将略高于未校正的原始分析。然而,如果协变量未被精确地预先设定为主要或校正后的分析未被预先声明为主要,则结果将被视为值得关注和探索性,而不认为其会影响试验的主要结论。
例如,在SPARCL试验中(比较阿托伐他汀与安慰剂 用于卒中或短暂性脑缺血发作后患者),对于主要结局复发性卒中,未经校正的分析产生了支持阿托伐他汀的临界结果(P=0.05)。在考虑地理区域、使患者符合纳入标准的事件及持续时间、年龄和性别,并且预先设定的协变量校正分析中,风险比为0.84(95% CI ,0.71~0.99;P=0.03)。尚不清楚哪一项是预先设定的主要分析。在5%显著性水平居于最重要地位这一可疑前提下,人们可能会争论该试验的结果是否为“阳性”。更为合理的结论是总体而言,有一定的证据支持治疗获益。
实际治疗分析或符合方案分析
根据意向治疗原则进行的分析是基于所有随机分组患者的分组结果,对两种治疗策略做出有效比较时采用的主要方法。当意向治疗分析未能达到统计学显著性时,有人会提出依从性 差和参与者跨组可能掩盖了真实疗效,实际治疗分析(as-treated)或符合方案分析可能更接近事实。遗憾的是,应用实际治疗或符合方案人群会引入选择偏倚 ,因为未依从治疗方案或跨组接受另一治疗策略的患者可能有与实际治疗无关的不同预后。因此,此类分析很少影响基于意向治疗原则得出的疗效结论。然而,符合方案分析适合评估安全性问题。
在STICH试验中(比较CABG与药物治疗用于左心室功能不全患者)(图2),在意向治疗分析中,中位4年随访时,主要结局全因死亡的风险比为0.86(95% CI ,0.72~1.04;P=0.12)。实际治疗分析(比较第一年接受CABG的所有患者[包括跨组接受CABG的患者]与接受单纯药物治疗的患者)和符合方案分析(排除第一年内跨组的患者的数据)均显示采用CABG的死亡率较低(分别为P<0.001和P=0.005)。尽管如此,主要结论仍然是“在主要结局方面,药物治疗与CABG无显著差异。”在意向治疗人群中,在心血管原因死亡,以及由死亡或心血管疾病住院构成的复合结局方面,研究者 观察到其他益处。此外,STICH研究的10年随访数据显示,在意向治疗人群中,CABG组的死亡率低于单纯药物治疗组(风险比,0.84;95% CI,0.73~0.97;P=0.02)。因此,总体证据支持CABG在左心室功能不全患者中的重要作用。
在1212例左室射血分数低于35%的冠心病患者中,610例患者被随机分配到CABG组,602例患者被分配到药物治疗组。在预先设定的意向治疗分析中,两组的全因死亡率无显著差异(图A)。然而,在实际治疗分析中,CABG优于药物治疗;此项分析比较在随机分组后第一年接受药物治疗的592例患者与接受CABG的620例患者(根据最初分组结果接受CABG或跨组接受CABG)(图B)。同样,在符合方案分析中,CABG也优于药物治疗;此项分析比较被随机分配到药物治疗组并且在随访第一年未跨组接受CABG的537例患者与被随机分配到CABG组并接受CABG的555例患者(图C)。在10年延长随访期间,意向性治疗分析显示CABG在死亡率方面有显著获益(图D)。一个相关问题是如何解读跨组率高的试验。例如在BARI 2D试验中(比较立即冠脉血运重建与强化药物治疗用于2型糖尿病患者),5年联合主要结局(死亡和主要心血管事件)无显著差异(分别为P=0.97和P=0.70)。然而,药物治疗组42%的患者在有临床指征的情况下接受了血运重建,这令人质疑单纯药物治疗的价值。虽然上述跨组是最初保守治疗方法的组成部分(并且帮助大部分患者避免了血运重建),但当跨组频繁发生时,人们质疑可否充分区分不同治疗策略是合理的。
一个相关问题是如何解读跨组率高的试验。例如在BARI 2D试验中(比较立即冠脉血运重建与强化药物治疗用于2型糖尿病患者),5年联合主要结局(死亡和主要心血管事件)无显著差异(分别为P=0.97和P=0.70)。然而,药物治疗组42%的患者在有临床指征的情况下接受了血运重建,这令人质疑单纯药物治疗的价值。虽然上述跨组是最初保守治疗方法的组成部分(并且帮助大部分患者避免了血运重建),但当跨组频繁发生时,人们质疑可否充分区分不同治疗策略是合理的。
重复事件的分析
在对心力衰竭等慢性病进行的研究中,传统的复合结局分析方法关注至首起事件发生时间,忽略之后重复发生的事件。该方法会导致统计学功效严重降低和疗效被低估。
例如在CHARM-Preserved试验中(比较坎地沙坦与安慰剂 用于左心室射血分数保留的心力衰竭患者),复合主要终点 (至首次计划外入院治疗心力衰竭恶化或心血管原因死亡的时间)的风险比为0.89(95% CI ,0.77~1.03;P=0.12)。后续对所有心力衰竭相关住院(包括重复住院)所做的分析显示率比为0.75(95% CI,0.62~0.91;P=0.003)(图3)。作者得出结论“未来对心力衰竭开展的试验应将重复发生的事件常规纳入分析中。”
在随机分组的3023例左心室射血分数保留的心力衰竭患者中,在预先设定的至首次事件发生的时间分析中,坎地沙坦组和安慰剂 组的主要结局(心血管原因死亡或心力衰竭住院)无显著差异(图A)。然而,采用考虑所有事件的备选分析方法时,数据为坎地沙坦的疗效提供了强有力证据(图B)。
是否有更多的阳性外部证据?
如果根据现有证据,一项统计学功效充分的试验得出的阴性主要结局令人惊讶,则必须仔细分析既往研究的可靠性和质量。首先,来自既往试验的非随机比较和替代终点 并非强有力证据。来自类似试验或荟萃分析(关于类似患者、治疗和结局)的证据更有价值。
例如,在ASPEN试验中(比较阿托伐他汀与安慰剂用于2型糖尿病患者),复合主要结局(多项心血管事件)的风险比为0.90(95% CI,0.73~1.12;P=0.34)。考虑到在对各种患者人群开展的其他试验中,他汀类药物相关结局取得了阳性结果,ASPEN试验的结果令人失望。在更大规模的CARDS试验中(也是比较阿托伐他汀与安慰剂 用于2型糖尿病患者),复合主要结局(与ASPEN试验的主要复合结局相似)的风险比为0.63(95% CI,0.48~0.83;P=0.001),而且两项试验的荟萃分析也得出了阳性结论。ASPEN试验和荟萃分析的差别并不大(请注意重叠的置信区间 ),因此ASPEN这项他汀类药物试验可能只是“不走运的”,与真实疗效发生了随机偏离。
尽管如此,考虑到不同试验在患者选择、研究的实际治疗和结局定义方面的差异,以及试验设计和实施中的其他差异。荟萃分析的有利结果仍应谨慎解读。一般而言,一项统计学功效充分的大规模随机试验提供的证据优于小规模研究的荟萃分析提供的证据。大规模试验和既往荟萃分析之间的差别有待进一步研究,从而解析两者之间的不一致之处。
是否有支持该疗法的强有力生物学原理?
人们需要警惕生物学原理方面的论据。3期试验中的新疗法几乎全都有来自动物研究和早期试验的大量支持性科学数据。然而,历史上充满了大规模关键试验未能显示任何疗效(或显示非预期 安全性问题)的记录。例如,通过提高高密度脂蛋白胆固醇水平减少心血管事件这一假设看似很有希望,但对胆固醇酯转运蛋白抑制剂开展的试验均未使这一希望成真。大自然通常会战胜我们为了打断事物秩序所做的努力。因此,如果在一项试验中,治疗失败的原因并非方法学缺陷,那么是时候“继续前进”了,并且在前进的同时试图理解治疗失败的生物学原因。
讨论
前文中的12个问题可帮助我们决定在一项试验的主要结局未获得阳性结果时,下一步做什么。当然,我们需要谨慎。研究人员可在以下三个方向中做出选择。
宣称试验结果为阳性
一般而言,如果主要结局的结果未能在预先设定的水平达到统计学显著性,那么只有在很特别的情况下才能将该试验报告为阳性。表2列出的五项试验的结果描述提供了一个框架,用于讨论每项试验是否在主要结局为阴性的情况下包含有临床意义的阳性结果。然而,尽管这些考虑可能为临床指南委员会提供信息,但监管机构很少因二次分析而改变立场。
表2. 在主要结局结果为阴性的情况下宣称阳性的试验举例。
ASCOT和CAPRICORN:次要结局的数据提供了强有力证据证明优效性
TOPCAT:排除数值异常的国家后,结果为阳性
SYNTAX:一个研究亚组的数据为另一项试验提供了依据
STICH:来自实际治疗和符合方案分析的数据以及来自延长随访期的数据为主要结局提供了支持
CHARM-Preserved:将重复发生的事件纳入分析中之后,支持研究药物的数据非常有力
一个值得注意的例外是CAPRICORN试验,该试验纳入的是左室功能不全患者,比较了卡维地洛与安慰剂 在患者心肌梗死后发挥的效应。复合主要结局(全因死亡或住院)未能达到统计学显著性(风险比,0.92;95% CI ,0.80~1.07;P=0.30)。但全因死亡率的确提供了获益证据(风险比,0.77;95% CI,0.60~0.98;P=0.03),经过大量争论后,FDA基于上述证据批准了该药物,其原因可能是全因死亡率是最初设定的主要结局(遗憾的是研究者 在试验期间做出了更改),并且有外部证据表明β受体阻滞剂对该患者人群的疗效。
改进未来试验的设计
研究者和申办方在开展大规模随机 试验之前,通常有为此提供强有力支持的机制和背景证据。因此,获得令人失望的结果之后,人们会寻求解释,进而指导新试验的设计工作。需要考虑的方面包括调整治疗方案、改变研究人群、修改主要结局、增加样本量以及改进影响试验质量的其他方面。这些艰难且成本高昂的决策应该基于合乎实际的期望,而不是天真的乐观主义。
例如,在大量开放标签研究获得高度阳性结果之后,在设立假手术对照组的SYMPLICITY HTN-3试验中,肾交感神经消融术并未能显著降低难治性高血压患者的血压。对于这一出乎大多数人预料的结果,人们提出的解释包括患者选择不当(其中一些患者的高血压的基础病因使肾动脉交感神经阻断术不太可能发挥效果)、递送的射频能量不足、药物治疗变化以及未能控制均值回归。进行其他大规模试验之前,研究者在未服用任何抗高血压药的高血压患者中进行了设盲的机制试验,以确定肾交感神经消融术是否真的“起作用”。
判定疗法无效并将其放弃
随机试验的目的是区分有效和无效疗法。遗憾的是,许多创新都属于第二类。因此,如果试验的总体结果只有极少证据或者甚至没有证据证明疗效,尤其是如果存在安全性问题,明智的作法可能是停止进一步研究。用于急性心肌梗死患者的血栓抽吸术可能终将得出这一结论。在多项小规模试验在多年间不断产生不一致的结果之后,两项大规模随机试验令人信服地证明,常规实施血栓抽吸术无益。
结论
在试验的主要结局未能达到统计学显著性的情况下,我们建议研究人员提出一系列直抵核心的问题,这将有助于其厘清新疗法是否仍有价值。研究者有以下三个选择:根据总体证据,仍然宣称试验“成功”(这一选择很少使用),计划未来的试验并改进设计(这一选择成本高昂),或者承认新疗法可能无效(这一选择令人沮丧)。然而,最好的选择是通过严格的前期规划全面避免这一情况。研究者可通过以下方式提高得出明确结论的可能性:确保有证据表明新疗法和疾病具有共同的病理生理基础和机制,选择合适的患者和终点 ,计算充足的样本量,仔细关注剂量、疾病和结局的定义以及所有程序,预测试验发生失败和招致批评的可能原因。
文中所有试验的完整名称
ASCOT: Anglo-Scandinavian Cardiac Outcomes Trial
ASPEN: Atorvastatin Study for Prevention of Coronary Heart Disease Endpoints in Non–Insulin-Dependent Diabetes Mellitus
BARI 2D: Bypass Angioplasty Revascularization Investigation 2 Diabetes
BEAUTIFUL: Ivabradine for Patients with Stable Coronary Artery Disease and Left-Ventricular Systolic Dysfunction
CAPRICORN: Carvedilol Postinfarction Survival Control in Left Ventricular Dysfunction
CARDS: Collaborative Atorvastatin Diabetes Study
CHAMPION trials: Cangrelor versus Standard Therapy to Achieve Optimal Management of Platelet Inhibition
CHARM-Preserved: Candesartan in Heart Failure Assessment of Reduction in Mortality and Morbidity
CIBIS II: Cardiac Insufficiency Bisoprolol Study II
EXCEL: Evaluation of XIENCE PRIME Everolimus Eluting Stent System [EECSS] or XIENCE V EECSS versus Coronary Artery Bypass Surgery for Effectiveness of Left Main Revascularization
MATRIX: Minimizing Adverse Hemorrhagic Events by Transradial Access Site and Systemic Implementation of Angiox
MOXCON: Sustained Release Moxonidine for Congestive Heart Failure
PEGASUS-TIMI 54: Prevention of Cardiovascular Events in Patients with Prior Heart Attack Using Ticagrelor Compared to Placebo on a Background of Aspirin–Thrombolysis in Myocardial Infarction 54
PERFORM: Terutroban versus Aspirin in Patients with Cerebral Ischemic Events
PROactive: Prospective Pioglitazone Clinical Trial in Macrovascular Events
SHIFT: Systolic Heart Failure Treatment with the If Inhibitor Ivabradine Trial
SIGNIFY: Study Assessing the Morbidity–Mortality Benefits of the If Inhibitor Ivabradine in Patients with Coronary Artery Disease
SPARCL: Stroke Prevention by Aggressive Reduction in Cholesterol Levels
STICH: Comparison of Surgical and Medical Treatment for Congestive Heart Failure and Coronary Artery Disease
SYMPLICITY HTN-3: Renal Denervation in Patients with Uncontrolled Hypertension
SYNTAX: Synergy between PCI with Taxus and Cardiac Surgery
TARGET: Do Tirofiban and ReoPro Give Similar Efficacy Trial
TOPCAT: Treatment of Preserved Cardiac Function Heart Failure with an Aldosterone Antagonist
TORCH: Towards a Revolution in COPD Health
VALIANT: Valsartan in Acute Myocardial Infarction
参考文献
1. Pocock SJ, Stone GW. The primary outcome fails - what next? N Engl J Med 2016;375:861-870.