首页
>
资讯
>
真实世界证据对随机对照试验的复制能力与支持监管决策的潜力
出自识林
真实世界证据对随机对照试验的复制能力与支持监管决策的潜力
2020-07-25
随机对照试验(RCT)一般被认为是评价药物安全性和有效性的金标准,并为药物临床研究普遍采用。然而,传统RCT所需的长时间和高成本以及日常诊疗电子健康数据的激增,使人们越来越关注真实世界数据(RWD)能否开发为支持监管决策的真实世界证据(RWE)。RWE已对批准后药物安全性监管决策做出了贡献,但使用非随机RWE来评估药物疗效的可靠性依旧存疑。Franklin等人使用医保数据,首次系统性地评估了非随机RWE通过结构化流程复制多个RCT的能力。该研究选择40个RCT,在可行性分析后预估将完成约30个复制研究,项目启动于2017年10月,预计于2020年10月结束。研究结果将洞悉使用非随机RWE进行监管决策的优点和局限性。
背景
已有一些综述比较了针对同一研究课题的已发表观察性研究和RCT,但对RCT和非随机研究的相似性得出的结论却有很大差异,原因可能是:1)非随机研究关注的人群、结果、治疗策略与RCT有大幅差异;2)非随机研究的设计和分析高度可变,有可以避免的设计和分析错误。这些综述通常估算一个用于描述随机和非随机结果间关系的参数,但没有评估非随机研究产生/未产生类似于RCT结果的原因。另外一些研究者设计了专门匹配RCT的非随机RWE研究,提供了随机和非随机结果的比较,但通常限于一个临床问题。为了考虑非随机RWE如何能支持监管决策,必须有一个更大规模的可比性研究,并评价随机/非随机途径得出不同结果的影响因素。
RCT的搜索及筛选
作者认为,如果RCT的关键部分是可复制的,那么就有可能在RWD资源中被复制。关键部分包括主要终点、治疗策略、入选/排除标准。研究者进行了4次单独的搜索,分别为支持原始批准的试验(来自centerwatch.com)、支持补充批准的试验(类似centerwatch.com的数据库,文中未说明)、阴性试验(来自ClinicalTrials.gov)和FDA建议的试验。如图所示,在进行初步可行性和功效分析后,选择了40个RCT(其目标是复制30个RCT)。
RWE研究设计和实施过程
对于每个RCT,首先起草一份研究方案,用于医保数据中RWE复制研究的设计和分析。每个复制的方案模板类似,但会基于RCT的知识基础选择特定的要素及操作。通过征求临床专家和方法学专家的意见,对测量、设计和分析方法做出最佳选择,并完善分析计划。FDA也将对每个方案进行审查,以确保入选/排除标准、对照和结果能够为决策提供充分信息。首先进行初始可行性分析和功效(power)分析,以完善方案中的设计要点并确定非随机RWE研究的期望功效。接下来进行协变量平衡、最终功效检验和敏感性分析检验。使用Aetion Evidence Platform对治疗效果进行初步比较分析。在比较分析之前,在ClinicalTrials.gov上登记每个RWE复制的最终研究方案。
一致性度量标准
为了对RCT是否被成功复制进行二元判定,定义了以下3个度量标准:
1.主要标准:监管一致性(Regulatory Agreement)
监管一致性定义为RWE研究复制RCT结果的方向和统计显著性的能力。例如,一个成功的优效性试验应该被一个成功的RWE优效性结果复制。对于成功的非劣效性试验,监管一致则需要RWE显示非劣效性结果(使用与试验相同的边界)。对于阴性试验,RWE也应该没有显著性结果。监管一致性衡量的是:在使用典型监管决策规则时,RWE得出与RCT相同监管结论的证据程度。
2.次要标准:估值一致性(Estimate Agreement)
由于RWE研究可能比相应的RCT具有更大的功效,因此可能会出现RWE发现有统计学意义上的影响,但试验没有发现统计学意义上的显著性的情况,即使RWD和RCT的估值很接近。例如,如果RCT报告的风险比为0.85(95%置信区间为0.71-1.02),而RWD的风险比为0.85(置信区间为0.73-0.99)。在这种情况下,RWE与RCT没有达到监管一致,尽管这些结果这些结果非常吻合。基于这个原因,定义了次要度量标准估值一致性。估值一致是指RWE治疗效果估值在试验的效果估值的95%置信区间之内。下图比较了优效性试验和非劣效性试验中监管一致性和估值一致性的各种情况。
3.探索性标准:标准化差异(Standardized differences)
除二元判定外,还通过效果估值和置信区间的散点图以及标准化的差值,探索所有复制RWE结果和相应RCT结果之间的差值的大小和方向。标准化的差值计算公式如下,θ为治疗效果估值,最常见的是对数风险比,σ2是相关的方差(associated variances)
这种分析超越简单的二元判定,扩大我们对治疗效果估值一致性和造成估值差异因素的理解。通过该标准化差异也可以做出二元判定,当假设显著水平(α-level)为0.05且RWE和RCT的结果均基于大样本时,|Z|>1.96则拒绝零假设(RWE与RCT认为不一致)。
讨论
随着非随机RWE的数据来源和方法学的不断成熟,将RWE纳入监管决策的机会可能会越来越多。根据作者可获得的RWD,药物补充批准的RCT约4%是有复制可能性的。一些其他实验尽管不能完全复制,但在医保数据中有相似的主要终点。另外,本研究未搜索其他来源的RWD。因此,实际上RCT的可复制性应比本文中更高。
虽然已尽可能在医保数据中复制每个RCT的重要特征,但RWE和RCT不可避免地略有不同。例如,完全复制一些入选/排除标准是不可能的,这些标准通常依赖于医保数据中没有的临床检查,而且临床试验通常在美国以外的人群中进行。此外,在日常临床护理中,不会像RCT那样严格控制或鼓励患者坚持治疗,这导致了更多的停药和药物的短期使用。
主要的和次要的一致性度量标准是简单的,依赖于p值和置信区间的的二元分类可能会遗漏更细微的信息。即使每个RWE研究都是完全无偏倚的,也可以预期仅仅由于采样的可变性,30次重复实验也会有一些与RCT结果不匹配。此外,临床试验中报道的主要终点的p值和置信区间可能会被调整以适应队列分析或多个终点。之所以选择这些度量标准是为了使一致性评估简单、透明,并与监管决策相关。
这是第一个以一致的非随机方法且透明地评估大量已发表的RCT的可复制性。虽然规模依然太小,无法回答关于RWE研究设计的所有相关问题,但未来的工作可以通过重复其他RCT或在其他来源的RWD重复RCT来扩展本研究产生的证据。此类实证研究可为多种临床问题提供深刻见解,严谨的非随机RWE研究可提供可靠的因果推断,为此类指南制定提供信息,以支持监管决策。
参考资料
Franklin, J.M., Pawar, A., Martin, D., Glynn, R.J., Levenson, M., Temple, R. and Schneeweiss, S. (2020), Nonrandomized Real‐World Evidence to Support Regulatory Decision Making: Process for a Randomized Trial Replication Project. Clin. Pharmacol. Ther., 107: 817-826. doi:10.1002/cpt.1633
整理:识林-禾
识林® 版权所有,未经许可不得转载。如需使用请联系 admin@shilinx.com 。