首页
>
资讯
>
提高肿瘤学真实世界数据的质量,业界方法与监管的回应
出自识林
提高肿瘤学真实世界数据的质量,业界方法与监管的回应
2024-01-26
2024年1月19日,Flatiron Health的Emily H. Castellanos等在《JCO Clinical Cancer Informatics》发表题为Raising the Bar for Real-World Data in Oncology: Approaches to Quality Across Multiple Dimensions 的文章,描述了数据的质量维度在管理肿瘤学电子健康记录(electronic health records, EHRs)衍生的真实世界数据 (real world data, RWD)中的应用。
真实世界数据(real world data,RWD)是从电子健康记录、索赔账单和产品及疾病登记等来源收集的数据信息,可反映患者健康状况和/与医疗参与情况。基于RWD开展的真实世界研究(real-world study,RWS)多作为随机 对照试验的证据补充,用于验证或回答特定临床假设或问题。通过对RWS结果分析、讨论后产生的真实世界证据 (real-world evidence,RWE)则为临床药械的有效性、安全性、经济性评估以及药品监管决策改进提供了机遇。随着肿瘤学中使用RWD生成RWE的发展,以及RWD和RWE在肿瘤学领域中的潜在应用,包括研究癌症病因、改进临床实践和提供支持监管决策的证据,RWD的质量评估十分重要。
Flatiron Health提出的RWD质量维度,以及与监管要求的对比
文章中,Flatiron Health根据日常临床实践中产生的纵向患者层面EHR衍生数据进行处理得到RWD,这些数据来自于美国学术和社区癌症实践的全国网络(约340万条患者记录)。Flatiron Health从源头获取数据并处理成通用数据模型。
对数据源的处理方法如图所示,数据源分为结构化数据和非结构化数据。从不同站点和系统的 EHR 中通过二次数据处理提取数据,并统一为可计算和互相操作的标准术语。EHR 结构化数据变量包括但不限于人口统计(如出生年份、性别、种族/民族等)、生命体征(如身高、体重等)、就诊、实验室数据、医疗实践信息、诊断代码、药物医嘱、药物管理、东部肿瘤合作组 (ECOG) 表现状态和保险范围。非结构化数据包括临床和护理记录;实验室、放射学和病理学报告;以及和患者沟通等信息。采用人工提取或机器学习提取和/或自然语言处理 (nature language processing,NLP) 等技术进行二次数据处理,将非结构化数据整理为结构化数据变量。这些 EHR 衍生数据可与患者水平的非 EHR 数据源(如基因组或索赔数据)链接,以开发集成的临床基因组或临床索赔 RWD(见下图)。
作者回顾了多个国家或国际卫生当局和报销机构发布的与RWD质量相关框架和指南,这些机构包括:欧洲药品管理局 (EMA,2022年9月)、英国国家健康与临床优选研究所(NICE,2022年6月)、美国食品和药物管理局 (FDA,2021年9月)、杜克-马戈利斯健康政策中心(2019 年 8 月和 2018 年 10 月)、和以患者为中心的结局研究所(PCORI,2016 年 9 月),确定RWD所必需的关键质量维度,主要质量维度是相关性(包括可用性、充分性和代表性)和可靠性(包括准确性、完整性、来源和及时性)。然后,作者将Flatiron Health RWD 应用的质量维度与已发布框架或指南的质量维度进行比较(见下表)。
数据质量维度
框架和指南
定义
相关性
可用性、充分性、代表性
Flatiron Health RWD
在适当的时间段内提供关键变量(暴露、结果、协变量)和足够数量的代表性患者来解决给定的用例
EMA
数据集呈现对回答研究问题有用的数据元素的程度
广泛性,包括覆盖范围:无论是否在捕获过程中,与现实世界中存在的内容有关的可用信息量
NICE
取决于 (1) 数据是否提供足够的信息来产生可靠且相关的结果,以及 (2) 结果是否可推广到 NHS 中的患者
FDA
关键数据元素(暴露、结果、协变量)和足够数量的研究代表性患者的可用性
杜克-马戈利斯
评估数据是否部分或全部充分解决了适用的监管问题或要求。包括数据是否捕获有关暴露、结果和协变量的相关信息,以及数据是否可概括
PCORI
上下文数据质量特征被描述为需要独特的上下文或特定任务的数据质量要求
可靠性
Flatiron Health RWD
数据代表预期临床概念的程度,包括数据准确性、完整性、来源和及时性
EMA
涵盖数据在多大程度上准确反映其设计用于测量的内容的维度。它涵盖了数据的正确性和可信度
NICE
每次对不同人群或群体重复研究时获得相同或相似结果的能力
FDA
数据准确性、完整性、来源和可追溯性
杜克-马戈利斯
考虑数据是否充分代表了它们想要代表的基本医学概念;包括数据累积和数据质量控制 (数据保证)
PCORI
数据值的内在特征被描述为质量特征,该质量仅涉及“本身”的数据值,而不参考外部要求或任务
准确性
Flatiron Health RWD
测量值与预期测量值的真实值之间的一致性程度
EMA
数据与现实之间的差异程度
精度:数据代表现实的近似程度
NICE
数据与现实的相似程度
FDA
测量值与预期测量的真实值之间的一致性程度
验证:通常根据参考标准确定方法合理或数据测量正确的过程
杜克-马戈利斯
评估数据字段的有效性、可靠性和稳健性
PCORI
没有定义; 合理性、符合性(conformance)和一致性(consistency)的概念被描述为替代方案
符合性
Flatiron Health RWD
数据值在内部关系、格式或计算定义以及内部或外部标准方面的合规性
EMA
评估特定参考或数据模型的一致性
NICE
数据元素的记录是否与数据源规范一致
FDA
数据与标准化类型、大小和格式一致
杜克-马戈利斯
与标准化类型、尺寸和格式一致;数据与内部关系、格式或计算定义或标准的符合程度
PCORI
数据表示符合内部或外部格式、关系或计算定义。数据值符合指定的标准和格式
合理性
Flatiron Health RWD
数据值的可信度或真实性
EMA
某些信息真实的可能性;检测错误的替代手段
NICE
没有定义
FDA
数据值的可信度或真实性
杜克-马戈利斯
根据数据源和专家意见,记录的值在逻辑上是可信的
PCORI
数据值的可信度(唯一性、非时间性、时间合理性)
一致性
Flatiron Health RWD
数据集中或链接数据集之间或随时间推移的数据值的稳定性
EMA
连贯性:整个数据集的不同部分在表示和含义上如何保持一致。子维度包括格式连贯性、结构连贯性、语义连贯性和唯一性
唯一性:相同的信息不重复,但在数据集中出现一次
NICE
跨数据源记录中患者状态的一致性
FDA
作为数据完整性定义的一部分:数据的完整性、一致性和准确性
杜克-马戈利斯
数据集中或链接数据集之间数据值的稳定性
PCORI
一致性作为合理性和符合性的子类别包含在内
完整性
Flatiron Health RWD
数据值的存在(数据值频率,不参考实际值本身)
EMA
广泛性,包括完整性:在给定捕获过程和数据格式的情况下,可用信息量相对于可用信息总量
NICE
在给定时间点没有丢失数据的记录的百分比
FDA
“存在必要的数据”
杜克-马戈利斯
对定义的数据字段和/或数据集之中记录数据的测量
数据集之中数据属性的频率,不涉及数据值
PCORI
数据集之中出现的数据属性的频率,不涉及数据值
来源
Flatiron Health RWD
审计跟踪 ,说明一条数据(在数据库、文档或存储库中)的来源,并解释它如何以及为何到达当前位置
EMA
没有定义
NICE
描述追踪数据来源并识别数据在其整个生命周期中如何更改和变换。它提供了对数据源的可信度或可靠性的理解
FDA
审计跟踪“说明一条数据(在数据库、文档或存储库中)的来源,并解释它如何以及为何到达当前位置”
可追溯性:允许理解分析之间的关系结果(研究报告中的表格、清单和图表)、分析数据集、制表数据集和源数据
杜克-马戈利斯
数据的起源,有时包括数据保管人和转换的时间记录
可追溯性:记录位置、所有权和价值变更的能力
数据累积:收集和聚合数据的过程(包括出处)
数据沿袭:数据的历史所有数据转换(例如,重新编码或修改变量)
PCORI
没有定义
时效性
Flatiron Health RWD
数据以可接受的新近度收集和整理,以便数据集代表覆盖期间的现实
EMA
在正确的时间为监管决策提供数据,这反过来又需要在可接受的时间内收集并提供数据
流通性:考虑数据的新鲜度,例如当前的和立即有用的
滞后性:数据晚于以下方面获取:预期与现实相符
NICE
数据收集和研究可用性之间的滞后时间
FDA
没有定义
杜克-马戈利斯
纵向性:按暴露时间/间隔和结果时间索引的数据状况
PCORI
没有定义
Flatiron Health RWD 的质量管理流程与每个质量维度相符。通过数据集的大小、变量的广度和深度来优化与广泛或特定用例的相关性。通过与外部/内部参考标准或间接基准比较等验证方法来实现准确性,以及基于数据变量对预期用例的可行性和关键性,采用符合性、一致性和合理性的验证检查。数据的完整性根据预期的源文档进行评估;来源通过记录数据转换、管理程序和可审计的元数据实现;及时性通过设置刷新频率以最大限度地减少数据滞后。
开发高质量、规模化的基于EHRs的RWD需要在数据生命周期 中整合系统化的流程,通过了解数据来源、数据筛选过程和使用案例需求,优化质量处理方法。通过从已发表的指南中考虑质量维度,Flatiron Health RWD能够清晰地确定生成RWE的适用性。
监管的回应:RWD标准本就很高
FDA肿瘤卓越中心的Donna R. Rivera等人就上述研究发表了一篇名为The Bar Is High: Evaluating Fit-for-Use Oncology Real-World Data for Regulatory Decision Making的评论,阐述了监管的看法。
在监管中,根据相关监管标准RWD可用于评价临床试验 中不容易评估的安全信号。此外,RWD可用于研究病因尚不明晰的癌症自然史;或用作外部对照或是历史基准,为单臂试验 的结果提供背景。RWD还可以前瞻性地用于实用性随机临床试验(pragmatic randomized clinical trial)。但在这些应用情景中,首要考虑的是RWD的质量,因为它有可能对研究结果的解释有影响。
Castellanos等人强调了不同监管机构和卫生政策专家在定义 RWD 质量方面的相似之处,以及在缺乏具体基准或阈值的情况下如何直接评估数据质量的挑战(即,多好才足够好?) 。该文章指出了该领域在数据质量评估中面临的其他挑战,包括多学科专业知识的储备、缺乏一致的术语以及随着 RWD 来源的发展对评估数据质量的新维度的考量。
FDA并不认可任何特定的数据源作为适用于监管决策的数据源。特定数据源的适用性必须在特定预期用途的背景下确定。2021 年以来,FDA已发布了五份与RWD 用于监管目的相关的草案或最终指南。FDA RWE指南关注的焦点是基于相关性和可靠性原则的数据源的适用性(fitness for use)评估。
监管强调不可靠和不相关的数据不适合使用,因此不能用于支持肿瘤学的监管决策,因为这些数据可能导致有偏见或无法解释的结果和错误的结论。由于适用性的评估本质上是针对监管研究问题的,因此研究设计的透明度以及对所选数据源的仔细评估和报告对于了解潜在偏差来源非常重要。Castellanos 等人的分析强调了透明度作为表征单一特定 RWD 源的适用性的重要性。然而,如果没有具体的研究问题,这种对适用性的高水平评估是有限的。
RWD并不意味着“节省资源”
此外,Castellanos 等人提到了用于肿瘤学的非结构化 RWD 越来越多,包括放射学报告、实验室报告、医生记录和基因组测序数据。虽然此类数据的人工提取是劳动密集型的(labor intensive),但人工智能 (AI) 的应用,包括自然语言处理、大型语言模型和机器学习等技术,有望促进数据提取。然而,监管认为人工智能方法需要确认和验证。考虑到潜在的偏见,目前这类处理可能不适合用于监管决策。
虽然有些人可能将 RWD 的使用视为干预性研究的一种节省资源的替代方案,但考虑到确保 RWD 来源的相关性和可靠性所需的专业知识水平,使用 RWD 的精心设计和进行非干预性研究可能会占用大量资源。评估数据的相关性和可靠性至关重要,否则可能会导致偏差 、混淆 和错误 的结果。因此,为提供支持监管决策的证据,药企应尽早且经常与监管机构讨论纳入 RWD 的研究设计,致力于不断改进数据,将最大化利用RWD生成以患者为中心的监管决策所需的RWE,推动肿瘤医疗产品的发展,以及保护和促进公众健康。
识林-海葵
识林® 版权所有,未经许可不得转载。