|
首页
>
资讯
>
真实世界数据质量如何评价?EMA 划定框架并提供示例
出自识林
真实世界数据质量如何评价?EMA 划定框架并提供示例
2026-04-07
3月27日,EMA定稿工作文件《欧盟药品监管数据质量框架:应用于真实世界数据》,基于“欧洲药品监管网络数据质量框架”(EMRN DQF)以评估支撑真实世界证据(RWE)的真实世界数据(RWD)质量(即,RW-DQF),提供详细的可操作的技术建议,旨在促进高质量的RWE用于支持监管决策。
尽管目前中美监管机构已相继发布多项RWD/RWE的指导原则,但大多侧重于“用于什么”和“怎么用”的宏观共识层面,对于RWD本身的质量仍欠缺适用的量化标准。EMA的RWD质量量度框架对我国行业具有相当参考价值。
文件内容丰富,并且附有大量的示例表格,直观且实用,建议有需要的读者查阅原文。以下概要其提出的RWD数据质量评估框架,以及基于研究目的的评估思路。
数据质量量度的二维结构化框架
文件第五部分系统阐述了RWD的数据质量量度(metrics)。EMRN DQF将量度定义为“内在决定因素”,指无需了解数据生成方式及预期用途即可用于评估数据质量(可视为数据的“质量标准检测项目”)。RW-DQF在此基础上,针对RWD特征提供了具体的量度示例。
文件提出一个分类框架,将数据质量量度按照数据质量维度及所依赖的信息类型进行组织。该框架采用二维结构:“列”为数据质量维度,包括“可靠性”(Reliability,包括准确性和精确性),“覆盖度”(Extensiveness,或代表性),“连贯性”(Coherence,包括同质性和统一性),以及“时效性”(Timeliness,但并不意味着“过时”就一定失效)。这些维度在第三部分详述。
“行”则基于量度与数据集的关系分为五类:
- 第一类为独立数据检查。该类量度无需对数据集内容具备额外知识或信息。示例包括空字段或损坏字段数量、潜在重复记录数量等,可广泛应用于不同类型的数据。
- 第二类为基于数据源元数据的检查。该类量度依赖于对特定数据集的深度认知,如元数据或支持性文件中提供的信息。例如,数据集可附带描述数据点置信水平的元数据(如通过算法将数值映射至标准编码时的置信度),可用于评估数据集的可靠性。
- 第三类为合理性检查。该类量度基于对数据所表征客观世界的一般知识,通过检测数据中不可能存在的模式来评估数据质量。示例包括女性患者中出现仅在男性中存在的医学观察值、超出合理范围的测量值(如血压1000/500 mmHg)、不符合时间逻辑的模式(如死亡后开具处方)。
- 第四类为一致性检查。该类量度评估数据对规定结构、词典或格式的符合程度,如表示疾病状态的数值均应来源于某个指定术语集。
- 第五类为与参考数据源的比较。通过与参考数据源进行个体层面(如跨数据源比对具体数据元素)或汇总层面(如比较整体分布或趋势)的对比,支持数据完整性和可靠性的评估。参考数据集需基于预设标准选取,并应在各数据质量维度上具备高质量。
文件强调,上述量度分类框架旨在帮助构建和系统化现有质量量度,形成均衡的度量集,并识别现有度量集的缺口。实际应用中,并非所有五类检查均可实现,申办者应根据具体情境和数据质量维度调整。
评价数据质量最终还是要从研究问题出发,以终为始
在利用RWD支持监管决策的进程中,数据质量的评价不能停留在技术层面,而是从研究设计之初就应开展系统性评估。文件第六部分就是阐述这一点。
文件强调,在定义研究问题时,利益相关者需引导患者代表深度参与。真实的临床价值不仅存在于实验室指标中,更存在于患者的日常感受与生存质量中。通过将患者体验转化为研究优先级,可以确保后续的所有数据筛选和分析工作都具备实质性的临床意义。
当研究问题明确后,评估工作的核心在于数据的“切合目的程度”(Fitness-for-purpose)。指南提出了一种“以终为始”的逻辑:研究者应预先设定满足研究所需的“最低数据要求”。一旦目标数据库在关键变量(如特定的基因突变记录)上存在先天缺失,且这种缺失无法通过逻辑推导或补充手段弥补,那么该数据库应被判定为不合格。这种严谨的准入机制也提醒申办者,并非所有研究问题都能通过后期算法修正来适配劣质数据集。
在处理来自不同医疗体系或地理区域的多源数据时,“连贯性”评估尤为关键。指南认为,虽然数据的不一致性通常不直接导致否决,但它决定了研究的执行难度与可信度。通过采用 SNOMED CT 或 ICD-10 等国际标准本体进行映射,以及运用算法校准技术,可以显著增强数据的可比性。尤其在跨境研究中,申办者需警惕不同医疗体制背后的系统性偏差(System Biases),这是确保分析结果具备普适性的前提。
最后,可靠的 RWD 研究必须建立在详尽的文档审计基础上。申办者不应仅关注最终的分析结果,还应回溯数据的生成全过程——从原始采集系统、质量保证流程到后期的数据富集与转化步骤。例如,通过对元数据的深度检查,申办者能够识别出隐藏在数据背后的采集偏好或处理痕迹。
作者:识林-实木
责任编辑:识林-木姜子
识林®版权所有,未经许可不得转载。
岗位必读建议- QA(质量保证):应深入理解数据质量框架(DQF)对数据可靠性、完整性和一致性的要求,确保数据收集、处理和分析的每个环节符合监管标准。
- 注册部门:需熟悉DQF中关于数据质量的指标和度量,以支持药品注册过程中的数据提交和监管决策。
- 研发部门:应确保在药品研发过程中生成的数据满足DQF的标准,以支持后续的监管评估和决策。
- 临床研究部门:在设计临床试验和收集数据时,需遵循DQF的指导原则,保证数据的质量和适用性。
文件适用范围本文适用于欧盟药品监管网络,涵盖了化学药、生物制品、疫苗和中药等药品类型,包括创新药、仿制药、生物类似药和原料药等注册分类。主要针对Biotech、大型药企、跨国药企等企业类别。 文件要点总结- 数据质量定义:数据质量(DQ)被定义为数据满足用户在健康研究、政策制定和监管方面需求的程度,以及数据反映其旨在代表的现实的程度。
- 数据质量维度:DQF明确了可靠性、广泛性、一致性、时效性和相关性五个关键维度,并为每个维度提供了子维度、度量方法和相关指标。
- 成熟度模型:提出了成熟度模型,指导如何通过不同的成熟度级别来评估和改进数据质量,以支持数据驱动的监管决策。
- 数据质量评估:强调了在数据生命周期的各个阶段进行数据质量评估的重要性,包括数据生成、处理、聚合和分析。
- 实施建议:提供了关于如何在组织内实施DQF的指导,包括质量控制、主数据管理(MDM)、质量管理体系(QMS)和行业标准的使用。
以上仅为部分要点,请阅读原文,深入理解监管要求。 【文件概要】
该文件基于欧洲药品监管网络(EMRN)数据质量框架(DQF),针对真实世界数据(RWD)在药品监管中的应用提出具体建议。文件旨在通过系统化方法评估RWD质量,支持监管决策中真实世界证据(RWE)的生成。内容涵盖RWD的特性分析、数据质量(DQ)评估的关键考量(如可靠性、广泛性、一致性和时效性),并提供三部分实用指南:系统与流程特征描述(第4节)、DQ指标框架(第5节)及针对特定研究问题的数据适用性评估方法(第6节)。文件强调需结合研究背景灵活应用框架,避免预设质量阈值,同时提供示例工具(如检查清单和成熟度模型)以支持实施。 【适用范围】
本文适用于欧盟范围内用于药品监管决策的RWD,包括电子健康记录(EHR)、医保数据、患者登记库等临床实践数据,涉及化学药、生物制品等所有药品类型。适用对象包括EMA、制药企业、CRO及数据持有方(如医院、注册机构)。不适用于已发表分析的再利用数据、患者直接报告数据(如PROs)或特定专业数据(如体外诊断)。 【影响评估】
本文为RWD在监管应用中的质量评估提供了标准化方法,可能增加企业数据治理和提交的合规成本,但将提升证据可信度,加速RWE在审批和生命周期管理中的采纳。对依赖RWD的罕见病或真实世界研究影响尤为显著,需调整现有数据管理流程以满足框架要求。 【实施建议】 - 必读岗位及建议
- 注册(RA):确保提交材料包含系统流程检查清单及DQ指标,与EMA预沟通框架应用细节。
- 临床运营:在RWE研究设计中嵌入DQ评估步骤,验证数据源对研究问题的适用性。
- 数据管理(DM):实施自动化DQ检查工具,定期生成指标报告,优化数据清洗和映射流程。
- QA:审核数据治理流程是否符合框架要求,重点监控数据溯源和元数据完整性。
以上仅为部分要点,请阅读原文,深入理解监管要求。
|