|
首页
>
资讯
>
欧洲药典12.3发布新通则《5.38 数据质量》
出自识林
欧洲药典12.3发布新通则《5.38 数据质量》
2026-02-11
欧洲药典(Ph. Eur.)于12.3版发布了《5.38 数据质量》(Quality of Data)新通则,聚焦如何确保数据质量,以增强对数据驱动应用、模型及其预测结果可靠性的信心。对于依赖多源、大数据量的机器学习(ML)和人工智能(AI)而言,这一点尤为关键。
通则5.38为整个数据生命周期内的数字数据质量管理提供了框架,覆盖从实验室质量控制(QC)、过程分析技术(PAT)、实时放行检测(RTRT)、连续制造到基于ML/AI的自动化决策(ADM)系统,适用于大、小数据量,批处理或流式数据,结构化与非结构化数据,是对Ph. Eur. 现有的支持制药行业数字化和技术创新通则的进一步补充,这包括应用于分析数据的化学计量学方法(5.21)、多变量统计过程控制(5.28)、实验设计(5.33)、化学成像(5.24)和过程分析技术(5.25)。
这是主要监管机构首次针对“数据质量”这一概念发布指南级别的文件,其框架与业界熟知的数据可靠性(Data Integrity)不同,因其初衷侧重于确保高质量的数据用于各类信息化自动化工具,而非确保数据本身的合规性。为便于理解,两者的关联似可以类比为“药品质量”与“药品质量保证”之间的关系。
以下是通则重点内容摘要,供读者参考。
管理数据质量首先要梳理数据来源
理解数据的来源(即其物理来源)是评估数据质量的第一步。数据可通过数据录入获得,即人工从记录本录入,或自动从实验室仪器采集,也可通过第三方来源、数据库、实验室信息管理系统(LIMS)或云端提供,以不同格式、不同频率(批处理或流式)等方式生成。来自传感器等物联网设备的数据需关注设备运行条件与数据流转过程,以评估外部因素对数据完整性的冲击。
此外,来自本地数据库数据在到达一定规模后存在扩展与管理挑战,需建立规范流程保障数据安全与可恢复性;数据仓库、数据集市与数据湖在结构化程度与应用场景上各具特点。
GMP要求来自各种来源(生产系统、传感器、人工输入等)的数据必须准确且一致。数据的存储与保存必须符合既定的内部与外部标准及法规。这里将“数据质量”与“数据可靠性”建立了联系。
数据质量与数据可靠性:评估维度大同小异,各有侧重
数据质量水平取决于其符合用户自定义的质量维度及其具体度量值,从而确保数据适用于既定用途(fit for purpose)。
通则建议,质量度量标准的定义应由数据分析师与领域专家共同协作制定,同时给出了业界普遍接受的数据质量维度如下:
- 准确性(Accuracy/Trueness):与已知正确或真实值一致程度,控制系统误差/偏倚。
- 不确定性(Uncertainty):一组数据值围绕其均值的分散程度,支持合并标准不确定度。
- 精密度(Precision):重复观测值彼此接近的程度,控制随机误差。
- 完整性(Completeness):数据集包含其应包含的所有值的程度(即无缺失值)。
- 一致性(Consistency):数据集中、跨数据集、与标准定义保持协调。
- 及时性(Timeliness):数据首次创建至其可被下游流程和人员实际使用之间的延迟。
- 可重现性(Reproducibility):数据可被他人独立验证并重复。
- 真实性(Veracity):数据的准确性,与源数据验证相关。
读者可回顾“数据可靠性”的ALCOA+原则(翻译采用《药物临床试验计算机化系统和电子数据指导原则(征求意见稿)》)。
- A(Available When Needed),可获得性;
对比可见,两者在基本质量维度上高度一致,均强调数据的准确性、完整性与一致性,但视角与适用范围也有所不同。数据质量水平是一个通用性框架,旨在确保数据“适用于既定用途”,其维度定义更侧重于技术度量与过程控制,如通过精密度(Precision)控制随机误差、通过不确定性(Uncertainty)量化数据分散程度,这些维度具有较强的统计与工程色彩,适用于广泛的数据管理场景。
数据全生命周期管理:围绕ETL流程
除了理顺数据源并提出数据质量标准,通则5.38还给出如何确保数据质量的管理框架。数据管理可概括为 ETL(Extract-Transform-Load) 流程:先从来源抽取数据,在暂存区内进行清洗、转换与增强,最后加载供使用。
抽取Extract
在数据抽取阶段,原始数据最好以开放格式直接进入标准化或自动化的工作流管道;原始数据及其配套的元数据必须包含足够的信息;所有原始数据与源数据必须可追溯、可检索,以供后续评估。数据可从不同位置或来源抽取(收集),加以整合。此外,应引入主题专家对数据进行审查,以评估其是否适用于既定用途,及时识别与解决数据异常情况。
转换Transform
在数据转换阶段,核心任务是将原始数据整理成适于分析的标准化格式,涵盖三个主要方面:
- 清洗,旨在解决数据一致性与完整性问题,依据规则处理异常值、重复值等,并通过可追溯的数据重构与策展提升处理透明度;
- 转换和集成,将数据整理成便于分析的格式与模板。标准化,可能包括过滤、聚合、汇总、单位与类型转换、(必要时)加密、执行治理审计及质量检查等操作。
- 增强,通过逐步或实时补充相关信息,以充实数据内容,使其更聚焦于分析目标。
加载Load
在数据加载阶段,转换后的数据被传送至目标位置供使用,例如:决策面板,支持灵活查询的数据库等。
在ETL过程中,数据进入目标暂存区后可能经历修改、生成新数据集,被丢弃、恢复或使用。对此过程应有完整文档记录,需包含数据的来源、格式、结构以及所作的任何转换或修改,这些记录可以通过版本控制系统进行有效跟踪和管理。
在ETL流程基础上,数据生命周期管理涵盖如质量评估、处理步骤、分析、计算与结果报告、数据集成与验证等内容。重点包括数据的归档与存储,在法定保存期内应检查存储数据的可获得性,必须在整个数据生命周期内证明所有数据的可追溯性与完整性。
识林-白蜡
识林®版权所有,未经许可不得转载
适用岗位及工作建议: - QA(质量保证):负责确保临床试验计算机化系统和电子数据的合规性,监督系统验证和数据可靠性。
- 注册(Regulatory Affairs):需熟悉本指导原则,以确保注册申报材料符合监管要求。
- 临床(Clinical):负责临床试验数据的采集、管理和报告,确保数据的ALCOA++原则。
- 研发(R&D):在药物开发过程中,需遵守本指导原则,以确保临床试验数据的质量和合规性。
- 数据管理(DM):负责电子数据的管理,包括数据采集、审核、备份和恢复策略的实施。
适用范围: 本文适用于化学药和生物制品的药物临床试验,包括创新药、仿制药及生物类似药,主要针对中国药品监管部门和在中国进行的临床试验。 文件概要: 本文主要阐述药物临床试验中计算机化系统和电子数据的使用规范。背景部分强调了临床试验数据质量的重要性及科技进步对临床试验的影响,同时提及ICH E6(R3)对计算机化系统提出的新要求。适用范围部分明确了指导原则基于ICH E6(R3)和中国GCP要求,针对影响试验参与者保护和数据可靠性的计算机化系统。一般考虑部分涵盖了数据可靠性、职责划分、风险管理和数据采集等方面,强调了建立质量和风险管理体系的必要性。计算机化系统部分详细讨论了应用规程、培训、安全性、验证等关键环节,确保系统的准确性和可靠性。电子数据部分则包括数据采集、稽查轨迹、审核、更正、传输、交换、迁移等,强调了数据的保密性和完整性。 以上仅为部分要点,请阅读原文,深入理解监管要求。 适用岗位: - QA:必须熟悉欧洲药典的质量标准和测试方法,确保产品质量符合规定。
- 注册:需了解药典变动,为药品注册提供准确的法规依据。
- 研发:在药品开发过程中,需遵守药典关于原料和制剂的标准。
- 生产:按照药典规定的方法进行生产和质量控制。
工作建议: - QA:定期审查药典更新,更新内部质量标准和操作程序。
- 注册:关注药典中关于新药和仿制药的要求,确保注册文件的合规性。
- 研发:在研发新药或仿制药时,参考药典要求进行配方和工艺设计。
- 生产:培训员工关于药典测试方法的操作,确保生产过程和产品质量符合欧洲药典的要求。
适用范围: 本文适用于化学药、生物制品、疫苗和中药等药品类型,包括创新药、仿制药、生物类似药、原料药等注册分类,由欧洲药典(EDQM)发布,适用于Biotech、大型药企、跨国药企、CRO和CDMO等企业类别。 要点总结: 欧洲药典第12版(EP 12)及其增补本12.1至12.8,提供了药品质量控制的标准和测试方法。新版药典每三年修订一次,包括8部增补本,新增和修订的药品标准草案首先在欧洲药典论坛发布征求意见。EDQM每年组织会议讨论修订稿,通过后纳入药典增补本。EP 12的目录包括初始版本及增补本,更新页码和通则。增补本说明文件包括新增及修订章节标题和内容概述。EP 12.1中,一些章节和专论是新加入的、修订的、更正的、标题变更或废止的,这些变动均用特定标记指示。新文本最迟于2026年1月1日生效,修订文本需在发布后一个月内实施。此外,EP 12.1还包括新的试剂和修改后的试剂列表,每个试剂都有独特的7位数字参考代码。 以上仅为部分要点,请阅读原文,深入理解监管要求。
|