【质量对话】基于数据与数据驱动
出自识林
【质量对话】基于数据与数据驱动
笔记 2021-10-17 从数据的相关性和可靠性,看数据的质量 刺槐:垃圾进,垃圾出(Garbage In, Garbage Out, GIGO),众所周知。虽然也不时有人从垃圾中发现宝物,但这是小概率事件。大概率事件是数据的质量决定了结果的质量。最近的两篇识林报道从临床数据【FDA 发布电子健康记录和医疗索赔数据中的真实世界数据指南草案 2021/09/30】和生产数据【周末杂谈:监管科学研究实例 – 基于数据的 GMP 监管 2021/10/10】角度触及了这个问题。 编辑:临床数据,你是说FDA关于使用电子病历等数据作为真实世界数据的指南? 刺槐:正是。指南关注如何选择与临床研究问题相关的数据及如何把控数据的质量,建议在考虑使用真实世界数据前,应先研究数据的相关性和可靠性。 编辑:数据的相关性是什么意思? 刺槐:指南中给出了这样一个例子。在美国,电子病历中通常不包括患者死亡的数据。若是要用电子病历数据作为真实世界数据来支持一项研究且其临床终点包括死亡的话,则此真实世界数据对该项研究的相关性就成问题了。 编辑:对于电子病历数据的可靠性,或更准确地说是不可靠性,我是有体会的。自由文字型电子病历(通过敲电脑键盘而输入文字),受制于医生文字输入的随意性。有些病历写的详细,有些只有寥寥几个字。结构型电子病历(通过在电脑屏幕上选项而输入),克服了上述弊病,但不同电子病历厂家的结构化方式不同,使得数据的横向比较困难。 刺槐:可以这样理解,相关性是关于数据质量的定性描述,可靠性是对数据质量的定量描述。 编辑:这样看来,在电子病历书写规范化之前,若想对电子病历数据做直接的、自动的统计分析,最好将数据源锁定在使用同一个厂家的、结构化的电子病历软件的医疗机构中。但这恐怕不是一时半会儿可以实现的。 刺槐:类似的数据质量问题,也发生在药品生产质量管理中。现来考虑一个常见的偏差问题。偏差重复发生,就是犯了同样的错误,说明质量管理体系有问题。所以,对质量管理体系的量化评估来说,“偏差重复发生率”就是一个重要的数据,其相关性不成问题,但可靠性就不一定了。在比较两个企业的质量管理体系在时,若两个企业对“偏差重复发生率”的定义不同,则比较的意义就大打折扣了。例如,比较两个质量管理体系表现随时间的变化,需要知道相应的“偏差重复发生率”。设想,若某偏差2017年第一次出现,2018年第二次出现,那重复发生的偏差是计数到2017年还是2018年?再设想,若第二次偏差发生在2020年,应算为重复偏差还是新偏差?这是因为在实际生产中,重复偏差的计数,不能等得太久。 编辑:明白了,若是数据的定义不同,数据就可能不同,由此而产生的计算结果就有不确定性。但这与数据的质量有什么关系呢? 刺槐:质量是不确定性的量度呀?! 编辑:晕! 刺槐:科学的发展,离不开数据,甚至可以说是基于数据的,但未必是数据驱动的。通常情况下,只有当对数据背后的道理有了充分的认知,对数据有了明确和统一的定义,对数据的验证和计算有了严谨的方法,才有可能考虑数据驱动。 编辑:以前,基于数据和数据驱动两个词,我常混着用,今后不会了。 识林®版权所有,未经许可不得转载。如需使用请联系 admin@shilinx.com 。 必读岗位及工作建议:
适用范围: 文件要点总结:
以上仅为部分要点,请阅读原文,深入理解监管要求。 |