FDA 预测机器学习将在药物研发和审评中发挥更加重要的作用
首页 > 资讯 > FDA 预测机器学习将在药物研发和审评中发挥更加重要的作用 出自识林
FDA 预测机器学习将在药物研发和审评中发挥更加重要的作用
笔记 2020-03-03 机器学习(machine learning,ML),第一个正式的定义来自卡内基梅隆大学的Tom Mitchell教授,他认为一个计算机程序在完成一项具体任务时,其性能可随着经验的积累而不断自我完善,那么这个程序是在从经验中学习。在过去十年中,由于互联网的发展带动了大量数据的生成, ML几乎为我们生活的每个方面都带来了革命性的创新,包括零售(如推荐系统)、金融(如欺诈检测)、交通(如自动驾驶汽车)、娱乐(如AlphaGo)等。同样,ML在生物医学领域也得到了越来越多的探索,为进一步推动药物和设备研发、促进精准医疗带来了新的希望。 目前,ML算法可以分为三大类型:监督学习、无监督学习和强化学习(图1)。监督学习算法主要从 “标签”数据集中学习,包括输入数据集(例如,肿瘤图像)连同他们的“标签”——观察到的输出数据(例如,是否恶性肿瘤或良性)。经过训练“标签”数据集,该算法有望根据输入的数据对结果做出进一步预测。相比之下,无监督学习算法使用未标记的数据集(只输入数据,不输出数据),需要通过训练发掘数据之间的内在联系。聚类(根据相似点对数据点进行分组)是一种常见的无监督学习技术。强化学习通过“奖励”(反馈回路)系统来训练算法,对于每个可预测的步骤或行为,都会提供一定形式的反馈。 2020年1月11日,FDA药物审评与研究中心(CDER)和肿瘤卓越中心(OCE)联合在Clinical Pharmacology & Therapeutics杂志上发表一篇文章,从监管视角对近几年来提交的ML算法相关案例进行了阐述分析,并判断ML算法将在促进监管审评、药物研发等方面发挥更加重要的作用。 作者表示,近年来,FDA器械和放射健康中心(CDRH)已经收到了一些基于ML的医疗器械独立软件(software as a medical device,SaMD)意见书,其中许多是以影像数据为基础的诊断软件。随着这些算法在促进药物研发和指导患者用药方面的探索应用不断增多,FDA其他下属机构,如 CDER 和 OCE 已经投入资金用于学习最前沿的ML算法。从目前来看,一些算法仍然需要长时间的调整和适应,以进一步提高其性能 (例如,准确性)。因此,为促进申办人对SaMD的进一步改进,确保它在应用中的安全性和有效性,FDA正在开发一个监管框架。虽然该框架是主要是为SaMD设计的,但也为将来ML在药物研发方面的应用审批提供了依据。 另外,除SaMD外,CDER也收到了一些ML算法应用于其他领域的申报,例如:(1)采用随机森林(RF)、支持向量机(SVM)、K最近邻规则分类(KNN)等算法,模拟具有个性化差异的患者对于安慰剂和研究药物的不同反应、筛选一组可用于预测研究药物疗效和不良反应的生物标志物,或者类似的与评估药物反应相关的研究;(2)研究是否可通过早期影像学生物标志物预测患者无进展生存期;(3)采用ML算法将一个异质性的患者群体按一定的方案分成多个具有不同风险/获益的子组,并确定从方案中获益最大的子组;(4)采用ML算法通过历史数据进行疾病建模;(5)探索通过ML技术在大型医疗数据集(如行政索赔数据和电子健康记录)中增强模式查找所需内容,以获取药物使用安全性和上市药物疗效方面的有关数据。 与此同时, FDA也正通过一系列行动逐步探索ML在药物审评、药物研究等方面的应用,例如:(1)采用ML算法与传统的统计分析方法互补的方式来构建定量药理学模型。也就是说,使用ML算法对大量的协变量进行筛选和分类,然后使用传统回归建模将ML筛选的协变量放入数据中进行一一验证,最终模拟出合理的暴露-反应曲线。目前,FDA的科学家也在致力于将ML算法与因果推论工具(如反概率加权和边际结构模型)进行结合以提升药物暴露-反应分析的效率和准确率;(2)利用ML算法探索建立定量结构活性关系模型为预测药物毒性提供依据;(3)FDA正在探索将自然语言处理与ML算法结合来分析FDA不良事件报告系统和疫苗不良事件报告系统收到的安全报告,以及时检测潜在的信号,并确保优先审查最重要的报告;(4)FDA正在探索利用ML深入分析医学影像数据,为疾病的检测、表征分析、分期以及治疗反应的预测和评估提供参考,以推进精准医疗,协助医生制定更加有效的治疗方案;(5)ML已经被用来帮助预测新化学实体的首次申报时间,以帮助优先开展研究工作,并根据产物给出具体的研发指导意见。【FDA 开始构建制药行业研发活动预测工具 2019/06/26】 总之,随着时间的推移,ML工具的使用会更加普遍。但是,就目前而言,这一算法的普及也存在诸多挑战。 首先,对ML进行及时的验证和改进是保证其性能的关键。其次,确保算法的可推广性也是很重要的因素。使用有偏差的训练数据,可能会导致有偏差的预测和错误的决策。因此,在可能的范围内,训练数据应该是无偏的,多样化的。再次,许多ML系统(如,人工神经网络ANN)的黑箱特性有时也会阻碍它们的应用,算法的复杂性使得很难解释输入特征与模型预测之间的关系,以及何时可以使用算法进行可靠预测。因此,增加开发一些具有可解释性的方法也是很有必要的。另外,深度学习需要大量的数据,如何获得足够多的、多样化的、标记良好的数据是该领域面临的一个挑战。因此,数据共享和协作至关重要(成功的例子包括国家癌症研究所的癌症研究数据共享)。最后,如何吸引ML专家参与药物开发也是一项不小的阻碍,跨学科的合作和交流也至关重要。 然而,不可否认的是,ML算法将在未来逐步成为数据聚合、信息合成、模式识别和决策优化的重要工具。今后FDA可能会收到更多基于ML工具的申报,而ML无疑将在促进监管审评和研究以及优化操作方面发挥更加重要的作用。 作者:识林-柠 参考资料 |