首页
>
资讯
>
【周末杂谈】AI 用于分析药品说明书
出自识林
2024-01-07
AI的作用应是让普通人能做专业的事,而不是让专业的人做普通的事
朋友知道笔者对AI感兴趣,两天前转来一篇美国FDA Leihong Wu等作者刚刚在Experimental Biology and Medicine 杂志上发表的题为“RxBERT:增强药品说明书文本挖掘和分析的AI语言建模”的文章。Drug labeling包含药品标签 和说明书。为叙事简便,本文中统一用说明书这个词。BERT是谷歌的通用AI语言模型,Rx是处方药的简写,起名为RxBERT的意义明显。
作者们提出新的AI语言模型,主要是为了解决如下三个问题。一是帮助FDA的审评人员和科学家们,从大量的药品注册 申报及其补充材料中,快速并准确地找出相关的药品安全信息,从而提高审评效率,及时辨识相关药品安全信息。二是药品申报资料是永久保密的。使用通用的AI语言模型,例如BERT或ChatGPT,需要用这些资料来训练模型。这就等于要将这些保密的资料交给第三方,这是FDA不能做的。三是FDA可用的GPU服务器必须是内部的。但FDA经费有限,所以其AI语言模型,不能是像ChapGPT 3.5或更新版那种需要海量计算能力的大语言模型。
大家可能知道,在所有药品注册材料中,最重要的恐怕就是说明书信息(包括标签信息)。因为企业申报药是为了卖药。卖的是什么?是说明书上标明的有效性和安全性。有效性和安全性如何写?是企业建议,FDA批准。企业的建议,必须言之有据,即临床证据。但临床证据难得黑是黑、白是白。企业希望说明书写的积极些,让医生更放心开药,但也不能过分。否则一是过不了FDA这关,二是将来用药出了安全性问题,要负法律责任。因此,说明书的措辞是很有讲究的,是科学、医学、法律和语言智慧的结晶。如何用好这些宝贵的说明书申报资料,是很有意义的。下图显示药品说明书中的语言与通常书籍、生命科学杂志和医生病例中的语言有明显的差异。
FDA现有140000份申报说明书资料。为了训练RxBERT模型,作者们用了44990份,并从中选出了28000个词汇及5500000个句子。作者们用的模型,只有10亿个训练参数。相比之下,ChatGPT3的参数要百倍于此。新版ChatGPT的参数更高。RxBERT模型的训练,只靠FDA自己的、具有7个GPU节点的NVIDIA GPU服务器 V100。训练所用时间是8.5天。从硬件和实用的角度看,这个训练成本是FDA可以接受的。文章还将RxBERT与其它几种BERT模型做了比较,包括BERT、ALBERT、DistilBERT、RoBERTa及BioBERT等,结果显示RxBERT要稍好些。
上面说的都很好,显示了AI语言模型的用途及实用性。但笔者对这类AI研究有些概念上的困惑。
注册申报材料中的说明书部分,要满足各种格式要求。例如,安全性文字出现在或不出现在哪些章节项中,都是有要求的。说明书还必须按照基于XML的Structured Product Labeling (SPL) 方式写。这个方式明确了说明书中不同部分间的关系。再有,说明书的内容,毕竟不会太长,通常也就是百十来页。对一位有着良好专业素养、多年经验、审批说明书的医学博士,阅读和分析这部分内容,应不会太费时费力。再说了,判断药品的安全性问题,往往是关注其结构组分、作用机理和临床使用。这些都是科学内容,文字书写的好坏,是可以有些影响,但应有限。
AI的作用,一般讲来,应是让普通人能做专业的事,而不是让专业的人做普通的事(文字处理)。首先,AI语言模型在药品审批上能否起到关键作用,尚待探索。其次,若是AI语言模型哪天真成功了,取代了做审评的医学博士的作用,那是好事还是坏事?对谁好,对谁不好?
榆木疙瘩
识林® 版权所有,未经许可不得转载