美国 FDA 于 11 月 20 日和 21 日两天召集新的数字健康专家委员会讨论如何监管生成式人工智能(AI)医疗器械。会议期间,世界上最有影响力的监管机构之一试图控制世界上最强大、最不可预测的技术之一。
FDA 局长 Robert Califf 在会议一开始就警告指出,全国各地的临床医生告诉他,他们的医院和诊所采用这项技术是出于经济考虑,而不是为了照顾病人。“除非非常认真地对待这个问题,并与那些关心改善健康结局的人结成联盟,否则这项技术将以我们整体健康恶化为代价来提高利润。”
整个会议期间,来自科技公司、医疗系统和学术机构的顶尖专家们阐述了 FDA 面临的监管挑战。
人工智能精准医疗公司 Tempus 的高管 Noah Zimmerman 引用了一项调查,该调查发现,英国五分之一的医生报告使用 ChatGPT 来帮助处理从临床文档到诊断再到治疗选择的所有事情。“现实情况是,(临床医生)将转向通用(AI)工具,而通常没有适当的防护措施。这就是为什么这个专家会今天召开的会议如此重要。”
随后的讨论重点是 FDA 应如何调整其监管方法以适应这种与药物、传统器械和其它软件不同的人工智能,这种人工智能是动态的、不断变化的,有时甚至会出错。生成式 AI 对监管过程的每个阶段都提出了独特的挑战,从 FDA 的初步评估和审评到其在上市后监管这些工具的能力。
下面是对会上讨论内容的摘要:
上市前评估
由于生成式 AI 的响应变化多端,给 FDA 现有的审评流程带来了麻烦。与手术刀等其它器械不同,即使底层查询相同,生成式 AI 每次的表现都不同。
这意味着传统的统计性能指标根本行不通。这是因为底层事实和 AI 的响应都是变化无常和模糊的,因此评估人工智能的准确性和全面性变得更加主观。
专家会成员、圣路易斯 BJC 医疗保健公司数字产品和创新副总裁 Thomas Maddox 表示,“对我而言,输出可变性是这些工具的一个独特方面,尤其是在与临床医生或患者交谈时。我认为我们必须考虑如何评估和控制这一点。”
专家会成员建议,必须准确定义生成式 AI 的预期用途,依赖该技术的产品开发人员应披露有关其训练中使用的数据以及可能造成不确定性的情况的详细信息。
Buffalo 大学生物医学信息学教授 Peter Elkin 表示,“对于每个可能被考虑批准的模型,我们都需要一张模型卡,上面有训练该模型的确切数据集以及使用其数据的人的人口统计数据,这样我们才能了解其训练的广度。”
从这个意义上讲,FDA 的审评过程类似于评估人类医生的方法:审评员需要仔细审查生成式 AI 的训练,了解所需的监控水平,然后才能让它们在医院和诊所投入使用。
但,当大型语言模型的学习或推理方式与人类不同时,这一点很难做到。麻省总院和哈佛大学的放射科医生和自然语言处理研究员 Danielle Bitterman 告诉专家会,在美国行医执照考试中,她的实验室只是简单地在问题中切换了药品的品牌名和通用名,生成式 AI 就开始难以应对,尽管模型能够将品牌药物与其通用名称进行匹配。
美国国立卫生研究院(NIH)数字和移动技术项目官 Thomas Radman 表示,如果一家公司或医疗系统从现成的商业模型开始,那么也很难获得有关模型如何训练的信息,因为这些模型不会披露其训练数据库中的内容。
美国国家标准与技术研究院研究员 Gabriella Waters 表示,由于这些模型是基于概率运行的,并且会对其生成的每个单词掷骰子,因此当生成式 AI 模型得到正确结果时,我们应该比得到错误结果时感到更加惊讶。Waters 表示:“当你拥有一个以这种方式运行的模型时,在临床等高风险情况下部署它非常具有挑战性。部署后进行任何此类测试也有一定的风险。那太晚了。所有测试都需要事先进行。”
一些小组成员还建议,此类测试可能需要由独立机构进行,而不是由那些为了经济利益而不去发现或披露产品所有漏洞的公司进行。Radman 建议,像健康人工智能联盟、美国放射学院的评估人工智能计划或麻省总医院布莱根分院新推出的医疗人工智能竞技场这样的组织可能会对 FDA 有所帮助,因为它们可以将这项工作外包出去。
专家会主席、美国心脏病学会首席创新官 Ami Bhatt 在会议期间表示,“说实话,Kottler 的 Gen AI 错误示例让我心悸。” Kottler 表示,美国 40% 的放射科诊所都在使用该工具,错误示例报告的结果是患者的右腿而不是左腿,错过了膀胱扩张等重要发现,并幻觉认为没有卵巢的男性患者可能出现卵巢囊肿破裂 —— 所有这些错误都被主管放射科医生发现了。