如何监管生成式人工智能(AI)器械是美国 FDA 新数字健康专家委员会于 11 月 20 日开始的为期两天的首次会议的核心议题。
FDA 局长 Robert Califf 在会议上致开幕词,指出 FDA 自 1995 年以来已收到 1000 多份支持 AI 的医疗器械的申请,300 多份包括 AI 成分的药品和生物制品的申请,并且几乎每件药品申请都在开发过程中的某处使用了 AI。但他也警告指出,如果没有适当的保障措施,AI 最终可能不会让美国变得更健康。
Califf 表示,“我听到越来越多的人担心采纳 AI 的标准几乎存粹是出于财务考虑,”并警告表示美国农村地区可能会被排除在外。“临床结局测量很难。除非非常认真地对待这些问题,并组建那些关心改善健康结局的人的联盟,否则这项技术将以我们整体健康恶化为代价来提高利润。”
生成式 AI 模仿输入数据的结构和特征,以生成图像、视频、文本和其它数字内容等合成内容,在医学领域的应用越来越广泛。FDA 指出,这些 AI 支持的器械可以有各种预期用途,因此一般讨论的考虑因素可能并不适用于所有支持生成式 AI 的器械。
哈佛大学助理教授 Pranav Rajpurkar 向专家委员会介绍了衡量生成式 AI 性能的困难。“让我们感到非常兴奋的事情之一是大型语言模型(LLM)能够进行对话。这些系统的评估方式与这些系统在实践中的预期使用方式之间存在很大差距。”
例如,他指出,目前对 LLM 的主要评估是回答医学考试问题,研究表明 LLM 的表现优于人类,其它研究甚至表明 AI 的表现优于在 AI 辅助下的临床医生。