输入“/”快速插入内容

ChatGPT-4 在医疗 AI 模型比较中的卓越表现

2024年12月6日修改
在当今时代,人工智能的应用日益广泛,特别是像 ChatGPT 这样的大型语言模型。人们越来越希望将这些 AI 模型用于解读医疗信息,以辅助做出关键的医疗决策。在这个背景下,本古里安大学内盖夫分校的一个研究团队展开了一项研究,对专门处理医疗信息的大型语言模型的能力进行了考察和比较。
这项研究的成果发表在了《生物学和医学中的计算机》杂志上。研究人员指出,人工智能应用于医疗信息领域已成为常见手段,可通过医疗聊天机器人回答患者问题、预测疾病、创建合成数据以保护患者隐私,或为医学生生成医学问题及答案。那些处理文本数据的 AI 模型在信息分类方面已被证明是有效的。然而,当涉及到关乎生命的临床医疗信息时,就需要深入理解医疗代码的含义及其之间的差异。
本古里安大学内盖夫分校软件与信息系统工程系的博士生 Ofir Ben Shoham 和 Nadav Rappoport 博士决定探究大型语言模型对医疗领域的理解程度以及它们回答相关问题的能力。为此,他们对通用模型和针对医疗信息进行微调的模型进行了比较。
研究人员构建了一种专门的评估方法——MedConceptsQA,用于回答有关医疗概念的问题。他们生成了超过 80 万个涵盖国际医疗概念的封闭式问题及答案,并将其分为三个难度级别。通过这种方式,他们可以评估使用语言模型的人员如何解释医疗术语以及区分诸如诊断、程序和药物等医疗概念。研究人员使用他们开发的算法自动创建了需要描述医疗代码的问题。
简单问题只需要基本的知识,困难问题则需要详细的理解以及识别相似医疗概念之间微小差异的能力,中等难度的问题则需要稍微多一些的基础知识。研究人员使用现有的临床数据标准来评估临床代码,以便区分用于医疗编码实践、总结、自动计费等任务的医疗概念。
研究结果表明,大多数模型的表现不佳,几乎等同于随机猜测,包括那些在医疗数据上进行训练的模型。只有 ChatGPT-4 表现出了比其他模型更好的性能,平均准确率约为 60%,但这仍然远未达到令人满意的程度。Rappoport 博士指出:“似乎在很大程度上,那些专门为医疗目的而训练的模型,在这项测量中的准确性水平接近于随机猜测,尽管它们是在医疗数据上进行预训练的。”
值得注意的是,像 Llama3 - 70B 和 ChatGPT - 4 这样为通用目的而创建的模型表现出了更好的性能。ChatGPT - 4 表现最为出色,尽管对于研究人员构建的一些特定医疗代码问题,其准确性仍然不足。与取得最佳结果的临床语言模型 Llama3 - OpenBioLLM - 70B 相比,ChatGPT - 4 的平均性能提高了 9 - 11%。
博士生 Shoham 解释说:“我们的测量方法为评估大型语言模型解释医疗代码和区分医疗概念的能力提供了宝贵的资源。我们证明,大多数临床语言模型的表现相当于随机猜测,而 ChatGPT - 3.5、ChatGPT - 4 和 Llama3 - 70B 则优于这些临床模型,尽管这些模型的重点根本不在医疗领域。”“通过我们的问题库,我们可以很容易地,只需按一下按钮,评估未来发布的其他模型,并进行比较。”
临床数据通常既包括标准的医疗代码,也包括自然语言文本。这项研究强调了模型中需要更广泛的临床语言来理解医疗信息,以及在广泛使用这些模型时需要谨慎。Rappoport 博士总结道:“我们提出了一个评估医疗代码信息质量的基准,并向用户强调了在使用这些信息时需要谨慎的必要性。”
总的来说,这项研究为我们理解人工智能在医疗领域的应用提供了新的视角。虽然 ChatGPT - 4 在与其他医疗 AI 模型的比较中表现出了一定的优势,但我们也应该认识到,目前的人工智能技术在医疗领域的应用仍存在诸多挑战和不足。我们需要进一步加强研究和开发,提高人工智能在医疗领域的准确性和可靠性,以更好地为人类健康服务。同时,我们在使用人工智能技术辅助医疗决策时,也应该保持谨慎的态度,充分考虑其局限性和潜在的风险。