研究发现,大型语言模型的医疗保健评估缺乏真实的患者数据和偏见评估

2024-11-06 16:18来源:本站编辑

一项新的系统综述揭示了这一点只有5%的医疗保健是免费的大型语言模型的估值使用真实的患者数据,在评估偏差、公平性和广泛的任务方面存在显著差距,强调需要更全面的评估估值方法。

在最近发表在JAMA上的一项研究中,来自美国(U.S.)的研究人员进行了一项系统回顾,以评估用于医疗保健应用程序的现有大型语言模型(llm)的各个方面,例如医疗保健任务和数据评估类型,以确定医疗保健中对llm应用最有用的领域。

背景

人工智能(AI)在医疗保健领域的应用进展迅速,尤其是随着法学硕士的发展。与用于预测流程结果的预测性人工智能不同,使用llm的生成式人工智能可以创建各种新内容,如图像、声音和文本。

基于用户输入,法学硕士可以生成结构化且基本一致的文本响应,这使得它们在医疗保健领域很有价值。在美国的一些卫生系统中,法学硕士已经被应用于记笔记,并正在医学领域进行探索,以提高效率和病人护理。

然而,对法学硕士的突然兴趣也导致了法学硕士在各个领域的非结构化测试,法学硕士在临床环境中的表现参差不齐。虽然一些研究发现法学硕士的反应在很大程度上是肤浅的,而且往往是不准确的,但其他研究发现准确率与人类临床医生相当。

这种不一致突出了对医疗保健环境中法学硕士绩效进行系统评估的必要性。

一个关于这项研究

为了进行这项全面的系统评价,研究人员检索了2022年1月至2024年2月期间发表的关于医疗保健领域法学硕士评估的预印本和同行评议研究。这个两年的窗口被选中,包括人工智能聊天机器人ChatGPT于2022年11月推出后发表的论文。

三名独立审稿人对研究进行了筛选,如果这些研究的重点是医疗保健领域的法学硕士评估,则将其纳入本综述。基础生物学研究或多模式任务的研究被排除在外。

然后根据评估的数据类型、医疗保健任务、自然语言处理(NLP)和自然语言理解任务、医学专业和评估维度对研究进行分类。分类框架是根据现有的医疗保健任务列表、已建立的评估模型和医疗保健专业人员的输入开发的。

分类框架考虑了是否评估了真实的患者数据,并检查了19项医疗保健任务,包括护理和管理功能。此外,包括总结和问题回答在内的六个NLP任务也被纳入了分类。

此外,还确定了七个评估维度,包括真实性、准确性和毒性等方面。这些研究还按医学专业分为22类。然后,研究人员使用描述性统计来总结研究结果,并计算每个类别的百分比和频率。

结果

回顾发现,医疗保健法学硕士的评估是异质的,在任务覆盖和数据使用方面存在显着差距。在纳入综述的519项研究中,只有5%使用了真实的患者数据,大多数研究依赖于专家生成的数据片段或医学检查问题。

大多数研究集中在法学硕士的医学知识任务,特别是通过评估,如美国医疗执照考试。

患者护理任务,如诊断患者和提出治疗建议,在LLM任务中也相对常见。然而,管理任务,包括临床记录和账单代码分配,很少在LLM任务中被探索。

在NLP任务中,大多数研究集中在问题回答上,其中包括一般性问题。大约25%的功能使用LLM进行文本分类和信息提取,但会话对话和摘要等任务没有通过LLM评估得到很好的探索。

通过法学硕士最常检查的评估维度是准确性(95.4%),其次是综合性(47%)。很少有研究将法学硕士用于与偏倚、毒性和公平性相关的伦理考虑。

虽然超过20%的研究没有特定于任何医学专业,但在法学硕士评估研究中,内科、眼科和外科是最具代表性的。医学遗传学和核医学研究在法学硕士评估中被探讨的最少。

结论

总的来说,审查强调需要标准化的评估方法和共识框架来评估法学硕士在医疗保健中的应用。

研究人员表示,法学硕士评估中应推广使用真实患者数据,法学硕士用于管理任务和将法学硕士应用扩展到其他医学专业领域将是非常有益的。

鸡鸣网声明:未经许可,不得转载。