欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

大语言建模助力病理人工智能从报告文本中自动划分TNM分期|Top Journal Essentials-24-10-17- I. 引言

最编程 2024-10-18 07:08:47
...

癌症分期是重要的诊断和预后临床属性,常用于识别临床试验招募和研究队列构建的患者。

尽管在电子健康记录中并不常规捕获分期信息,但可以在患者病理报告中找到。肿瘤登记处负责从临床笔记和病理报告中手动识别分期,从诊断到提取可能需要长达6个月的时间,此时可能已经错过了临床试验或其他治疗的机会[1,2]。

癌症登记专家的短缺表明,这一时间可能会变得更长[3]。在本研究中,作者提出了BB-TEN:Big Bird—TNM分期Extracted from Notes,这是一种基于Transformer的方法,用于从23种癌症类型的病理报告文本中自动分类TNM分期。

Transformer方法已应用于其他临床文本[4],但尚未广泛应用于病理报告。作者证明了BB-TEN可推广至独立机构,表明其他机构可以使用作者的方法进行现成使用。


癌症分期的提取一直是一个持续关注的研究方向。

先前的研究集中于单一癌症类型[5-8],使用了较小规模的训练[5,6,9]或测试[5,6,9,10]数据集(<1000份报告),并且依赖于单机构数据,没有外部验证,也没有证明其普适性[6,10]。

相比之下,作者的工作最初是在一个大约7000份报告的泛癌症数据集上进行的,然后以可泛化的方式扩展到一个近8000份报告的外部泛癌症数据集。一些研究需要除了病理报告文本之外的额外数据作为模型输入[5,6,10,11]。

为了便于使用,BB-TEN只需要病理报告文本作为输入,不需要包含任何其他患者数据类型


在方法上,两项研究采用了较旧的NLP方法(正则表达式和定制规则方法)[6,10],一项利用了传统机器学习方法[5],另一项使用了混合Transformer嵌入和深度学习模型[11]。

相比之下,作者的方法使用了一种最近开发的可处理长输入的Transformer,直接处理临床长度的病理报告,并在模型训练中完全融入标记之间的长距离依赖关系。此外,这些研究尚未将其模型公开,而作者正在发布训练好的TNM模型,供其他机构直接使用。

最后,已经探讨了使用像OpenAI的GPT4这样的最新生成式大型语言模型(LLMs)进行基于提示的病理报告分期信息提取[7-9,12]。这些大型模型的优势在于,它们可能需要更少的训练样本。然而,成本很高,无论是API访问费用还是运行本地的硬件要求,它们的使用可能不适合敏感的健康信息,并且可能容易出现幻觉[13]。

相比之下,作者表明,像BERT这样的小型Transformer模型,在资源更少且无需使用第三方API的情况下,实现了更优越的性能。


大多数先前的工作将患者分类到不包括所有临床价值的广泛TNM类别[5,6,11],而在这项研究中,作者将报告具体分类到具有临床相关性的TNM类别。

每个可能的类别值都是根据当前的 clinical 使用定制的,并为下游效用优化。例如,作者预测完整的N(0–3)范围,而不是二进制的N(0–1),因为对于不同癌症类型的不同N值,在预后、建议治疗和研究队列选择上有重大区别。

此外,细化N是一个更具挑战性的分类任务。其他研究[5,6,10,11]在预测二进制的N(0–1)时实现了高AU-ROC,作者在初步工作中也是如此;作者最终选择(0–3),因为(0–1)是对分期的粗略近似,对于临床有用的最终模型来说不够充分。

同样,为了优先考虑临床相关性,作者预测了完整的具有临床行动意义的M范围,即(0–1),而不是资源[11]预测的M(0–1,X)。在初步工作中,作者为M(0–1,X)实现了高AU-ROC;然而,作者移除了X作为可能的预测值,以遵循AJCC指南,该指南要求从病理分期词汇中移除X,因为X是一个不具有临床行动意义的类别。

https://www.facs.org/media/j30havyf/ajcc_7thed_cancer_staging_manual.pdf

总体而言,作者的预测类别和模型输出在当前的医学词汇背景下更具临床相关性,并且比Preston, S. et al.[11]更符合AJCC指南。


在这项研究中,作者利用自然语言处理的最新进展,直接从病理报告文本中分类癌症分期[14]。

作者特别使用了一种新的BERT[15,16]变体,该变体的输入容量比先前版本更大,并显示作者的模型性能优于标准BERT模型。

作者还与一种最先进的LLM,Llama 3进行了比较,并显示BERT模型在三项任务中的两项性能优于基础Llama 3模型,并且优于微调后的Llama 3模型,训练时间更快,计算资源更少。

据作者所知,这是首次将高输入容量的LLMs应用于病理报告文本,用于任何预测目标的分类,而无需进一步修改。这一创新不仅提高了模型的实用性,而且为从病理报告中提取关键临床信息提供了新的可能性。


本研究的方法论和结果具有几个显著特点。

首先,BB-TEN模型的设计考虑了实际临床应用的需求,通过仅使用病理报告文本作为输入,简化了数据准备过程,提高了模型的易用性。其次,模型在处理长文本输入方面的能力,使其能够直接处理完整的病理报告,这在以往的研究中是难以实现的。此外,本研究通过在多个癌症类型和大量数据集上的验证,证明了模型的泛化能力,这对于推广到不同医疗机构的实际应用至关重要。

在性能方面,BB-TEN模型在预测TNM分期具体类别上展现了优越的性能,特别是在细化N和M分类上,相较于以往的研究,作者的模型提供了更精细、更具临床指导意义的分期预测。这种细粒度的预测有助于更准确地评估患者预后、制定治疗计划,并提高临床试验和研究队列构建的准确性。

此外,本研究还关注了成本和资源问题。与大型语言模型相比,BB-TEN模型在训练时间和计算资源需求上更为高效,这使得其在临床环境中的部署更加可行。同时,作者公开了训练好的TNM模型,这不仅促进了研究成果的共享,也为其他研究者和医疗机构提供了直接应用的可能性。