基于多任务多模态深度学习的X光胸片诊断报告生成方法技术

技术编号:35306209 阅读:32 留言:0更新日期:2022-10-22 12:56
本发明专利技术提供一种基于多任务多模态深度学习的X光胸片诊断报告生成方法,包括以下步骤:由多模态特征提取器、多模态特征关系探索器和疾病状态分类器组成的多模态特征融合疾病分类网络模型搭建,报告生成网络模型搭建,联合训练与参数优化以及胸部疾病诊断报告自动生成。本申请通过输入多视角X光胸片及其临床历史文本,采用多模态特征提取器提取丰富的上下文信息,并利用这些信息共同对疾病状态标签进行预测,以显著提高预测准确率;通过将疾病分类结果返回给模型,使得模型在后续单词预测时获得更准确的疾病信息以缓解视觉数据偏差;通过多任务学习同时最小化疾病分类网络和报告生成网络的损失,使模型在精确生成诊断报告的同时具有更好鲁棒性。同时具有更好鲁棒性。同时具有更好鲁棒性。

【技术实现步骤摘要】
基于多任务多模态深度学习的X光胸片诊断报告生成方法


[0001]本专利技术涉及医学图像理解
,具体涉及一种基于多任务多模态深度学习的X光胸片诊断报告生成方法。

技术介绍

[0002]X光胸片在临床工作流程中被广泛用于诊断、检测和治疗干预诸多常见胸部疾病,例如肺炎、气胸、肺癌和间质性肺疾病等。在经过放射学检查后,放射科医生需提供一份对正常以及异常部位进行消息描述的放射学报告以便辅助门诊医生诊断或转诊。然而,这一流程对于缺乏经验的医生可能会导致误诊或漏诊的情况发生,而对于有经验的医生撰写报告非常耗时和乏味导致效率低下。通过自动化生成放射学报告提高效率,减少不必要的错误,并减轻放射科医生编写报告的负担是一项极具价值的工作。
[0003]由于深度学习在计算机视觉和自然语言处理等领域快速且成功的发展,使得由图像到文字这一跨模态的过程得以实现。放射学报告自动生成是利用图像特征对每一个时间步进行单词预测,基于编解码框架的深度学习技术使得生成报告与医生撰写报告的相似度得到了显著提升。编解码框架能通过端对端的训练以有监督学习的方式从训练数据中自动学习面向具体任务的层级化特征。然而,本申请的专利技术人经过研究发现,当前基于深度学习的X光胸片检查报告自动生成存在以下不足:(1)通过单一视角的图像进行单词预测,无法全面的观察胸部的情况,容易误诊或漏诊;(2)基于纯数据驱动的深度学习方法,容易被巨大的视觉与语义的数据偏差误导,导致偏向生成正常的描述而无法正确的检查出异常。

技术实现思路

[0004]针对现有基于深度学习的X光胸片检查报告自动生成存在通过单一视角的图像进行单词预测,因而无法全面的观察胸部的情况,容易误诊或漏诊;以及基于纯数据驱动的深度学习方法,容易被巨大的视觉与语义的数据偏差误导,导致偏向生成正常的描述而无法正确的检查出异常的技术问题,本专利技术提供一种基于多任务多模态深度学习的X光胸片诊断报告生成方法。
[0005]为了解决上述技术问题,本专利技术采用了如下的技术方案:
[0006]基于多任务多模态深度学习的X光胸片诊断报告生成方法,包括以下步骤:
[0007]S1、多模态特征融合疾病分类网络模型搭建:所述多模态特征融合疾病分类网络用于生成输入X光胸片的常见疾病的分类结果,该多模态特征融合疾病分类网络包括多模态特征提取器、多模态特征关系探索器和疾病状态分类器;
[0008]S11、所述多模态特征提取器用于分别从输入X光胸片和临床历史文本提取不同模态特征,针对X光胸片采用深度卷积网络作为图像特征提取器,所述图像特征提取器包括第一至第四紧密连接层组和第一至第三过渡层,所述第一过渡层位于第一紧密连接层组之后,所述第二过渡层位于第二紧密连接层组之后,所述第三过渡层位于第三紧密连接层组之后,所述第四紧密连接层组位于第三过渡层之后,针对临床历史文本采用文本嵌入层获
取文本特征;
[0009]S12、所述多模态特征关系探索器用于将多模态特征进行对齐融合,首先图像和文本特征分别通过一个多头自注意力模块强化模态内部之间的关联,再分别通过一个多头交叉注意力模块进行图像与文本两个模态间的对齐和融合,最后将两个多头交叉注意力模块的输出进行拼接得到最终的多模态综合特征;
[0010]S13、所述疾病状态分类器用于根据多模态综合特征对疾病的状态进行预测,所述疾病状态分类器由第一和第二多头注意力模块组成,所述第一多头注意力模块以疾病话题嵌入作为查询,并以多模态综合特征作为键和值得到综合疾病表示,所述第二多头注意力模块以综合疾病表示作为查询,并以疾病状态嵌入作为键和值得到的注意力分数作为疾病状态的概率分布,最后将疾病状态嵌入乘以概率分布后再与综合疾病表示相加得到状态感知的综合疾病表示;
[0011]S2、报告生成网络模型搭建:所述报告生成网络用于逐字生成诊断报告,该报告生成网络由十二个标准transformer解码层、一个全连接层和一个softmax回归层组成;每个标准transformer解码层中包括顺序设置的一个多头自注意力模块、一个多头交叉注意力模块和一个前馈神经网络,所述一个多头自注意力模块和一个多头交叉注意力模块中的注意力头数为1,所述全连接层位于最后一个标准transformer解码层之后;所述报告生成网络的输入是前述多模态特征融合疾病分类网络步骤S13中最后得到的状态感知的综合疾病表示,输出是0~1000的预测结果,分别表示词表中每个单词的索引;
[0012]S3、联合训练与参数优化:将步骤S1搭建的多模态特征融合疾病分类网络和步骤S2搭建的报告生成网络采用联合训练,其具体包括:
[0013]S31、首先采用Xavier方法对网络模型参数进行初始化,然后采用Adam算法优化网络目标函数,并运用误差反向传播算法更新网络模型参数;
[0014]S32、将包含AP、PA和LA的多视角X光胸片作为图像端输入,将临床历史文本部分作为文本端输入,将训练样本的疾病类别和诊断报告作为共同优化目标,将训练样本按7:1:2比例分为训练集、验证集和测试集;
[0015]S4、胸部疾病诊断报告自动生成:
[0016]S41、将AP、PA和LA的多视角X光胸片及对应临床历史文本作为输入,通过多模态特征提取器产生大小为原始图像1/32的特征图以及长度为300的单词嵌入;
[0017]S42、将提取的特征图与单词嵌入输入多模态特征关系探索器,生成多模态综合特征;
[0018]S43、将多模态综合特征输入疾病状态分类器生成不同疾病话题的状态概率以及状态感知的综合疾病表示;
[0019]S44、将状态感知的综合疾病表示输入到报告生成网络对每一个时间步的单词进行预测,形成最终的诊断报告。
[0020]进一步,所述多模态特征融合疾病分类网络的输入分为图像端和文本端,图像端输入大小为256
×
256的X光胸片,文本端输入长度为300的单词索引,所述多模态特征融合疾病分类网络输出的是大小为114
×
2的概率分布图,代表114个疾病话题划分为阴性或阳性的置信度。
[0021]进一步,所述步骤S11中,所述第一至第四紧密连接层组分别由6、12、24、16个紧密
连接层组成,每个紧密连接层由两个卷积层组成,两个卷积层的卷积核大小分别为1
×
1、3
×
3,步长为1,每个紧密连接层的卷积核个数为32。
[0022]进一步,所述步骤S11中,所述第一至第三过渡层均包含一个卷积层和一个平均池化层,卷积层的卷积核大小为1
×
1,步长为1,卷积核个数分别为128、256、512。
[0023]进一步,任意一个卷积核所对应的输出特征图Z
i
采用下式进行计算:
[0024][0025]其中,r表示输入通道索引号,k表示输入通道数,W
ir
表示第i个卷积核的第r个通道权值矩阵,是卷积操作,I
r
表示第r个输入通道本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于多任务多模态深度学习的X光胸片诊断报告生成方法,其特征在于,包括以下步骤:S1、多模态特征融合疾病分类网络模型搭建:所述多模态特征融合疾病分类网络用于生成输入X光胸片的常见疾病的分类结果,该多模态特征融合疾病分类网络包括多模态特征提取器、多模态特征关系探索器和疾病状态分类器;S11、所述多模态特征提取器用于分别从输入X光胸片和临床历史文本提取不同模态特征,针对X光胸片采用深度卷积网络作为图像特征提取器,所述图像特征提取器包括第一至第四紧密连接层组和第一至第三过渡层,所述第一过渡层位于第一紧密连接层组之后,所述第二过渡层位于第二紧密连接层组之后,所述第三过渡层位于第三紧密连接层组之后,所述第四紧密连接层组位于第三过渡层之后,针对临床历史文本采用文本嵌入层获取文本特征;S12、所述多模态特征关系探索器用于将多模态特征进行对齐融合,首先图像和文本特征分别通过一个多头自注意力模块强化模态内部之间的关联,再分别通过一个多头交叉注意力模块进行图像与文本两个模态间的对齐和融合,最后将两个多头交叉注意力模块的输出进行拼接得到最终的多模态综合特征;S13、所述疾病状态分类器用于根据多模态综合特征对疾病的状态进行预测,所述疾病状态分类器由第一和第二多头注意力模块组成,所述第一多头注意力模块以疾病话题嵌入作为查询,并以多模态综合特征作为键和值得到综合疾病表示,所述第二多头注意力模块以综合疾病表示作为查询,并以疾病状态嵌入作为键和值得到的注意力分数作为疾病状态的概率分布,最后将疾病状态嵌入乘以概率分布后再与综合疾病表示相加得到状态感知的综合疾病表示;S2、报告生成网络模型搭建:所述报告生成网络用于逐字生成诊断报告,该报告生成网络由十二个标准transformer解码层、一个全连接层和一个softmax回归层组成;每个标准transformer解码层中包括顺序设置的一个多头自注意力模块、一个多头交叉注意力模块和一个前馈神经网络,所述一个多头自注意力模块和一个多头交叉注意力模块中的注意力头数为1,所述全连接层位于最后一个标准transformer解码层之后;所述报告生成网络的输入是前述多模态特征融合疾病分类网络步骤S13中最后得到的状态感知的综合疾病表示,输出是0~1000的预测结果,分别表示词表中每个单词的索引;S3、联合训练与参数优化:将步骤S1搭建的多模态特征融合疾病分类网络和步骤S2搭建的报告生成网络采用联合训练,其具体包括:S31、首先采用Xavier方法对网络模型参数进行初始化,然后采用Adam算法优化网络目标函数,并运用误差反向传播算法更新网络模型参数;S32、将包含AP、PA和LA的多视角X光胸片作为图像端输入,将临床历史文本部分作为文本端输入,将训练样本的疾病类别和诊断报告作为共同优化目标,将训练样本按7:1:2比例分为训练集、验证集和测试集;S4、胸部疾病诊断报告自动生成:S41、将AP、PA和LA的多视角X光胸片及对应临床历史文本作为输入,通过多模态特征提取器产生大小为原始图像1/32的特征图以及长度为300的单词嵌入;S42、将提取的特征图与单词嵌入输入多模态特征关系探索器,生成多模态综合特征;
S43、将多模态综合特征输入疾病状态分类器生成不同疾病话题的状态概率以及状态感知的综合疾病表示;S44、将状态感知的综合疾病表示输入到报告生成网络对每一个时间步的单词进行预测,形成最终的诊断报告。2.根据权利要求1所述的基于多任务多模态深度学习的X光胸片诊断报告生成方法,其特征在于,所述多模态特征融合疾病分类网络的输入分为图像端和文本端,图像端输入大小为256
×
256的X光胸片,文本端输入长度为300的单词索引,所述多模态特征融合疾病分类网络输出的是大小为114
×
2的概率分布图,代表114个疾病话题划分为阴性或阳性的置信度。3.根据权利要求1所述的基于多任务多模态深度学习的X光胸片诊断报告生成方法,其特征在于,所述步骤S11中,所述第一至第四紧密连接层组分别由6、12、24、16个紧密连接层组成,每个紧密连接层由两个卷积层组成,两个卷积层的卷积核大小分别为1
×<...

【专利技术属性】
技术研发人员:崔少国尚曹志屈虎
申请(专利权)人:重庆师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1