基于细粒度交叉注意力的医学影像问题视觉解答方法技术

技术编号:39802228 阅读:19 留言:0更新日期:2023-12-22 02:33
本申请涉及一种基于细粒度交叉注意力的医学影像问题视觉解答方法

【技术实现步骤摘要】
基于细粒度交叉注意力的医学影像问题视觉解答方法


[0001]本申请涉及图像处理
,特别是涉及一种基于细粒度交叉注意力的医学影像问题视觉解答方法


技术介绍

[0002]医学视觉问题解答旨在准确回答以医学图像呈现的临床问题

尽管它在医疗保健行业和服务领域具有巨大的潜力,但该技术仍处于起步阶段,还远未得到实际使用

医学视觉问答任务非常具有挑战性,因为不同类型问题的临床问题的巨大多样性和所需的视觉推理技能的差异

医学视觉问题回答是一个特定领域的视觉问题回答问题,需要通过考虑图像和语言信息来解释与医学相关的视觉概念

具体来说,医学视觉问题回答系统旨在将一个医学图像和一个关于该图像的临床问题作为自然语言的输入和输出正确答案

医学视觉问题回答可以帮助患者获得及时的询问反馈,并做出更明智的决定

它可以减轻对医疗设施的压力,为急需的人节省宝贵的医疗资源

它还可以帮助医生在诊断方面获得第二种意见,并降低培训医疗专业人员的高昂成本

[0003]相关技术中,视觉和语言推理需要理解视觉概念和语言语义,最重要的是这两种模式之间的对齐和关系

传统的视觉问题解答方法需要大量的标记数据来进行训练

这样大规模的数据通常无法用于医疗领域

医学领域的图像与一般领域的图像有根本上的不同

因此,直接在医学领域采用通用领域的视觉问题解答模型是不可行的

此外,医学图像注释是一个昂贵和耗时的过程

视觉问答在医学领域的应用对传统影响了显著的医学研究方法

一个成熟的医学视觉问答系统对患者的诊断有极大的帮助

由于临床问题的复杂多样性和多模态推理的困难,通用领域的视觉问题解答模型对于医学图像和文本语义中的特征对齐不够有吸引力,应用于医学视觉问题解答的准确性较低


技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够医学视觉问题解答的准确性的基于细粒度交叉注意力的医学影像问题视觉解答方法

[0005]一种基于细粒度交叉注意力的医学影像问题视觉解答方法,所述方法包括:获取放射性医疗图像和所述放射性医疗图像对应症状问题的文本数据;采用医疗视觉问答模型的细粒度视觉特征提取模块对所述放射性医疗图像进行局部特征提取,获得局部图像特征;采用所述医疗视觉问答模型的文本特征提取模块对所述文本数据进行特征提取,获得文本特征;将由局部图像特征和文本特征组成的多模态特征对输入到所述医疗视觉问答模型的交叉模态编码器模块进行多模态特征融合,获得融合后的特征;将所述融合后的特征输入到所述医疗视觉问答模型的答案预测模块中进行答案预测,获得答案预测结果;
根据所述答案预测结果对所述症状问题进行解答

[0006]在其中一个实施例中,所述采用医疗视觉问答模型的细粒度视觉特征提取模块对所述放射性医疗图像进行局部特征提取,获得局部图像特征,包括:将所述放射性医疗图像输入所述细粒度视觉特征提取模块的特征提取单元进行特征提取,获得初步图像特征;将所述初步图像特征输入到所述细粒度视觉特征提取模块的全卷积单元进行处理,获得处理后的图像特征;将所述处理后的图像特征输入到所述细粒度视觉特征提取模块的细粒度视觉特征提取单元进行特征提取,获得局部图像特征

[0007]在其中一个实施例中,所述医疗视觉问答模型的交叉模态编码器模块包括
N
个依次连接的交叉模态编码层和一个特征池化层;第一个交叉模态编码层的输入为细粒度视觉特征提取模块的输出和文本特征提取模块的输出,第一个交叉模态编码层的输出为第二个交叉模态编码层的输入,以此类推,最后一个交叉模态编码层的输出为所述特征池化层的输入,所述特征池化层的输出为答案预测模块的输入

[0008]在其中一个实施例中,所述交叉模态编码层包括第一自注意力层

第二自注意力层,第一交叉注意力层

第二交叉注意力层

第一前馈子层和第二前馈子层;所述第一自注意力层的输出输入到所述第一交叉注意力层和所述第二交叉注意力层中,所述第二自注意力层的输出输入到所述第一交叉注意力层和所述第二交叉注意力层中,所述第一交叉注意力层的输出输入到所述第一前馈子层和所述第二前馈子层中,所述第二交叉注意力层的输出输入到所述第一前馈子层和所述第二前馈子层中

[0009]在其中一个实施例中,第一自注意力层的处理过程表达式为:;第二自注意力层的处理过程表达式为:;其中,
Attention(Q
i

K
i

V
i
)
为第一自注意力层的输出,
Attention(Q
t

K
t

V
t
)
为第二自注意力层的输出,
V
i
为第一自注意力层的输入特征,
Q
i
为第一自注意力层的输入特征查询,
K
i
为第一自注意力层的输入特征键,
V
t
为第二自注意力层的输入特征,
Q
t
为第二自注意力层的输入特征查询,
K
t
为第二自注意力层的输入特征键,
d
k
为特征的数量,
T
为转置,
softmax(

)

softmax
函数

[0010]在其中一个实施例中,所述第一交叉注意力层的处理过程表达式为:;所述第二交叉注意力层的处理过程表达式为:;
其中,为第一交叉注意力层的输出,为从文本到视觉的跨模态注意力操作,来捕捉文本和图像之间的关系,为在文本特征提取模块的第
n
‑1层中第
i
个位置的隐藏状态,为第一交叉注意力层的第
n
层的前一层中的第
i
个位置的图像表示,为第一交叉注意力层的第
n
层的前一层中的最后一个位置的图像表示,为第二交叉注意力层的输出,为从视觉到文本的跨模态注意力操作,来捕捉文本和图像之间的关系,为在文本特征提取模块的第
n
‑1层中第
j
个位置的隐藏状态,为第二交叉注意力层的第
n
层的前一层中的第
j
个位置的图像表示,为第二交叉注意力层的第
n
层的前一层中的最后一个位置的图像表示

[0011]在其中一个实施例中,所述答案预测模块包括:第一全连接层
、Relu 函数<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于细粒度交叉注意力的医学影像问题视觉解答方法,其特征在于,所述方法包括:获取放射性医疗图像和所述放射性医疗图像对应症状问题的文本数据;采用医疗视觉问答模型的细粒度视觉特征提取模块对所述放射性医疗图像进行局部特征提取,获得局部图像特征;采用所述医疗视觉问答模型的文本特征提取模块对所述文本数据进行特征提取,获得文本特征;将由局部图像特征和文本特征组成的多模态特征对输入到所述医疗视觉问答模型的交叉模态编码器模块进行多模态特征融合,获得融合后的特征;将所述融合后的特征输入到所述医疗视觉问答模型的答案预测模块中进行答案预测,获得答案预测结果;根据所述答案预测结果对所述症状问题进行解答
。2.
根据权利要求1所述的基于细粒度交叉注意力的医学影像问题视觉解答方法,其特征在于,所述采用医疗视觉问答模型的细粒度视觉特征提取模块对所述放射性医疗图像进行局部特征提取,获得局部图像特征,包括:将所述放射性医疗图像输入所述细粒度视觉特征提取模块的特征提取单元进行特征提取,获得初步图像特征;将所述初步图像特征输入到所述细粒度视觉特征提取模块的全卷积单元进行处理,获得处理后的图像特征;将所述处理后的图像特征输入到所述细粒度视觉特征提取模块的细粒度视觉特征提取单元进行特征提取,获得局部图像特征
。3.
根据权利要求1所述的基于细粒度交叉注意力的医学影像问题视觉解答方法,其特征在于,所述医疗视觉问答模型的交叉模态编码器模块包括
N
个依次连接的交叉模态编码层和一个特征池化层;第一个交叉模态编码层的输入为细粒度视觉特征提取模块的输出和文本特征提取模块的输出,第一个交叉模态编码层的输出为第二个交叉模态编码层的输入,以此类推,最后一个交叉模态编码层的输出为所述特征池化层的输入,所述特征池化层的输出为答案预测模块的输入
。4.
根据权利要求3所述的基于细粒度交叉注意力的医学影像问题视觉解答方法,其特征在于,所述交叉模态编码层包括第一自注意力层

第二自注意力层,第一交叉注意力层

第二交叉注意力层

第一前馈子层和第二前馈子层;所述第一自注意力层的输出输入到所述第一交叉注意力层和所述第二交叉注意力层中,所述第二自注意力层的输出输入到所述第一交叉注意力层和所述第二交叉注意力层中,所述第一交叉注意力层的输出输入到所述第一前馈子层和所述第二前馈子层中,所述第二交叉注意力层的输出输入到所述第一前馈子层和所述第二前馈子层中
。5.
根据权利要求4所述的基于细粒度交叉注意力的医学影像问题视觉解答方法,其特征在于,第一自注意力层的处理过程表达式为:;
第二自注意力层的处理过程表达式为:;其中,
Attention(Q
i

K
i

V
i
)
为第一自注意力层的输出,
Attent...

【专利技术属性】
技术研发人员:吴梓恒陆振宇舒昕垚
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1