多模态医学报告检索方法、装置、电子设备及存储介质制造方法及图纸

技术编号:38624528 阅读:8 留言:0更新日期:2023-08-31 18:26
本发明专利技术涉及数据处理技术,揭露了一种多模态医学报告检索方法、装置、电子设备以及介质,所述方法包括:获取医学报告数据集,对医学报告数据集进行类型划分,得到文本数据以及图像数据;对文本数据进行全局及局部特征提取,得到全局特征及局部特征;对图像数据进行特征提取,得到图像特征;利用根据全局特征、局部特征及图像特征计算得到的第一损失值及第二损失值,对表征提取模型进行优化,得到标准表征提取模型;利用标准表征提取模型对待检索数据进行特征提取,得到待检索数据特征;将待检索数据特征与医学报告数据库进行特征匹配,根据匹配的结果确定目标数据。本发明专利技术可以提高在医疗工作中检索医学报告数据时的效率。工作中检索医学报告数据时的效率。工作中检索医学报告数据时的效率。

【技术实现步骤摘要】
多模态医学报告检索方法、装置、电子设备及存储介质


[0001]本专利技术涉及数据处理
,尤其涉及一种多模态医学报告检索方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]一般情况下,电子医学成像影像往往与对应的医学报告一起出现,在一个医疗图像

报告的多模态数据库中包含多个医学报告对应的医疗数据,此时我们可以通过检索的方式快速得到一副医疗图像对应的医学报告,通过医学报告找到对应的医疗数据,而在多模态检索任务中,我们需要学习文本和视觉在潜空间的联合表示。由于医学报告与一般的文本查询有较大区别,不能直接套用通用的跨模态文本检索方法,许多医学报告也没有与之配对的文本,如果只用配对好的数据集做监督学习,会浪费单模态数据。综上所述,现存技术中存在在医疗工作中检索医学报告数据时效率不高的问题。

技术实现思路

[0003]本专利技术提供一种多模态医学报告检索方法、装置、电子设备及计算机可读存储介质,其主要目的在于解决检索医学报告数据时效率不高的问题。
[0004]为实现上述目的,本专利技术提供的一种多模态医学报告检索方法,包括:
[0005]获取医学报告数据集,对所述医学报告数据集进行类型划分,得到文本数据以及图像数据;
[0006]利用预构建的表征提取模型中的文本特征网络对所述文本数据进行全局特征提取以及局部特征提取,得到文本全局特征以及文本局部特征;
[0007]利用所述表征提取模型中的图像特征网络对所述图像数据进行特征提取,得到图像特征;<br/>[0008]对所述文本全局特征及所述文本局部特征进行损失值计算,得到第一损失值,对所述图像特征进行损失值计算,得到第二损失值,并根据所述第一损失值及所述第二损失值对所述表征提取模型进行优化,得到标准表征提取模型;
[0009]获取待检索数据,利用所述标准表征提取模型对所述待检索数据进行特征提取,得到待检索数据特征;
[0010]将所述待检索数据特征与预设的医学报告数据库进行特征匹配,根据匹配的结果确定目标数据。
[0011]可选地,所述对所述医学报告数据集进行类型划分,得到文本数据以及图像数据,包括:
[0012]对所述医学报告数据集中每个数据类型建立对应的索引标识,并判断所述数据类型为图像格式数据还是文本格式数据;
[0013]当所述数据类型为图像格式数据时,通过所述数据类型的索引标识在所述医学报告数据集中将所有图像格式数据提取出来,并将所述图像格式数据通过预设的切分方式拆
分为多个图像数据;
[0014]当所述数据类型为文本格式数据时,通过所述数据类型的索引标识在医学报告数据集中提取出所有文本格式数据,将所述文本格式数据存储至预设的数据库中,并将所述文本格式数据生成数据表,对数据表进行拆分,得到文本数据。
[0015]可选地,所述利用预构建的表征提取模型中的文本特征网络对所述文本数据进行全局特征提取以及局部特征提取,得到文本全局特征以及文本局部特征,包括:
[0016]利用预构建的表征提取模型中的文本特征网络对所述文本数据进行卷积处理,得到卷积文本数据;
[0017]对所述卷积文本数据进行全局及局部最大池化处理,得到池化文本全局数据及池化文本局部数据;
[0018]对所述池化文本全局数据及所述池化文本局部数据进行全连接处理,得到文本全局特征及文本局部特征。
[0019]可选地,所述对所述文本全局特征及所述文本局部特征进行损失值计算,得到第一损失值,包括:
[0020]利用下述公式对所述文本全局特征及所述文本局部特征进行损失值计算:
[0021]L
rep
(a,b)=L
bi
(ab
+
,ab

)
[0022]本专利技术实施例中,L
rep
(a,b)表示第一损失值,指的是文本全局特征a与文本局部特征b之间的损失值;ab
+
表示文本全局特征a与文本局部特征b是匹配的,ab

表示文本全局特征a与文本局部特征b不匹配,L
bi
是计算文本全局特征与文本局部特征之间的损失函数。
[0023]可选地,所述对所述图像特征进行损失值计算,得到第二损失值,包括:
[0024]利用下述公式对所述图像特征进行损失值计算:
[0025]L

pair
(c,d)=L
cos
(cd
+
,cd

)
[0026][0027]本专利技术实施例中,L
pair
(e
c
e
d+
,e
c
e
d

)表示第二损失值,e
c
e
d+
表示第c个图像特征与第c个图像特征在预设的医学报告库中所对应的真实图像特征d是匹配的,e
c
e
d

表示第c个图像特征与第c个图像特征在预设的医学报告库中所对应的真实图像特征d是不匹配的,L

pair
(c,d)为图像特征c与真实图像特征d之间的损失值,L
cos
(cd
+
,cd

)用来计算图像特征c与真实图像特征d是否相似,cd
+
表示图像特征c与真实图像特征d是匹配的,cd

表示图像特征c与真实图像特征d不匹配,i、B、k为预设的计算参数,i∈R、B∈R(R为实数集),当图像特征c与真实图像特征d不匹配时k取值为1,其他情况取值为0。
[0028]可选地,所述根据所述第一损失值及所述第二损失值对所述表征提取模型进行优化,得到标准表征提取模型,包括:
[0029]将所述第一损失值及所述第二损失值进行权重赋值并相加,得到目标损失值;
[0030]利用预设的反向传播算法将所述目标损失值从所述表征提取模型中的特征网络输出层向隐藏层进行反向传播,直至所述目标损失值小于预设的损失值大小,传播停止,得到标准表征提取模型。
[0031]可选地,所述将所述待检索数据特征与预设的医学报告数据库进行特征匹配,根
据匹配的结果确定目标数据,包括:
[0032]逐个从所述预设的医学报告数据库中提取待筛选特征,对所述待检索数据特征与所述待筛选特征进行相似度计算;
[0033]根据所述相似度计算的结果对所述待筛选特征进行排序,得到匹配排序表;
[0034]根据所述匹配排序表选取目标特征,将所述目标特征对应的数据作为目标数据。
[0035]为了解决上述问题,本专利技术还提供一种多模态医学报告检索装置,所述装置包括:
[0036]医学报告数据集类型划分模块,用于获取医学报告数据集,对所述医学报告数据集进行类型划分,得到文本数据以及图像数据;...

【技术保护点】

【技术特征摘要】
1.一种多模态医学报告检索方法,其特征在于,所述方法包括:获取医学报告数据集,对所述医学报告数据集进行类型划分,得到文本数据以及图像数据;利用预构建的表征提取模型中的文本特征网络对所述文本数据进行全局特征提取以及局部特征提取,得到文本全局特征以及文本局部特征;利用所述表征提取模型中的图像特征网络对所述图像数据进行特征提取,得到图像特征;对所述文本全局特征及所述文本局部特征进行损失值计算,得到第一损失值,对所述图像特征进行损失值计算,得到第二损失值,并根据所述第一损失值及所述第二损失值对所述表征提取模型进行优化,得到标准表征提取模型;获取待检索数据,利用所述标准表征提取模型对所述待检索数据进行特征提取,得到待检索数据特征;将所述待检索数据特征与预设的医学报告数据库进行特征匹配,根据匹配的结果确定目标数据。2.如权利要求1所述的多模态医学报告检索方法,其特征在于,所述对所述医学报告数据集进行类型划分,得到文本数据以及图像数据,包括:对所述医学报告数据集中每个数据类型建立对应的索引标识,并判断所述数据类型为图像格式数据还是文本格式数据;当所述数据类型为图像格式数据时,通过所述数据类型的索引标识在所述医学报告数据集中将所有图像格式数据提取出来,并将所述图像格式数据通过预设的切分方式拆分为多个图像数据;当所述数据类型为文本格式数据时,通过所述数据类型的索引标识在医学报告数据集中提取出所有文本格式数据,将所述文本格式数据存储至预设的数据库中,并将所述文本格式数据生成数据表,对数据表进行拆分,得到文本数据。3.如权利要求1所述的多模态医学报告检索方法,其特征在于,所述利用预构建的表征提取模型中的文本特征网络对所述文本数据进行全局特征提取以及局部特征提取,得到文本全局特征以及文本局部特征,包括:利用预构建的表征提取模型中的文本特征网络对所述文本数据进行卷积处理,得到卷积文本数据;对所述卷积文本数据进行全局及局部最大池化处理,得到池化文本全局数据及池化文本局部数据;对所述池化文本全局数据及所述池化文本局部数据进行全连接处理,得到文本全局特征及文本局部特征。4.如权利要求1所述的多模态医学报告检索方法,其特征在于,所述对所述文本全局特征及所述文本局部特征进行损失值计算,得到第一损失值,包括:利用下述公式对所述文本全局特征及所述文本局部特征进行损失值计算:L
rep
(a,b)=L
bi
(ab
+
,ab

)本发明实施例中,L
rep
(a,b)表示第一损失值,指的是文本全局特征a与文本局部特征b之间的损失值;ab
+
表示文本全局特征a与文本局部特征b是匹配的,ab

表示文本全局特征a
与文本局部特征b不匹配,L
bi
是计算文本全局特征与文本局部特征之间的损失函数。5.如权利要求1所述的多模态医学报告检索方法,其特征在于,所述对所述图像特征进行损失值计算,得到第二损失值,包括:利用下述公式对所述图像特征进行损失值计算:L

pair
(c,d)=L
cos
(cd
+
,cd

)本发明实施例中,L
pair
(e
c
e
d+
,e
c
e
d
...

【专利技术属性】
技术研发人员:唐小初朱翌舒畅陈又新
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1