System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于视觉语言模型的半监督医学图像分割方法及系统技术方案_技高网
当前位置: 首页 > 专利查询>山东大学专利>正文

基于视觉语言模型的半监督医学图像分割方法及系统技术方案

技术编号:41531987 阅读:4 留言:0更新日期:2024-06-03 23:08
本发明专利技术属于图像处理技术领域,提供了一种基于视觉语言模型的半监督医学图像分割方法及系统,包括以下步骤:获取医学图像;将无标签图像和文本描述输入视觉语言模型中,得到密集图像嵌入和文本嵌入,根据密集图像嵌入和文本嵌入,得到文本引导的掩码;将有标签图像输入学生模型中,得到有标签图像预测,利用有标签图像预测计算有监督损失;将无标签图像分别输入学生模型和教师模型,得到无标签图像预测和伪标签,将文本引导的掩码与伪标签合并,利用合并的伪标签与无标签图像预测计算半监督损失;根据文有监督损失和半监督损失训练学生模型,利用训练好的学生模型进行医学图像分割。本公开能够利用文本描述的优势精确定位目标分割区域。

【技术实现步骤摘要】

本公开涉及图像处理,具体涉及了一种基于视觉语言模型的半监督医学图像分割方法及系统


技术介绍

1、本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息,不必然构成在先技术。

2、医学图像分割可以用来提取异常图像中的重要器官或病变,在计算机辅助诊断和治疗研究中发挥着重要作用。近年来,许多基于监督学习的医学图像分割编解码器网络取得了显著的成果,如u-net、u-net++、h-denseunet等。然而,这些监督学习方法在很大程度上依赖于大量的像素级标记数据,在实践中对医学图像进行注释通常非常昂贵。此外,医学图像注释比自然图像需要更多的专业知识。与监督学习相比,半监督学习是解决数据不完全监督问题的一种新的学习范式。它使用少量的标记数据和大量的未标记数据来实现联合训练。显然,在医学图像分割中,半监督学习比监督学习更重要,更符合实际临床场景的要求。在半监督医学图像分割中,分割的性能与伪标签的质量密切相关。现在的半监督医学图像分割方法在执行联合训练时可能导致模型之间的互补性不足,使得同一样本的预测不一致,从而影响伪标签的质量。

3、视觉语言模型可以作为一种有效的范式来增强半监督医学图像分割中伪标签的质量。具体来说,视觉语言模型根据输入的图像和文本信息,生成文本引导的图像分割掩码,该掩码与现有半监督方法生成的伪标签合并,从而补偿伪标签质量。然而,现有的视觉语言模型在预训练时存在跨模态和模态内不确定性问题。跨模态不确定性表现为:多个图像/文本可以对应于一个文本/图像。模态内不确定性表现为:在图像中,一个提示的视觉区域包括多个不同的对象,因此,在描述视觉区域时,不清楚指的是哪个对象;在语言领域,单词的复杂关系导致单词歧义,如同义词和词之间的上下义关系。现有不确定性感知的视觉语言模型方法主要利用分布来表示语义嵌入,从而解决不确定性问题。然而,基于分布的方法面临两个挑战。挑战1:尽管分布的方差反映了分布差异,但仅依靠分布不能完全意识到抽象或复杂的语义信息来理解语义不确定性。挑战2:现有基于分布的视觉语言模型主要关注跨模态对比学习,忽略了每个模态内的语义关联,从而导致了跨模态对齐的不确定性。


技术实现思路

1、针对上述缺陷,本公开提出了一种基于视觉语言模型的半监督医学图像分割方法及系统,利用预训练的视觉语言模型提取图像和文本嵌入,将预训练的视觉语言模型中的丰富先验前移到半监督学习中。将文本引导的掩码集成到半监督医学图像分割中,弥补了伪标签的质量缺陷,利用文本描述的优势精确定位目标分割区域。提出了语义不确定性约束策略,促进模型对相似但语义模糊的数据对的理解。并将约束策略嵌入到三重不确定性对比学习中,减少跨模态对齐的不确定性。

2、为了实现上述目的,本公开采用如下技术方案:

3、本公开第一方面提供了一种基于视觉语言模型的半监督医学图像分割方法,包括以下步骤:

4、获取待分割医学图像;

5、将无标签图像和文本描述输入视觉语言模型中,得到密集图像嵌入和文本嵌入,根据密集图像嵌入和文本嵌入,得到文本引导的掩码;

6、以教师-学生模型为半监督分割骨干网络,将有标签图像输入学生模型中,得到有标签图像预测,利用有标签图像预测与真实标签计算有监督损失;

7、将无标签图像分别输入学生模型和教师模型,得到无标签图像预测和伪标签,将文本引导的掩码与伪标签合并,得到合并的伪标签,利用合并的伪标签与无标签图像预测计算半监督损失;

8、根据文有监督损失和半监督损失训练学生模型,利用训练好的学生模型进行医学图像分割。

9、作为进一步的实现方式,所述视觉语言模型为预训练的视觉语言模型,对视觉语言模型进行预训练,具体为:

10、对获取的原始图像进行增强,得到增强的图像;

11、将原始图像和增强的图像分别输入视觉编码器和动量视觉编码器中,得到原始图像嵌入和增强的图像嵌入;

12、将原始图像和增强的图像的文本描述分别输入文本编码器和动量文本编码器,得到文本嵌入和动量文本嵌入;

13、联合执行三重对比学习,并在每个对比学习过程中嵌入不确定性语义约束策略,计算每个对比学习损失;

14、利用每个对比学习损失对视觉语言模型的参数权重进行优化,得到预训练的视觉语言模型。

15、作为进一步的实现方式,所述三重对比学习包括跨模态对比学习、模态内对比学习和全局局部对比学习。

16、作为进一步的实现方式,所述跨模态对比学习实现图像和文本之间的有效对齐;所述模态内对比学习捕获每个模态内不同样本之间的潜在关联,从而提供更丰富的上下文关系和内在表征;所述全局局部对比学习通过理解不同尺度的特征,促进模型关注重要的局部信息,从而限制不相关局部区域的学习。

17、作为进一步的实现方式,所述不确定性语义约束策略,具体为:将文本嵌入和动量文本嵌入建模为对应的两个分布表示,计算这两个分布之间的分布距离作为不确定性水平,根据该不确定性水平约束文本嵌入和动量文本嵌入之间的差异。

18、作为进一步的实现方式,动量视觉编码器和动量文本编码器分别由视觉编码器和文本编码器动量更新。

19、作为进一步的实现方式,还包括将文本引导的掩码与密集图像嵌入逐元素相乘,得到文本引导的嵌入,利用文本引导的嵌入与文本嵌入计算文本引导损失,利用文本引导损失优化文本引导的掩码。

20、本公开第二方面提供了一种基于视觉语言模型的半监督医学图像分割系统,包括:

21、数据获取模块,被配置为:获取待分割医学图像;

22、文本引导的掩码生成模块,被配置为:将无标签图像和文本描述输入视觉语言模型中,得到密集图像嵌入和文本嵌入,根据密集图像嵌入和文本嵌入,得到文本引导的掩码;

23、有监督损失计算模块,被配置为:以教师-学生模型为半监督分割骨干网络,将有标签图像输入学生模型中,得到有标签图像预测,利用有标签图像预测与真实标签计算有监督损失;

24、无监督损失计算模块,被配置为:将无标签图像分别输入学生模型和教师模型,得到无标签图像预测和伪标签,将文本引导的掩码与伪标签合并,得到合并的伪标签,利用合并的伪标签与无标签图像预测计算半监督损失;

25、模型训练模块,被配置为:根据文有监督损失和半监督损失训练学生模型,利用训练好的学生模型进行医学图像分割。

26、本公开第三方面提供了一种介质,其上存储有程序,该程序被处理器执行时实现本公开第一方面所述的基于视觉语言模型的半监督医学图像分割方法中的步骤。

27、本公开第四方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现本公开第一方面所述的基于视觉语言模型的半监督医学图像分割方法中的步骤。

28、与现有技术相比,本公开的有益效果为:

29、本公开所提出的基于视觉语言模型的半监督医学图像分割方法,利本文档来自技高网...

【技术保护点】

1.基于视觉语言模型的半监督医学图像分割方法,其特征在于,包括以下步骤:

2.如权利要求1中所述的基于视觉语言模型的半监督医学图像分割方法,其特征在于,所述视觉语言模型为预训练的视觉语言模型,对视觉语言模型进行预训练,具体为:

3.如权利要求2中所述的基于视觉语言模型的半监督医学图像分割方法,其特征在于,所述三重对比学习包括跨模态对比学习、模态内对比学习和全局局部对比学习。

4.如权利要求3中所述的基于视觉语言模型的半监督医学图像分割方法,其特征在于,所述跨模态对比学习实现图像和文本之间的有效对齐;所述模态内对比学习捕获每个模态内不同样本之间的潜在关联,从而提供更丰富的上下文关系和内在表征;所述全局局部对比学习通过理解不同尺度的特征,促进模型关注重要的局部信息,从而限制不相关局部区域的学习。

5.如权利要求2中所述的基于视觉语言模型的半监督医学图像分割方法,其特征在于,所述不确定性语义约束策略,具体为:将文本嵌入和动量文本嵌入建模为对应的两个分布表示,计算这两个分布之间的分布距离作为不确定性水平,根据该不确定性水平约束文本嵌入和动量文本嵌入之间的差异。

6.如权利要求2中所述的基于视觉语言模型的半监督医学图像分割方法,其特征在于,动量视觉编码器和动量文本编码器分别由视觉编码器和文本编码器动量更新。

7.如权利要求1中所述的基于视觉语言模型的半监督医学图像分割方法,其特征在于,还包括将文本引导的掩码与密集图像嵌入逐元素相乘,得到文本引导的嵌入,利用文本引导的嵌入与文本嵌入计算文本引导损失,利用文本引导损失优化文本引导的掩码。

8.基于视觉语言模型的半监督医学图像分割系统,其特征在于,包括:

9.一种介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一项所述的基于视觉语言模型的半监督医学图像分割方法中的步骤。

10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述的基于视觉语言模型的半监督医学图像分割方法中的步骤。

...

【技术特征摘要】

1.基于视觉语言模型的半监督医学图像分割方法,其特征在于,包括以下步骤:

2.如权利要求1中所述的基于视觉语言模型的半监督医学图像分割方法,其特征在于,所述视觉语言模型为预训练的视觉语言模型,对视觉语言模型进行预训练,具体为:

3.如权利要求2中所述的基于视觉语言模型的半监督医学图像分割方法,其特征在于,所述三重对比学习包括跨模态对比学习、模态内对比学习和全局局部对比学习。

4.如权利要求3中所述的基于视觉语言模型的半监督医学图像分割方法,其特征在于,所述跨模态对比学习实现图像和文本之间的有效对齐;所述模态内对比学习捕获每个模态内不同样本之间的潜在关联,从而提供更丰富的上下文关系和内在表征;所述全局局部对比学习通过理解不同尺度的特征,促进模型关注重要的局部信息,从而限制不相关局部区域的学习。

5.如权利要求2中所述的基于视觉语言模型的半监督医学图像分割方法,其特征在于,所述不确定性语义约束策略,具体为:将文本嵌入和动量文本嵌入建模为对应的两个分布表示,计算这两个分布之间的...

【专利技术属性】
技术研发人员:姬冰潘庆涛乔文皓娄惊蛟
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1