引用图像分割模型训练方法及引用图像分割方法技术

技术编号:39312739 阅读:8 留言:0更新日期:2023-11-12 15:57
本发明专利技术涉及计算机视觉技术领域,提供一种引用图像分割模型训练方法及引用图像分割方法,首先将图像样本中每个目标实例对应的文本描述输入至初始引用图像分割模型中,由文本编码器对文本描述进行特征提取,得到初始文本特征;然后由图像编码器提取图像样本的图像特征,并采用交叉注意力机制运算进行迭代优化与融合,分别得到优化后的目标文本特征和目标跨模态图像融合特征;最后将目标跨模态图像融合特征通过解码器得到分割结果,并借助于计算得到的训练损失进行模型训练。该方法可以有效提升目标引用图像分割模型对于低质量文本描述的分割能力,减少混淆目标错误匹配的情况发生。生。生。

【技术实现步骤摘要】
引用图像分割模型训练方法及引用图像分割方法


[0001]本专利技术涉及计算机视觉
,尤其涉及一种引用图像分割模型训练方法及引用图像分割方法。

技术介绍

[0002]图像分割是一个重要且经典的计算机视觉任务,在智能驾驶、视频分析、遥感监测等领域具有广泛的应用。
[0003]引用图像分割是通过提供一段针对特定目标的自然语言文本描述,来引导分割模型定位图像中的特定目标进而分割出相应的目标,如何准确地将文本与图像这两个分支的特征信息进行表达与融合是引用图像分割的研究重点。但是,现有的引用图像分割在文本描述分支上的特征提取完全基于预训练的语言模型进行直接生成,这就导致在面对低质量文本描述时难以得到用于引导定位的可靠的文本特征,进而出现错误匹配混淆目标的情况,使引用图像分割模型的性能不佳,得到的分割结果不准确。

技术实现思路

[0004]本专利技术提供一种引用图像分割模型训练方法及引用图像分割方法,用以解决现有技术中存在的缺陷。
[0005]本专利技术提供一种引用图像分割模型训练方法,包括:
[0006]采集图像样本中各目标实例以及每个目标实例对应的文本描述,并将所述文本描述输入至初始引用图像分割模型中的文本编码器,由所述文本编码器对所述文本描述进行特征提取,得到初始文本特征;
[0007]将所述图像样本以及所述初始文本特征输入至所述初始引用图像分割模型中的图像编码器,由所述图像编码器提取所述图像样本的初始图像特征,基于所述初始图像特征,采用交叉注意力机制对所述初始文本特征进行优化,得到文本优化特征,将所述文本优化特征与所述初始图像特征进行融合,得到融合图像特征,并对所述文本优化特征以及所述融合图像特征进行迭代优化及融合,得到目标文本特征和目标跨模态图像融合特征;
[0008]将所述目标跨模态图像融合特征输入至所述初始引用图像分割模型中的解码器,得到所述解码器输出的分割结果,并基于所述目标文本特征、所述图像样本中的目标实例标签以及所述分割结果,计算训练损失,基于所述训练损失对所述初始引用图像分割模型的结构参数进行迭代优化,得到目标引用图像分割模型。
[0009]根据本专利技术提供的一种引用图像分割模型训练方法,基于所述目标文本特征、所述图像样本中的目标实例标签以及所述分割结果,计算训练损失,包括:
[0010]基于所述图像样本中的目标实例标签以及所述分割结果,计算分割损失;
[0011]基于所述图像样本中不同目标实例对应的目标文本特征,计算每个目标实例对应的一致性损失和每个目标文本特征对应的对比性损失;
[0012]基于所述分割损失、每个目标实例对应的一致性损失和每个目标文本特征对应的
对比性损失,计算所述训练损失。
[0013]根据本专利技术提供的一种引用图像分割模型训练方法,基于所述分割损失、每个目标实例对应的一致性损失和每个目标文本特征对应的对比性损失,计算所述训练损失,包括:
[0014]基于每个目标实例对应的一致性损失,计算每个图像样本对应的总一致性损失,并基于每个目标文本特征对应的对比性损失,计算每个图像样本对应的总对比性损失;
[0015]计算所述总一致性损失和所述总对比性损失的第一加权求和结果,并计算所述第一加权求和结果与所述分割损失的第二加权求和结果,将所述第二加权求和结果作为所述训练损失。
[0016]根据本专利技术提供的一种引用图像分割模型训练方法,基于所述图像样本中不同目标实例对应的目标文本特征,计算每个目标文本特征对应的对比性损失,包括:
[0017]基于所述图像样本中同一目标实例对应的目标文本特征,计算同一目标实例对应的目标文本特征的正相似度;
[0018]基于所述图像样本中不同目标实例对应的目标文本特征,计算不同目标实例对应的目标文本特征的负相似度;
[0019]基于所述正相似度和所述负相似度,计算每个目标文本特征对应的对比性损失。
[0020]根据本专利技术提供的一种引用图像分割模型训练方法,所述图像编码器包括顺次连接的多层结构,每层结构均包括第一输入、第一输出、第二输入和第二输出,前一层结构的第一输出作为后一层结构的第一输入,前一层结构的第二输出作为后一层结构的第二输入;
[0021]第一层结构的第一输入为所述初始文本特征,第一层结构的第二输入为所述初始图像特征,最后一层结构的第一输出为所述目标文本特征,最后一层结构的第二输出为所述目标跨模态图像融合特征;
[0022]每层结构包括编码块、文本感知融合模块、第一残差模块、第二残差模块、第一加法模块和第二加法模块,每层结构的第二输入经编码块得到备选图像特征,每层结构的第一输入和当前层结构得到的备选图像特征经所述文本感知融合模块采用交叉注意力机制对当前层结构的第一输入进行优化,得到所述文本优化特征,并采用交叉注意力机制,将所述文本优化特征与所述备选图像特征进行融合,得到所述融合图像特征;
[0023]所述文本优化特征经所述第一残差模块后与当前层结构的第一输入经所述第一加法模块得到当前层结构的第一输出;
[0024]所述融合图像特征经所述第二残差模块后与所述备选图像特征经所述第二加法模块得到当前层结构的第二输出。
[0025]根据本专利技术提供的一种引用图像分割模型训练方法,所述文本编码器为预训练语言模型。
[0026]根据本专利技术提供的一种引用图像分割模型训练方法,采集图像样本中各目标实例以及每个目标实例对应的文本描述,之后包括:
[0027]构建所述图像样本、每个目标实例以及每个目标实例对应的一条文本描述的三元组,并将每个三元组作为所述初始引用图像分割模型的一个训练样本。
[0028]本专利技术还提供一种引用图像分割方法,包括:
[0029]获取待分割图像及所述待分割图像中目标对象对应的描述信息;
[0030]将所述待分割图像及所述描述信息输入至上述的引用图像分割模型训练方法确定的目标引用图像分割模型,得到所述目标引用图像分割模型输出的所述待分割图像对应的分割结果。
[0031]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述的引用图像分割模型训练方法,或引用图像分割方法。
[0032]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的引用图像分割模型训练方法,或引用图像分割方法。
[0033]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述的引用图像分割模型训练方法,或引用图像分割方法。
[0034]本专利技术提供的引用图像分割模型训练方法及引用图像分割方法,该引用图像分割模型训练方法首先采集图像样本中各目标实例以及每个目标实例对应的文本描述,并将文本描述输入至初始引用图像分割模型中的文本编码器,由文本编码器对文本描述进行特征提取,得到初始文本特本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种引用图像分割模型训练方法,其特征在于,包括:采集图像样本中各目标实例以及每个目标实例对应的文本描述,并将所述文本描述输入至初始引用图像分割模型中的文本编码器,由所述文本编码器对所述文本描述进行特征提取,得到初始文本特征;将所述图像样本以及所述初始文本特征输入至所述初始引用图像分割模型中的图像编码器,由所述图像编码器提取所述图像样本的初始图像特征,基于所述初始图像特征,采用交叉注意力机制对所述初始文本特征进行优化,得到文本优化特征,将所述文本特征优化与所述初始图像特征进行融合,得到融合图像特征,并对所述文本优化特征以及所述融合图像特征进行迭代优化及融合,得到目标文本特征和目标跨模态图像融合特征;将所述目标跨模态图像融合特征输入至所述初始引用图像分割模型中的解码器,得到所述解码器输出的分割结果,并基于所述目标文本特征、所述图像样本中的目标实例标签以及所述分割结果,计算训练损失,基于所述训练损失对所述初始引用图像分割模型的结构参数进行迭代优化,得到目标引用图像分割模型。2.根据权利要求1所述的引用图像分割模型训练方法,其特征在于,基于所述目标文本特征、所述图像样本中的目标实例标签以及所述分割结果,计算训练损失,包括:基于所述图像样本中的目标实例标签以及所述分割结果,计算分割损失;基于所述图像样本中不同目标实例对应的目标文本特征,计算每个目标实例对应的一致性损失和每个目标文本特征对应的对比性损失;基于所述分割损失、每个目标实例对应的一致性损失和每个目标文本特征对应的对比性损失,计算所述训练损失。3.根据权利要求2所述的引用图像分割模型训练方法,其特征在于,基于所述分割损失、每个目标实例对应的一致性损失和每个目标文本特征对应的对比性损失,计算所述训练损失,包括:基于每个目标实例对应的一致性损失,计算每个图像样本对应的总一致性损失,并基于每个目标文本特征对应的对比性损失,计算每个图像样本对应的总对比性损失;计算所述总一致性损失和所述总对比性损失的第一加权求和结果,并计算所述第一加权求和结果与所述分割损失的第二加权求和结果,将所述第二加权求和结果作为所述训练损失。4.根据权利要求2所述的引用图像分割模型训练方法,其特征在于,基于所述图像样本中不同目标实例对应的目标文本特征,计算每个目标文本特征对应的对比性损失,包括:基于所述图像样本中同一目标实例对应的目标文本特征,计算同一目标实例对应的目标文本特征的正相似度;基于所述图像样本中不同目标实例对应的目标文本特征,计算不同目标实例对应的目标文本特征的负相似度;基于所述正相似度和所述负相似度,计算每个目标文本特征对应的对比性损失。5.根据权利要求1所...

【专利技术属性】
技术研发人员:张兆翔樊峻秘甘睿彤
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1