图像语义分割模型的训练方法及图像语义分割方法技术

技术编号:18576512 阅读:36 留言:0更新日期:2018-08-01 11:34
本发明专利技术公开了一种图像语义分割模型的训练方法及图像语义分割方法,训练方法包括:将预先标注语义分割信息的训练图像分别输入到至少两个基础语义分割子模型中,得到对应的至少两个包含语义信息的特征图;将至少两个特征图及其预先标注的语义分割信息同时输入到注意力模型中,以计算出每个特征图的权重;利用融合单元将至少两个所述特征图按相应权重进行融合,得到所述训练图像的预测语义分割结果;依据所述训练图像的预测语义分割结果和预先标注的语义分割信息,对至少两个基础语义分割子模型和注意力模型的参数进行修正;利用若干训练图像不断迭代执行上述训练步骤直至至少两个基础语义分割子模型和注意力模型的训练结果满足预设的收敛条件。

Training method of image semantic segmentation model and image semantic segmentation method

The present invention discloses a training method of image semantic segmentation model and a method of image semantic segmentation. The training method includes: input the training images of pre tagged semantic segmentation information into at least two basic semantic segmentation submodels, and obtain at least two feature maps containing semantic information; at least two The feature map and its pre tagged semantic segmentation information are input into the attention model to calculate the weight of each feature map, and at least two characteristic graphs are fused by the fusion unit to get the prediction semantic segmentation results of the training images, and the prediction semantic points of the trained images are based on the prediction semantics. The segmentation results and the pre tagged semantic segmentation information are used to modify the parameters of at least two basic semantic segmentation submodels and attention models, and the training results of the above training steps are continuously iterated through the training images until at least two basic semantic segmentation submodels and attention models meet the presupposed convergence conditions.

【技术实现步骤摘要】
图像语义分割模型的训练方法及图像语义分割方法
本专利技术涉及计算机视觉与图像处理领域,尤其是涉及一种基于注意力模型融合的图像语义分割方法和模型的训练方法。
技术介绍
图像语义分割是计算机视觉领域中一项重要的研究内容,其目标是将图像分割成具有不同语义信息的区域,并且标注每个区域相应的语义标签,例如通过对一幅图像进行图像语义分割后可为图像中的物体添加语义标签(譬如桌子、墙壁、天空、人、狗等),可应用于例如无人驾驶等领域。目前,用于图像语义分割的最主流的解决方案主要基于卷积神经网络(ConvolutionalNeuralNetworks,简称CNN),该网络学习图像的语义特征表示。比如全卷积网络(FullyConvolutionalNetworks,简称为FCN)通过构建包含卷积层、池化层和反卷积层的卷积神经网络,以端到端的方式将任意大小的输入图像转换为像素级的分类结果,为研究人员和工程师提供了一种简单而有效的方法来解决图像语义分割问题。DeepLab和DilatedNet把全卷积网络中普通卷积替换为扩散卷积使得语义分割预测时结合更多的上下文和场景信息。然而,这些模型还存在各种各样的问题,特别是对于复杂的对象和多样的场景。例如全卷积网络忽略了图像的全局信息和潜在有用的场景语义上下文信息,因此容易将一些物体的某些部分错误地标注为其他物体。而DeepLab和DilatedNet扩大了滤波器的感受野以融合更多的上下文,但遗漏了详细的信息,会把同一个物体预测成多个标签。最近一些学者提出融合同一个模型不同层提取的特征或不同模型提取的特征的方法。比较简单的融合方法有求和、求最大值和合并操作。求和即把所有特征图按每个元素进行相加求和;求最大值则把所有特征图按每个元素求最大值而得;合并操作把所有特征按某个维度进行合并操作。这些方法虽然计算简单,但往往只对某些类型的特征适用,而且还有可能融合之后效果提升不明显甚至不如原来的特征。以上
技术介绍
内容的公开仅用于辅助理解本专利技术的专利技术构思及技术方案,其并不必然属于本专利申请的现有技术,在没有明确的证据表明上述内容在本专利申请的申请日前已经公开的情况下,上述
技术介绍
不应当用于评价本申请的新颖性和创造性。
技术实现思路
本专利技术针对特征融合效果提升不明显的问题,提出了一种基于注意力模型融合的图像语义分割方法,通过采用多个基础的语义分割子模型对输入图像分别提取出具有语义信息的特征,并通过注意力模型合理地计算出每个特征融合的权重,再依据相应权重进行多个特征图的融合,最后使用融合后的特征进行分割结果的预测,从而达到提高图像语义分割预测准确率的目的。本专利技术为达上述目的所提出的其中一种技术方案如下:一种图像语义分割模型的训练方法,用于训练一基于注意力模型融合的图像语义分割模型,所述图像语义分割模型包括至少两个基础语义分割子模型、一注意力模型以及一融合单元;所述训练方法包括:S1、将预先标注语义分割信息的训练图像分别输入到所述至少两个基础语义分割子模型中,得到所述训练图像对应的至少两个包含语义信息的特征图;S2、将所述训练图像的至少两个所述特征图及其预先标注的语义分割信息同时输入到注意力模型中,以通过所述注意力模型计算出所述训练图像的每个特征图的权重;S3、利用所述融合单元将所述训练图像的至少两个所述特征图按照步骤S2得到的相应权重进行融合,得到所述训练图像的预测语义分割结果;S4、依据所述训练图像的预测语义分割结果和预先标注的语义分割信息,对所述至少两个基础语义分割子模型和所述注意力模型的参数进行修正;S5、利用若干训练图像不断迭代执行步骤S1至S4,直至所述至少两个基础语义分割子模型和所述注意力模型的训练结果满足预设的收敛条件。本专利技术另还提出了一种图像语义分割方法,包括以下步骤P1和P2:P1、提供一经过前述训练方法训练得到的基于注意力模型融合的图像语义分割模型;P2、将待分割图像输入到步骤P1提供的所述图像语义分割模型中,以执行以下分割步骤P21至P23:P21、分别通过所述至少两个基础语义分割子模型对所述待分割图像进行语义分割,得到所述待分割图像对应的至少两个包含语义信息的特征图;P22、通过所述注意力模型根据所述待分割图像的至少两个所述特征图及其所述语义信息,计算出所述待分割图像的每个特征图的权重;P23、通过所述融合单元将所述待分割图像的至少两个所述特征图按照步骤P23得到的相应权重进行融合,得到所述待分割图像的预测语义分割结果。本专利技术提出的上述技术方案,所述基于注意力模型融合的图像语义分割模型在采用前述训练方法进行训练后即可用于对待处理(此处“处理”即是指进行图像语义分割)的图像进行图像语义分割,对待处理图像先采用基础语义分割子模型提取出不同的特征图及其语义信息,再采用注意力模型计算每个特征图的权重,再根据权重对特征图进行融合,得到待处理图像的预测语义分割结果,该预测的语义分割结果相对于采用传统的基础语义分割模型(例如FCN、DilatedNet等)得到语义分割结果,以及采用传统的基础语义分割模型之后再进行求最大值、求和的融合所得到的语义分割结果而言,其预测准确率均有提升。附图说明图1是本专利技术提供的基于注意力模型融合的图像语义分割模型的训练方法流程图;图2是本专利技术提供的一种示例性的基于注意力模型融合的图像语义分割模型的示意图。具体实施方式下面结合附图和具体的实施方式对本专利技术作进一步说明。本专利技术旨在提供一种基于注意力模型融合的图像语义分割方法,通过对多个基础语义分割子模型输出的含语义信息的特征图采用基于注意力模型的特征权重进行融合,以得到具有较高像素准确率的语义分割结果。为此,本专利技术的具体实施方式提供了一种基于注意力模型融合的图像语义分割模型,以及对该图像语义分割模型进行训练的方法和使用该图像语义分割模型进行图像语义分割的方法。参考图2,本专利技术其中一实施例提供的基于注意力模型融合的图像语义分割模型的示意图,该图像语义分割模型包括至少两个基础语义分割子模型(例如FCN、DilatedNet、DeepLab等)、一注意力模型20以及一融合单元30,对该图像语义分割模型进行训练后,即可用于对输入的图像进行基于注意力模型融合的图像语义分割。参考图1,对图2所示例的该图像语义分割模型进行训练方法包括以下步骤S1至S5:步骤S1、将预先标注语义分割信息的训练图像分别输入到所述至少两个基础语义分割子模型中,得到所述训练图像对应的至少两个包含语义信息的特征图。用于训练的训练集包含大量的训练图像P0,对训练图像,可预先采用相关的软件进行图像的语义分割信息标注(像素级别的,标注每个像素所属的类别信息)。以图2为例,对于每一训练图像P0,都同时输入到FCN和DilatedNet两个基础语义分割子模型中,通过基础语义分割子模型对训练图像进行传统的图像语义分割,得到训练图像P0所对应的两个包含了语义信息的特征图FM1和FM2。如果是多个基础语义分割子模型,则对于一训练图像P0而言,就可得到对应个数的特征图。步骤S2、将所述训练图像的至少两个所述特征图及其预先标注的语义分割信息同时输入到注意力模型中,以通过所述注意力模型计算出所述训练图像的每个特征图的权重。继续图2所示的例子,当得到训练图像P0的两个包含语义信本文档来自技高网
...

【技术保护点】
1.一种图像语义分割模型的训练方法,其特征在于:用于训练一基于注意力模型融合的图像语义分割模型,所述图像语义分割模型包括至少两个基础语义分割子模型、一注意力模型以及一融合单元;所述训练方法包括:S1、将预先标注语义分割信息的训练图像分别输入到所述至少两个基础语义分割子模型中,得到所述训练图像对应的至少两个包含语义信息的特征图;S2、将所述训练图像的至少两个所述特征图及其预先标注的语义分割信息同时输入到注意力模型中,以通过所述注意力模型计算出所述训练图像的每个特征图的权重;S3、利用所述融合单元将所述训练图像的至少两个所述特征图按照步骤S2得到的相应权重进行融合,得到所述训练图像的预测语义分割结果;S4、依据所述训练图像的预测语义分割结果和预先标注的语义分割信息,对所述至少两个基础语义分割子模型和所述注意力模型的参数进行修正;S5、利用若干训练图像不断迭代执行步骤S1至S4,直至所述至少两个基础语义分割子模型和所述注意力模型的训练结果满足预设的收敛条件。

【技术特征摘要】
1.一种图像语义分割模型的训练方法,其特征在于:用于训练一基于注意力模型融合的图像语义分割模型,所述图像语义分割模型包括至少两个基础语义分割子模型、一注意力模型以及一融合单元;所述训练方法包括:S1、将预先标注语义分割信息的训练图像分别输入到所述至少两个基础语义分割子模型中,得到所述训练图像对应的至少两个包含语义信息的特征图;S2、将所述训练图像的至少两个所述特征图及其预先标注的语义分割信息同时输入到注意力模型中,以通过所述注意力模型计算出所述训练图像的每个特征图的权重;S3、利用所述融合单元将所述训练图像的至少两个所述特征图按照步骤S2得到的相应权重进行融合,得到所述训练图像的预测语义分割结果;S4、依据所述训练图像的预测语义分割结果和预先标注的语义分割信息,对所述至少两个基础语义分割子模型和所述注意力模型的参数进行修正;S5、利用若干训练图像不断迭代执行步骤S1至S4,直至所述至少两个基础语义分割子模型和所述注意力模型的训练结果满足预设的收敛条件。2.如权利要求1所述的训练方法,其特征在于:所述基础语义分割子模型为FCN、DeepLab或DilatedNet。3.如权利要求1所述的训练方法,其特征在于:所述预先标注的语义分割信息包含所述训练图像的每个像素的物体类别信息。4.如权利要求1所述的训练方法,其特征在于,步骤S3中所述融合单元将所述训练图像的至少两个所述特征图按照步骤S2得到的相应权重进行融合具体包括:S31、对所述训练图像的每个特征图,均从该特征图的每个语义分割元素的维度去和相应的权重相乘;其中,语义分割元素从所述特征图的所述语义信息中得到;S32、对所有特征图,将相乘结果按对应元素进行求和;S33、从求和结果中选取最大值所在的标号,作为所述训练图像的预测语义分割结果。5.如权利要求1所述的训练方...

【专利技术属性】
技术研发人员:袁春黎健成
申请(专利权)人:清华大学深圳研究生院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1