图像识别模型的训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号:32454980 阅读:12 留言:0更新日期:2022-02-26 08:31
本公开提供了一种图像识别模型的训练方法、装置、电子设备及存储介质,涉及人工智能技术领域,具体涉及深度学习、计算机视觉等技术领域,可应用于图像处理和图像识别场景下。包括:获取多个样本图像和对应的模态,根据多种模态,确定与样本图像对应的标注关系特征,以及根据多个样本图像、多种标注关系特征,标注识别信息训练初始的图像识别模型,得到目标图像识别模型,能够有效地利用图像的多模态优势,实现将样本图像不同模态之间的关联特征作为标注数据以进行模型训练,使得训练得到的目标图像识别模型能够有效地学习建模出图像不同模态之间的关系,有效地提升目标图像识别模型的识别性能,提升目标图像识别模型的识别效果。果。果。

【技术实现步骤摘要】
图像识别模型的训练方法、装置、电子设备及存储介质


[0001]本公开涉及人工智能
,具体涉及深度学习、计算机视觉等
,可应用于图像处理和图像识别场景下,尤其涉及图像识别模型的训练方法、装置、电子设备及存储介质。

技术介绍

[0002]人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
[0003]相关技术中,在图像识别模型的训练过程中,未充分利用图像的多模态优势,从而导致训练得到图像识别模型的图像识别性能较差。

技术实现思路

[0004]本公开提供了一种图像识别模型的训练方法、图像识别方法、装置、电子设备、存储介质及计算机程序产品。
[0005]根据本公开的第一方面,提供了一种图像识别模型的训练方法,包括:获取多个样本图像,其中,所述多个样本图像分别对应多种模态,所述多个样本图像对应标注识别信息;根据所述多种模态,确定与所述多个样本图像分别对应的多种标注关系特征,其中,所述标注关系特征,描述相应样本图像的模态与其他样本图像的模态之间的关联情况,所述相应样本图像和所述其他样本图像共同构成所述多个样本图像;以及根据所述多个样本图像、所述多种标注关系特征,以及所述标注识别信息训练初始的图像识别模型,以得到目标图像识别模型。
[0006]根据本公开的第二方面,提供了一种图像识别方法,包括:获取多个待识别图像,其中,所述多个待识别图像分别对应多种模态;将所述多个待识别图像分别输入至如本公开第一方面的图像识别模型的训练方法训练得到的目标图像识别模型之中,以得到所述目标图像识别模型输出的目标识别信息。
[0007]根据本公开的第三方面,提供了一种图像识别模型的训练装置,包括:第一获取模块,用于获取多个样本图像,其中,所述多个样本图像分别对应多种模态,所述多个样本图像对应标注识别信息;确定模块,用于根据所述多种模态,确定与所述多个样本图像分别对应的多种标注关系特征,其中,所述标注关系特征,描述相应样本图像的模态与其他样本图像的模态之间的关联情况,所述相应样本图像和所述其他样本图像共同构成所述多个样本图像;以及训练模块,用于根据所述多个样本图像、所述多种标注关系特征,以及所述标注识别信息训练初始的图像识别模型,以得到目标图像识别模型。
[0008]根据本公开的第四方面,提供了一种图像识别装置,包括:第二获取模块,用于获
取多个待识别图像,其中,所述多个待识别图像分别对应多种模态;输入模块,用于将所述多个待识别图像分别输入至如本公开第三方面的图像识别模型的训练装置训练得到的目标图像识别模型之中,以得到所述目标图像识别模型输出的目标识别信息。
[0009]根据本公开的第五方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如本公开第一方面所述的图像识别模型的训练方法,或者执行如本公开第二方面所述的图像识别方法。
[0010]根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如本公开第一方面所述的图像识别模型的训练方法,或者执行如本公开第二方面所述的图像识别方法。
[0011]根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如本公开第一方面所述的图像识别模型的训练方法的步骤,或者执行如本公开第二方面所述的图像识别方法的步骤。
[0012]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其他特征将通过以下的说明书而变得容易理解。
附图说明
[0013]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0014]图1是根据本公开第一实施例的示意图;
[0015]图2是根据本公开第二实施例的示意图;
[0016]图3是根据本公开实施例提供的图像识别模型的结构示意图;
[0017]图4是根据本公开第三实施例的示意图;
[0018]图5是根据本公开第四实施例的示意图;
[0019]图6是根据本公开第五实施例的示意图;
[0020]图7是根据本公开第六实施例的示意图;
[0021]图8是根据本公开第七实施例的示意图;
[0022]图9示出了用来实施本公开的实施例的图像识别模型的训练方法的示例电子设备的示意性框图。
具体实施方式
[0023]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0024]图1是根据本公开第一实施例的示意图。
[0025]其中,需要说明的是,本实施例的图像识别模型的训练方法的执行主体为图像识别模型的训练装置,该装置可以由软件和/或硬件的方式实现,该装置可以配置在电子设备中,电子设备可以包括但不限于终端、服务器端等。
[0026]本公开实施例涉及人工智能
,具体涉及计算机视觉和深度学习技术领
域,可应用于图像处理和图像识别场景下。
[0027]其中,人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
[0028]深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。深度学习的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。
[0029]计算机视觉,指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。
[0030]而图像处理和图像识别场景可以例如,采用一些硬件设备或者软件计算处理逻辑对待处理图像进行识别,以识别得到相应的图像特征,并采用该图像特征辅助后续的检测应用,当将本公开提供的图像识别模型的训练方法应用于图像处理和图像识别场景中,能够有效地利用图像处理和图像识别场景中图像的多模态优势,实现将样本图像不同模态之间的关联特征作为标注数据以进行模型训练,使得训练得到的目标图像识别模型能够有效地学习建模出图像不同模态之间的关系,有效地提升目标图像识别模型的识别性能,提升目标图像本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像识别模型的训练方法,包括:获取多个样本图像,其中,所述多个样本图像分别对应多种模态,所述多个样本图像对应标注识别信息;根据所述多种模态,确定与所述多个样本图像分别对应的多种标注关系特征,其中,所述标注关系特征,描述相应样本图像的模态与其他样本图像的模态之间的关联情况,所述相应样本图像和所述其他样本图像共同构成所述多个样本图像;以及根据所述多个样本图像、所述多种标注关系特征,以及所述标注识别信息训练初始的图像识别模型,以得到目标图像识别模型。2.根据权利要求1所述的方法,所述初始的图像识别模型包括:多个残差网络、与所述多个残差网络分别相连接的多个协同注意力网络,以及待训练图像识别模型,其中,所述根据所述多个样本图像、所述多种标注关系特征,以及所述标注识别信息训练初始的图像识别模型,以得到目标图像识别模型,包括:将所述多个样本图像分别输入至对应所述多个残差网络之中,以得到所述多个残差网络分别输出的多个初始模态特征,其中,所述初始模态特征,是预测得到的描述相应所述样本图像的模态的特征;将所述多个初始模态特征分别输入至对应所述多个协同注意力网络之中,以得到所述多个协同注意力网络分别输出的多个预测关系特征;在所述多个预测关系特征与分别对应所述多个标注关系特征之间满足第一收敛条件时,根据所述多个预测关系特征、所述标注识别信息训练所述待训练图像识别模型,以得到所述目标图像识别模型。3.根据权利要求2所述的方法,其中,所述根据所述多个预测关系特征、所述标注识别信息训练所述待训练图像识别模型,以得到所述目标图像识别模型,包括:将所述多个预测关系特征输入至所述待训练图像识别模型之中,以得到所述待训练图像识别模型输出的预测识别信息;如果所述预测识别信息和所述标注识别信息之间满足第二收敛条件,将训练得到的所述图像识别模型作为所述目标图像识别模型。4.根据权利要求2所述的方法,其中,所述将所述多个初始模态特征分别输入至对应所述多个协同注意力网络之中,以得到所述多个协同注意力网络分别输出的多个预测关系特征,包括:将所述多个初始模态特征分别输入至对应所述多个协同注意力网络之中,以得到所述多个协同注意力网络分别输出的多个注意力响应特征;确定与所述初始模态特征对应的多个参考注意力响应特征,所述参考注意力响应特征,是所述多个注意力响应特征之中除所述初始模态特征所对应注意力响应特征之外的其他注意力响应特征;根据所述多个参考注意力响应特征处理所述初始模态特征,以得到对应的预测关系特征。5.根据权利要求4所述的方法,其中,所述根据所述多个参考注意力响应特征处理所述初始模态特征,以得到对应的预测关系特征,包括:从所述初始模态特征之中解析得到第一模态特征和第二模态特征,其中,所述第一模
态特征和所述第二模态特征不相同;对所述第一模态特征和第二模态特征进行连接处理,以得到参考模态特征;对所述初始模态特征和所述参考模态特征进行融合处理,得到待处理模态特征;根据所述多个参考注意力响应特征处理所述待处理模态特征,以得到所述对应的预测关系特征。6.根据权利要求5所述的方法,其中,所述根据所述多个参考注意力响应特征处理所述待处理模态特征,以得到所述对应的预测关系特征,包括:对所述多个参考注意力响应特征进行相加处理,以得到目标注意力响应特征;对所述目标注意力响应特征和所述待处理模态特征进行相乘处理,以得到所述对应的预测关系特征。7.根据权利要求5所述的方法,其中,所述第一模态特征,是与所述初始模态特征对应的所述样本图像中,背景区域对应的局部模态特征,所述第二模态特征,是与所述初始模态特征对应的所述样本图像中的梯度信息特征。8.一种图像识别方法,包括:获取多个待识别图像,其中,所述多个待识别图像分别对应多种模态;将所述多个待识别图像分别输入至如上述权利要求1

7中任一项的图像识别模型的训练方法训练得到的目标图像识别模型之中,以得到所述目标图像识别模型输出的目标识别信息。9.一种图像识别模型的训练装置,包括:第一获取模块,用于获取多个样本图像,其中,所述多个样本图像分别对应多种模态,所述多个样本图像对应标注识别信息;确定模块,用于根据所述多种模态,确定与所述多个样本图像分别对应的多种标注关系特征,其中,...

【专利技术属性】
技术研发人员:张国生
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1