System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种模型训练方法、图像识别方法、装置及电子设备制造方法及图纸_技高网

一种模型训练方法、图像识别方法、装置及电子设备制造方法及图纸

技术编号:44893130 阅读:7 留言:0更新日期:2025-04-08 00:31
本申请实施例提供了一种模型训练方法、图像识别方法、装置及电子设备,涉及机器学习技术领域。该模型训练方法包括:获取样本图像;将样本图像和每一样本提示词输入预训练的对比学习模型,以使得对比学习模型生成样本图像的第一模态特征;确定每一样本提示词当前的第二模态特征;计算样本图像针对每一样本提示词的相似度;基于每一相似度以及样本图像的标签,确定损失值;在基于损失值判断出模型不符合模型收敛条件时,基于损失值,对每一样本提示词当前的第二模态特征中的指定特征部分进行参数调整,并返回获取样本图像的步骤。通过本方案可以降低非关键词对于识别结果准确性的影响,从而保证对比学习模型对于图像识别的准确性。

【技术实现步骤摘要】

本申请涉及机器学习,特别是涉及一种模型训练方法、图像识别方法、装置及电子设备


技术介绍

1、为了维护网络平台的网络环境,需要对上传至该平台的图像或视频进行审核,以避免通过该平台,传播可能会造成不好引导的图像或视频,例如,传播包括有纹身、烟等对象的图像。

2、通常情况下,利用经过预训练的对比学习模型,例如,预训练的clip(contrastivelanguage-image pre-training,对比性语言-图像预训练)模型,对图像进行识别,即识别图像对于对象的呈现状态,例如图像是否存在对象。其中,在识别过程中,该对比学习模型可以基于预先设定的提示词,来对图像进行识别。

3、然而,专利技术人在利用上述对比学习模型进行图像识别的过程中发现:

4、针对同一对象,在所使用的提示词中的关键词相同,但其他非关键词不同的情况下,对比学习模型对于同一图像进行识别所得到的识别结果不同。示例性的,“a photo ofa person with a tattoo(有纹身的人的图像)”,与“a photo of a person with tattoo(有纹身的人的图像)”,为关键词“tattoo”相同但其他非关键词不同的、针对“有纹身的人的图像”的提示词。

5、基于此,如何对预训练的对比学习模型进行优化训练,以降低提示词中的非关键词对于识别结果准确性的影响,从而保证利用对比学习模型对于图像的识别准确性,成为当前亟需解决的技术问题。


技术实现思路

1、本申请实施例的目的在于提供一种模型训练方法、图像识别方法、装置及电子设备,以降低提示词中的非关键词对于识别结果准确性的影响,从而保证对比学习模型对于图像识别的准确性。具体技术方案如下:

2、在本申请实施例提供的第一方面,首先,提供了一种模型训练方法,所述方法包括:

3、获取样本图像;其中,所述样本图像设置有用于表征样本对象的呈现状态的标签;

4、将所述样本图像和预先确定的每一样本提示词输入预训练的对比学习模型,以使得所述对比学习模型生成所述样本图像的向量特征,得到所述样本图像的第一模态特征,并确定每一样本提示词当前的第二模态特征,以及计算所述样本图像的第一模态特征分别与每一样本提示词的第二模态特征的相似度,得到所述样本图像针对每一样本提示词的相似度;其中,所述预训练的对比学习模型是在预训练模型的基础上,利用所包含对象为所述样本对象以外的其他对象的图像训练得到的;每一样本提示词为以所述样本对象的呈现状态作为描述内容的图像描述文本,且,任一样本提示词属于两种提示词类型中的一种,所述两种提示词类型所描述的呈现状态互斥,属于同一提示词类型的样本提示词的语义接近,每一样本提示词是根据一目标关键词以及其他非关键词组合得到,所述目标关键词为用于表征所述样本对象的一种呈现状态的关键词;每一样本提示词的初始的第二模态特征为该样本提示词的向量特征;

5、基于所述样本图像针对每一样本提示词的相似度,以及所述样本图像的标签,确定所述对比学习模型对应的损失值;

6、在基于所述损失值判断出所述对比学习模型不符合模型收敛条件时,对每一样本提示词当前的第二模态特征中的指定特征部分进行参数调整,并返回所述获取样本图像的步骤;其中,每一样本提示词当前的第二模态特征中的指定特征部分为该样本提示词当前的第二模态特征中的、其他非关键词对应的特征部分。

7、在本申请实施例提供的第二方面,还提供了一种图像识别方法,所述方法包括:

8、从目标图像中,截取感兴趣区域,得到目标子图像;其中,所述感兴趣区域为在待识别的目标对象存在于所述目标图像的情况下,所述目标对象在所述目标图像中所位于的载体区域;

9、将所述目标子图像和提示词组输入至预先训练好的对比学习模型中,以使所述对比学习模型生成所述目标子图像的向量特征,得到第一模态特征,并生成所述提示词组中的每一提示词的初始模态特征,以及,针对每一提示词,将该提示词的初始模态特征中的目标子特征与目标样本提示词对应的指定子特征进行拼接,得到该提示词的第二模态特征;计算所述目标子图像的第一模态特征分别与每一提示词的第二模态特征的相似度,得到所述目标子图像针对每一提示词的相似度;其中,所述提示词组中的每一提示词为以所述目标对象的呈现状态作为描述内容的图像描述文本,且,同一提示词组中不同提示词所描述的呈现状态互斥,所述对比学习模型是基于上述第一方面提供的一种模型训练方法训练得到的;所述目标样本提示词为各个样本提示词中的、所具有其他非关键词与该提示词的其他非关键词相匹配的样本提示词,所述指定子特征为训练完毕所述对比学习模型时所述目标样本提示词当前的第二模态特征中的指定特征部分的特征内容,所述目标子特征为表征目标关键词的特征;

10、基于每一提示词的相似度,确定所述目标子图像对应的识别结果;其中,所述识别结果为关于所述目标对象的呈现状态的结果;

11、基于所述目标子图像对应的识别结果,确定所述目标图像对于所述目标对象的呈现状态。

12、在本申请实施例提供的第三方面,提供了一种模型训练装置,所述装置包括:

13、图像获取模块,用于获取样本图像;其中,所述样本图像设置有用于表征样本对象的呈现状态的标签;

14、相似度获取模块,用于将所述样本图像和预先确定的每一样本提示词输入预训练的对比学习模型,以使得所述对比学习模型生成所述样本图像的向量特征,得到所述样本图像的第一模态特征,并确定每一样本提示词当前的第二模态特征,以及计算所述样本图像的第一模态特征分别与每一样本提示词的第二模态特征的相似度,得到所述样本图像针对每一样本提示词的相似度;其中,所述预训练的对比学习模型是在预训练模型的基础上,利用所包含对象为所述样本对象以外的其他对象的图像训练得到的;每一样本提示词为以所述样本对象的呈现状态作为描述内容的图像描述文本,且,任一样本提示词属于两种提示词类型中的一种,所述两种提示词类型所描述的呈现状态互斥,属于同一提示词类型的样本提示词的语义相近,每一样本提示词是根据一目标关键词以及其他非关键词组合得到,所述目标关键词为用于表征所述样本对象的一种呈现状态的关键词;每一样本提示词的初始的第二模态特征为该样本提示词的向量特征;

15、损失值计算模块,用于基于所述样本图像针对每一样本提示词的相似度,以及所述样本图像的标签,确定所述对比学习模型对应的损失值;

16、参数调整模块,用于在基于所述损失值判断出所述对比学习模型不符合模型收敛条件时,对每一样本提示词当前的第二模态特征中的指定特征部分进行参数调整,并返回所述获取样本图像的步骤;其中,每一样本提示词当前的第二模态特征中的指定特征部分为该样本提示词当前的第二模态特征中的、其他非关键词对应的特征部分。

17、在本申请实施例提供的第四方面,提供了一种图像识别装置,所述装置包括:

18、图像截取模块,用于从目标图像中,截取感兴趣区本文档来自技高网...

【技术保护点】

1.一种模型训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述样本图像针对每一样本提示词的相似度,以及所述样本图像的标签,确定所述对比学习模型对应的损失值,包括:

3.根据权利要求1所述的方法,其特征在于,所述在基于所述损失值判断出所述对比学习模型不符合模型收敛条件时,对每一样本提示词当前的第二模态特征中的指定特征部分进行参数调整,包括:

4.根据权利要求2所述的方法,其特征在于,所述基于所述样本图像针对每一样本提示词的相似度,确定所述样本图像针对每一样本提示词的置信度,包括:

5.根据权利要求1所述的方法,其特征在于,所述样本对象为纹身。

6.一种图像识别方法,其特征在于,所述方法包括:

7.根据权利要求6所述的方法,其特征在于,所述基于每一提示词对应的相似度,确定所述目标子图像对应的识别结果,包括:

8.根据权利要求7所述的方法,其特征在于,所述基于每一提示词对应的置信度分数,确定所述目标子图像对应的识别结果,包括:

9.根据权利要求6-8任一项所述的方法,其特征在于,所述基于所述目标子图像对应的识别结果,确定所述目标图像对于所述目标对象的呈现状态,包括:

10.根据权利要求6-8任一项所述的方法,其特征在于,所述基于所述目标子图像对应的识别结果,确定所述目标图像对于所述目标对象的呈现状态,包括:

11.根据权利要求6所述的方法,其特征在于,所述目标对象为纹身,所述载体区域为人体区域。

12.根据权利要求6所述的方法,其特征在于,所述方法还包括:

13.一种模型训练装置,其特征在于,所述装置包括:

14.一种图像识别装置,其特征在于,所述装置包括:

15.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;

16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-5任一所述的方法步骤,和/或,实现权利要求6-12任一所述的方法步骤。

...

【技术特征摘要】

1.一种模型训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述样本图像针对每一样本提示词的相似度,以及所述样本图像的标签,确定所述对比学习模型对应的损失值,包括:

3.根据权利要求1所述的方法,其特征在于,所述在基于所述损失值判断出所述对比学习模型不符合模型收敛条件时,对每一样本提示词当前的第二模态特征中的指定特征部分进行参数调整,包括:

4.根据权利要求2所述的方法,其特征在于,所述基于所述样本图像针对每一样本提示词的相似度,确定所述样本图像针对每一样本提示词的置信度,包括:

5.根据权利要求1所述的方法,其特征在于,所述样本对象为纹身。

6.一种图像识别方法,其特征在于,所述方法包括:

7.根据权利要求6所述的方法,其特征在于,所述基于每一提示词对应的相似度,确定所述目标子图像对应的识别结果,包括:

8.根据权利要求7所述的方法,其特征在于,所述基于每一提示词对应的置信度分数,确定所述目标子图像对应的识别结果,包括:

...

【专利技术属性】
技术研发人员:屈杨
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1