System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 图像分类方法、电子设备及计算机可读存储介质技术_技高网

图像分类方法、电子设备及计算机可读存储介质技术

技术编号:43879655 阅读:6 留言:0更新日期:2024-12-31 19:02
本申请实施例提供了一种图像分类方法、电子设备及计算机可读存储介质,涉及人工智能技术领域。该方法包括:将第一样本图像输入预训练视觉语言模型进行文本生成,得到第一样本图像文本描述;为第一样本图像文本描述增加问题引导语,然后输入第一初始大语言模型进行类别预测,得到第一样本预测图像类别;基于真实图像类别和第一样本预测图像类别对初始大语言模型进行微调,得到第一目标大语言模型;将第一目标图像输入预训练视觉语言模型进行文本生成,得到第一目标图像文本描述;为第一目标图像文本描述增加问题引导语,然后输入第一目标大语言模型进行类别预测,得到第一目标预测图像类别。本申请提高了图像分类准确性。

【技术实现步骤摘要】

本申请涉及人工智能,尤其涉及一种图像分类方法、电子设备及计算机可读存储介质


技术介绍

1、在计算机视觉的各种应用中,常常要面对训练域和测试域之间的分布差异(也称域偏移)带来的挑战。例如,自动驾驶汽车需要能够处理在训练阶段没有出现的恶劣天气条件,这对模型的泛化能力有很大的要求。为了缓解域偏移,跨域学习旨在提取源域和目标域之间的域不变知识。

2、目前,一些在大规模视觉语言模型方面的工作表明,通过从大量配对的图像-文本样本中学习,图像分类性能有了显著提升。然而,基于大规模视觉语言模型来学习域不变特征仍然面临着巨大的域偏移挑战,导致跨域性能不佳。另一方面,大语言模型在基于文本的任务中具有强大的零样本泛化能力。然而,由于模态和任务结构之间固有的差异,大语言模型的在文本上的成功并不能够直接延伸到纯视觉和视觉-语言任务。

3、综上,目前相关技术的图像分类的准确性较差。


技术实现思路

1、本申请实施例的主要目的在于提出图像分类方法、电子设备及计算机可读存储介质,提高了图像分类的准确性。

2、为实现上述目的,本申请实施例的第一方面提出了一种图像分类方法,所述方法包括:

3、获取第一样本图像和真实图像类别;

4、将所述第一样本图像输入预训练视觉语言模型进行文本生成,得到第一样本图像文本描述;

5、为所述第一样本图像文本描述增加问题引导语,生成第一样本引导文本;

6、将所述第一样本引导文本输入第一初始大语言模型进行类别预测,得到第一样本预测图像类别;

7、基于所述真实图像类别和所述第一样本预测图像类别对所述初始大语言模型进行微调,得到第一目标大语言模型;

8、获取第一目标图像,且将所述第一目标图像输入预训练视觉语言模型进行文本生成,得到第一目标图像文本描述;

9、为所述第一目标图像文本描述增加所述问题引导语,生成第一目标引导文本;

10、将所述第一目标引导文本输入所述第一目标大语言模型进行类别预测,得到第一目标预测图像类别。

11、可选地,所述问题引导语包括信息提供模板和类别问题模板;所述为所述第一样本图像文本描述增加问题引导语,生成第一样本引导文本,包括:

12、获取类别集;所述类别集包含多个类别,多个所述类别包含所述第一样本预测图像类别;

13、将所述第一样本图像文本描述嵌入所述信息提供模板,且将所述类别集嵌入所述类别问题模板,得到所述第一样本引导文本。

14、可选地,所述第一样本图像文本描述包括第一样本图像标签,所述预训练视觉语言模型包括图像标签模型;所述将所述第一样本图像输入预训练视觉语言模型进行文本生成,得到第一样本图像文本描述,包括:

15、获取标签集,所述标签集包括多个标签;

16、将每个所述标签嵌入预设的标签模板,生成标签文本;

17、将所述第一样本图像和所述标签文本输入所述图像标签模型进行相似度计算,得到第一图像标签相似度;

18、根据所述第一图像标签相似度对多个所述标签进行筛选,得到所述第一样本图像标签。

19、可选地,所述第一样本图像文本描述还包括第一样本图像属性,所述预训练视觉语言模型包括图像属性模型;所述将所述第一样本图像输入预训练视觉语言模型进行文本生成,得到第一样本图像文本描述,还包括:

20、将每个所述标签嵌入预设的属性引导模板,生成属性引导文本;

21、将每个所述属性引导文本输入预训练语言模型进行属性文本生成,得到候选属性文本;

22、将所述第一样本图像和所述候选属性文本输入所述图像属性模型进行相似度计算,得到第一图像属性相似度;

23、根据所述第一图像属性相似度对多个所述候选属性文本进行筛选,得到所述第一样本图像属性。

24、可选地,所述第一样本图像文本描述还包括第一样本图像字幕,所述预训练视觉语言模型包括图像字幕模型;所述将所述第一样本图像输入预训练视觉语言模型进行文本生成,得到第一样本图像文本描述,还包括:

25、将所述第一样本图像输入所述图像字幕模型进行字幕生成,得到所述第一样本图像字幕。

26、可选地,所述基于所述真实图像类别和所述第一样本预测图像类别对所述初始大语言模型进行微调,得到第一目标大语言模型,包括:

27、根据所述真实图像类别对多个所述第一样本预测图像类别进行筛选,得到第一样本目标预测类别,且将所述第一样本目标预测类别的预测概率作为第一预测概率;

28、对所述第一预测概率进行对数计算,得到第一对数;

29、对所述第一对数取反,得到第一损失数据;

30、根据所述第一损失数据对所述初始大语言模型进行参数调整,得到所述第一目标大语言模型。

31、可选地,在所述基于所述真实图像类别和所述第一样本预测图像类别对所述初始大语言模型进行微调,得到第一目标大语言模型之后,所述方法还包括:

32、获取第二样本图像;其中,所述第一样本图像与所述第二样本图像处于不同域;

33、利用所述第一目标大语言模型对所述第二样本图像输入进行类别预测,得到伪图像类别;

34、将所述第二样本图像输入所述预训练视觉语言模型进行文本生成,得到第二样本图像文本描述;

35、为所述第二样本图像文本描述增加问题引导语,生成第二样本引导文本;

36、将所述第二样本引导文本输入所述第一目标大语言模型进行类别预测,得到第二样本预测图像类别;

37、根据所述真实图像类别、所述第一样本预测图像类别、所述伪图像类别以及所述第二样本预测图像类别,对所述第一目标大语言模型进行微调,得到第二目标大语言模型;

38、获取第二目标图像,且将所述第二目标图像输入所述预训练视觉语言模型进行文本生成,得到第二目标图像文本描述;

39、为所述第二目标图像文本描述增加所述问题引导语,生成第二目标引导文本;

40、将所述第二目标引导文本输入所述第二目标大语言模型进行类别预测,得到第二目标预测图像类别。

41、可选地,根据所述真实图像类别、所述第一样本预测图像类别、所述伪图像类别以及所述第二样本预测图像类别,对所述第一目标大语言模型进行微调,得到第二目标大语言模型,包括:

42、根据所述真实图像类别对多个所述第一样本预测图像类别进行筛选,得到第一样本目标预测类别,且将所述第一样本目标预测类别的预测概率作为第一预测概率;

43、对所述第一预测概率进行对数计算,得到第一对数,且对所述第一对数取反,得到第一损失数据;

44、根据所述伪图像类别对多个所述第二样本预测图像类别进行筛选,得到第二样本目标预测类别,且将所述第一样本目标预测类别的预测概率,作为第二预测概率;

45、对所述第二预测概率进行对数计算,得到第二对数,且对本文档来自技高网...

【技术保护点】

1.一种图像分类方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述问题引导语包括信息提供模板和类别问题模板;

3.根据权利要求1所述的方法,其特征在于,所述第一样本图像文本描述包括第一样本图像标签,所述预训练视觉语言模型包括图像标签模型;

4.根据权利要求3所述的方法,其特征在于,所述第一样本图像文本描述还包括第一样本图像属性,所述预训练视觉语言模型包括图像属性模型;

5.根据权利要求4所述的方法,其特征在于,所述第一样本图像文本描述还包括第一样本图像字幕,所述预训练视觉语言模型包括图像字幕模型;

6.根据权利要求1至5任一项所述的方法,其特征在于,所述基于所述真实图像类别和所述第一样本预测图像类别对所述初始大语言模型进行微调,得到第一目标大语言模型,包括:

7.根据权利要求1至5任一项所述的方法,其特征在于,在所述基于所述真实图像类别和所述第一样本预测图像类别对所述初始大语言模型进行微调,得到第一目标大语言模型之后,所述方法还包括:

8.根据权利要求7所述的方法,其特征在于,根据所述真实图像类别、所述第一样本预测图像类别、所述伪图像类别以及所述第二样本预测图像类别,对所述第一目标大语言模型进行微调,得到第二目标大语言模型,包括:

9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至8任一项所述的方法。

10.一种计算机可读存储介质,所述存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法。

...

【技术特征摘要】

1.一种图像分类方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述问题引导语包括信息提供模板和类别问题模板;

3.根据权利要求1所述的方法,其特征在于,所述第一样本图像文本描述包括第一样本图像标签,所述预训练视觉语言模型包括图像标签模型;

4.根据权利要求3所述的方法,其特征在于,所述第一样本图像文本描述还包括第一样本图像属性,所述预训练视觉语言模型包括图像属性模型;

5.根据权利要求4所述的方法,其特征在于,所述第一样本图像文本描述还包括第一样本图像字幕,所述预训练视觉语言模型包括图像字幕模型;

6.根据权利要求1至5任一项所述的方法,其特征在于,所述基于所述真实图像类别和所述第一样本预测图像类别对所述初始大语言模型进行微调,得到第一目标大语...

【专利技术属性】
技术研发人员:张宇陈澍豪
申请(专利权)人:南方科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1