图像识别模型的训练方法、图像识别方法和装置制造方法及图纸

技术编号：41569310 阅读：2 留言：0更新日期：2024-06-06 23:50

本申请实施例提供一种图像识别模型的训练方法、图像识别方法和装置。图像识别模型的训练方法包括：获取图像样本和文本样本，该文本样本用于描述图像样本中的待识别目标；基于图像识别模型得到图像样本的图像特征以及文本样本的文本特征；确定图像特征和文本特征之间的相似度；根据相似度，训练图像识别模型。在该训练方法中，一方面，图像识别模型的输入为具有图像和文本的多模态输入，可使得图像识别模型不仅具有较佳的识别结果、且还具有较佳的可解释性和泛化性。另一方面，通过图像样本的图像特征与文本样本的文本特征之间的相似度对图像识别模型进行训练，训练方法较为便捷且有效，能够节约训练成本，有利于图像识别模型的推广和实际使用。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机视觉领域，并且更为具体地，涉及一种图像识别模型的训练方法、图像识别方法和装置。

技术介绍

1、计算机视觉是人工智能的一个重要分支，它旨在使计算机能够“看到”和理解图像和视频中的内容。图像识别是计算机视觉中的基础任务之一，它涉及让计算机和软件系统自动识别和处理图像中的物体、场景、人物、文字等内容。图像识别技术通常包括图像检测、图像分类、图像分割、目标跟踪等子任务。基于图像识别的各种模型已经广泛的应用于各行各业中，可用于执行安全监控、医疗诊断、工业自动化、交通监控、农业监控等等。

2、在农业监控应用中，目前对于农作物状态的识别分类，往往只依赖于图像这一个单独的视觉模态，输入信息单一，导致效果一般、可解释性差且泛化性能受限。鉴于此，如何提升农业监控中图像识别模型的识别效果、泛化性能以及可解释性，是一项亟待解决的技术问题。

技术实现思路

1、本申请实施例提供一种图像识别模型的训练方法、图像识别方法和装置，具有较佳的识别效果、泛化性能以及可解释性。

2、第一方面，提供一种图像识别模型的训练方法，包括：获取图像样本和文本样本，该文本样本用于描述图像样本中的待识别目标；基于图像识别模型得到图像样本的图像特征以及文本样本的文本特征；确定图像特征和文本特征之间的相似度；根据相似度，训练图像识别模型。

3、在本申请实施例提供的图像识别模型的训练方法中，一方面，图像识别模型的输入为具有图像和文本的多模态输入，可使得图像识别模型不仅具有较佳的识别结果、且

4、在一些可能的实施方式中，图像识别模型包括文本编码模块和图像特征提取模块；其中，上述基于图像识别模型得到图像样本的图像特征以及文本样本的文本特征包括：基于文本样本和文本编码模块，得到文本特征；基于图像样本和图像特征提取模块，得到图像特征；上述根据相似度，训练图像识别模型，包括：根据相似度，训练图像识别模型中的图像特征提取模块。

5、通过该实施方式的技术方案，可仅对图像识别模型中的图像特征提取模块进行训练，而不对图像识别模型中的其它模块进行训练，在保障图像识别模型的识别效果的同时，进一步有效降低图像识别模型的训练成本且提升图像识别模型的训练效率。

6、在一些可能的实施方式中，图像识别模型还包括图像编码模块；其中，上述基于图像样本和图像特征提取模块，得到图像特征包括：将图像样本输入至图像编码模块中，得到中间特征；将中间特征输入至图像特征提取模块，得到图像特征。

7、在该实施方式中，首先通过图像编码模块对二维的图像样本进行编码，可以将原始图像数据转换为更高层次的特征表示，从而便于后续的任务处理。

8、在一些可能的实施方式中，图像样本和文本样本的数量均为多个，多个图像样本中待识别目标的类型相同，且多个图像样本与多个文本样本一一对应；其中，上述基于图像识别模型得到图像样本的图像特征以及文本样本的文本特征包括：将多个图像样本和多个文本样本输入至图像识别模型中，得到多个图像特征和多个文本特征，其中，多个图像特征和多个文本特征一一对应。

9、在一些可能的实施方式中，上述确定图像特征和文本特征之间的相似度包括：基于第一公式确定多个图像特征中每个图像特征与多个文本特征之间的第一相似度，第一公式为：

10、

11、其中，ti和tj分别为多个文本特征中的第i个文本特征和第j个文本特征，为多个图像特征中的第i个图像特征，τ为温度系数，n为多个文本特征的数量，pi为多个图像特征中第i个图像特征与多个文本特征之间的第一相似度，i、j、n均为正整数。

12、在该实施方式中，基于第一公式可计算得到多个图像特征中每个图像特征与多个文本特征之间的第一相似度，该第一相似度可用于表征每个图像特征与其对应文本特征匹配的概率，利用该第一相似度可有效评估图像识别模型对于多个图像样本的识别效果，进而对图像识别模型实现有效训练，得到识别效果较优的图像识别模型。

13、在一些可能的实施方式中，上述确定图像特征和文本特征之间的相似度包括：基于第二公式确定多个文本特征中每个文本特征与多个图像特征之间的第二相似度，第二公式为：

14、

15、其中，ti为多个文本特征中的第i个文本特征，和为多个图像特征中的第i个图像特征和第j个图像特征，τ为温度系数，n为多个图像特征的数量，pi'为多个文本特征中第i个文本特征与多个图像特征之间的第二相似度，i、j、n均为正整数。

16、在该实施方式中，基于第二公式可计算得到多个文本特征中每个文本特征与多个图像特征整体之间的第二相似度，该第二相似度可用于表征每个文本特征与其对应图像特征匹配的概率，利用该第二相似度可有效评估图像识别模型对于多个图像样本的识别效果，进而对图像识别模型实现有效训练，得到识别效果较优的图像识别模型。

17、在一些可能的实施方式中，上述根据相似度，训练图像识别模型包括：根据多个图像特征中的每个图像特征与多个文本特征之间的第一相似度和/或多个文本特征中每个文本特征与多个图像特征之间的第二相似度，训练图像识别模型。

18、在一些可能的实施方式中，上述根据多个图像特征中的每个图像特征与多个文本特征之间的第一相似度和/或多个文本特征中每个文本特征与多个图像特征之间的第二相似度，训练图像识别模型，包括：根据损失函数、第一相似度以及第二相似度，计算图像识别模型的损失值，损失函数为：

19、

20、其中，yi为多个图像特征中第i个图像特征与多个文本特征的匹配标签，pi为多个图像特征中第i个图像特征与多个文本特征之间的第一相似度，yj为多个文本特征中第j个文本特征与多个图像特征的匹配标签，pj'为多个文本特征中第j个文本特征与多个图像特征之间的第二相似度，n为多个图像特征和多个文本特征的数量，i、j、n均为正整数；基于损失值，优化图像识别模型中的参数以训练图像识别模型。

21、通过该实施方式的技术方案，综合图像识别模型的输出结果以及图像样本与文本样本之间的相似度评价图像识别模型的损失值，具有较高的准确性，有利于提升图像识别模型的训练效果以及训练效率。

22、在一些可能的实施方式中，图像识别模型应用于农作物图像识别以进行农作物监测，图像样本包括农作物的图像样本，文本样本包括农作物的特征文本样本。

23、通过该实施方式的技术方案，利用具有较高识别性能、较佳可解释性和泛化性的图像识别模型应用在农作物图像识别中，有利于提升农作物识别和监控效果，及时干预农作物种植过程，提升农业产量。

24、第二方面，提供一种图像识别方法，包括：获取待识别目标的目标图像；基于目标图像识别模型得到目标图像的图像特征，目标图像识别模型包括根本文档来自技高网...

【技术保护点】

1.一种图像识别模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的训练方法，其特征在于，所述图像识别模型包括文本编码模块和图像特征提取模块；

3.根据权利要求2所述的训练方法，其特征在于，所述图像识别模型还包括图像编码模块；

4.根据权利要求1至3中任一项所述的训练方法，其特征在于，所述图像样本和所述文本样本的数量均为多个，多个图像样本中待识别目标的类型相同，且所述多个图像样本与多个文本样本一一对应；

5.根据权利要求4所述的训练方法，其特征在于，所述确定所述图像特征和所述文本特征之间的相似度包括：

6.根据权利要求4所述的训练方法，其特征在于，所述确定所述图像特征和所述文本特征之间的相似度包括：

7.根据权利要求5或6所述的训练方法，其特征在于，所述根据所述相似度，训练所述图像识别模型包括：

8.根据权利要求7所述的训练方法，其特征在于，所述根据所述多个图像特征中的每个图像特征与所述多个文本特征之间的第一相似度和/或所述多个文本特征中每个文本特征与所述多个图像特征之间的第二相似度，训练所述图像识别模型，包括：

9.根据权利要求1至3中任一项所述的训练方法，其特征在于，所述图像识别模型应用于农作物图像识别以进行农作物监测，所述图像样本包括农作物的图像样本，所述文本样本包括农作物的特征文本样本。

10.一种图像识别方法，其特征在于，包括：

11.根据权利要求10所述的图像识别方法，其特征在于，所述文本特征库包括如权利要求1至9中任一所述的训练方法中的文本特征。

12.根据权利要求10所述的图像识别方法，其特征在于，所述基于所述图像特征与文本特征库中每个文本特征的相似度，确定所述目标图像的识别结果，包括：

13.一种图像识别模型的训练装置，其特征在于，包括：

14.一种图像识别装置，其特征在于，包括：

15.一种计算机可读存储介质，其特征在于，用于存储计算机程序，所述计算机程序使得计算机执行：如权利要求1至9中任一项所述的图像识别模型的训练方法，和/或，如权利要求10至12中任一项所述的图像识别方法。

...

【技术特征摘要】

1.一种图像识别模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的训练方法，其特征在于，所述图像识别模型包括文本编码模块和图像特征提取模块；

3.根据权利要求2所述的训练方法，其特征在于，所述图像识别模型还包括图像编码模块；

5.根据权利要求4所述的训练方法，其特征在于，所述确定所述图像特征和所述文本特征之间的相似度包括：

6.根据权利要求4所述的训练方法，其特征在于，所述确定所述图像特征和所述文本特征之间的相似度包括：

7.根据权利要求5或6所述的训练方法，其特征在于，所述根据所述相似度，训练所述图像识别模型包括：

8.根据权利要求7所述的训练方法，其特征在于，所述根据所述多个图像特征中的每个图像特征与所述多个文本特征之间的第一相似度和/或所述多个文本特征中每个文本特...

【专利技术属性】
技术研发人员：廖占坤，邢中义，
申请(专利权)人：黑龙江惠达科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人