基于视觉语言模型的金丝猴面部识别方法技术

技术编号：43188395 阅读：25 留言：0更新日期：2024-11-01 20:11

本申请涉及一种基于视觉语言模型的金丝猴面部识别方法，不需要对金丝猴面部图像进行精细的标注，而是引入了额外的文本信息，这些文本信息以一种弱监督的形式存在，更易于收集和获取；并且通过描述文本可以与图像内容关联起来，提高模型对图像语义的理解能力，从而提高对细粒度特征的抽取能力。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及图像识别，具体地，涉及一种基于视觉语言模型的金丝猴面部识别方法。

技术介绍

1、由于近亲繁殖的影响，金丝猴种群中性别相同和年龄相近的个体在面部外观上呈现出高度相似的特征，因此，金丝猴面部识别被认为是一项具有挑战性的细粒度识别任务。

2、金丝猴的面部区域被弱判别特性的毛发遮盖，而这些毛发特征易受光照、风吹等环境因素影响。毛发颜色差异不明显，但毛发区域在图像中所占比例较大，且包含独特的纹理特征。因此在个体差异较大的情况下，毛发特征可提供帮助。然而，仅依赖面部毛发特征进行个体识别并不可靠，因为这些特征易受环境影响。因此，迫切需要模型找到不受环境影响的特征，以提高个体识别的稳定性和准确性。

3、金丝猴的五官特征以及面部特征都是独特的，而且这些特征受环境因素的影响较小，在面部识别任务中表现出了较强的鲁棒性。因此，提取金丝猴的五官特征和面部特征对于面部识别至关重要。然而，这些特征具有相似的整体外观，区分它们需要关注细微的局部特征。传统的卷积神经网络在提取全局特征方面表现良好，但对于分类这些细微差异的任务，需要更多地关注局部特征，在这方面存在局限性。

4、现有的大部分细粒度分类方法采用了定位-分类子网络的策略，以捕捉图像中具有细粒度信息的局部区域。通过引入定位子网络，这些方法能够有效地聚焦于图像中与细粒度分类相关的局部特征，并在细粒度识别任务中表现出色，但其需要大量的局部标注，这一过程耗时耗力、成本高昂，限制了其实用性。

技术实现思路

1、为了克服现

2、第一方面，提供一种基于视觉语言模型的金丝猴面部识别方法，包括：

3、获取模型训练数据集，模型训练数据集中的样本为金丝猴图片；

4、基于gpt模型和clip模型，根据金丝猴语料库中的特征信息和模型训练数据集，获取每个样本对应的描述文本，构成描述文本数据集；

5、基于模型训练数据集和描述文本数据集对clip模型进行微调，得到微调后的clip模型；

6、构建面部识别模型，面部识别模型包括微调后的clip模型中的图像编码器、mlp和分类器；

7、基于模型训练数据集对面部识别模型进行训练，得到训练后的面部识别模型；

8、将待识别的金丝猴图片输入到训练后的面部识别模型，得到金丝猴识别结果。

9、在一个实施例中，基于gpt模型和clip模型，根据金丝猴语料库中的特征信息和模型训练数据集，获取每个样本对应的描述文本，构成描述文本数据集；包括：

10、获取金丝猴语料库中的特征信息；

11、将特征信息输入到gpt模型，得到多条描述文本；

12、将多条描述文本和样本输入到clip模型中，得到与样本匹配的至少一个描述文本；

13、所有样本对应的描述文本，构成描述文本数据集。

14、在一个实施例中，基于模型训练数据集对面部识别模型进行训练，得到训练后的面部识别模型，采用的损失函数为arcface损失函数。

15、在一个实施例中，微调后的clip模型中的图像编码器为vit模型。

16、第二方面，提供一种基于视觉语言模型的金丝猴面部识别装置，包括：

17、模型训练数据集获取模块，用于获取模型训练数据集，模型训练数据集中的样本为金丝猴图片；

18、描述文本数据集获取模块，用于基于gpt模型和clip模型，根据金丝猴语料库中的特征信息和模型训练数据集，获取每个样本对应的描述文本，构成描述文本数据集；

19、微调模块，用于基于模型训练数据集和描述文本数据集对clip模型进行微调，得到微调后的clip模型；

20、模型构建模块，用于构建面部识别模型，面部识别模型包括微调后的clip模型中的图像编码器、mlp和分类器；

21、模型训练模块，用于基于模型训练数据集对面部识别模型进行训练，得到训练后的面部识别模型；

22、识别模块，用于将待识别的金丝猴图片输入到训练后的面部识别模型，得到金丝猴识别结果。

23、在一个实施例中，描述文本数据集获取模块，还用于

24、获取金丝猴语料库中的特征信息；

25、将特征信息输入到gpt模型，得到多条描述文本；

26、将多条描述文本和样本输入到clip模型中，得到与样本匹配的至少一个描述文本；

27、所有样本对应的描述文本，构成描述文本数据集。

28、在一个实施例中，基于模型训练数据集对面部识别模型进行训练，得到训练后的面部识别模型，采用的损失函数为arcface损失函数。

29、在一个实施例中，微调后的clip模型中的图像编码器为vit模型。

30、第三方面，提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时，以实现上述的基于视觉语言模型的金丝猴面部识别方法。

31、第四方面，提供一种计算机程序产品，包括计算机程序/指令，计算机程序/指令被处理器执行时，以实现上述的基于视觉语言模型的金丝猴面部识别方法。

32、相对于现有技术而言，本申请具有以下有益效果：本申请的基于视觉语言模型的金丝猴面部识别方法，不需要对金丝猴面部图像进行精细的标注，而是引入了额外的文本信息，这些文本信息以一种弱监督的形式存在，更易于收集和获取；并且通过描述文本可以与图像内容关联起来，提高模型对图像语义的理解能力，从而提高对细粒度特征的抽取能力。

本文档来自技高网...

【技术保护点】

1.一种基于视觉语言模型的金丝猴面部识别方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，其中，基于GPT模型和CLIP模型，根据金丝猴语料库中的特征信息和模型训练数据集，获取每个样本对应的描述文本，构成描述文本数据集；包括：

3.如权利要求1所述的方法，其特征在于，其中，基于所述模型训练数据集对所述面部识别模型进行训练，得到训练后的面部识别模型，采用的损失函数为Arcface损失函数。

4.如权利要求1所述的方法，其特征在于，所述微调后的CLIP模型中的图像编码器为ViT模型。

5.一种基于视觉语言模型的金丝猴面部识别装置，其特征在于，包括：

6.如权利要求5所述的装置，其特征在于，所述描述文本数据集获取模块，还用于

7.如权利要求5所述的装置，其特征在于，其中，基于所述模型训练数据集对所述面部识别模型进行训练，得到训练后的面部识别模型，采用的损失函数为Arcface损失函数。

8.如权利要求5所述的装置，其特征在于，所述微调后的CLIP模型中的图像编码器为ViT模型。

<...

【技术特征摘要】

1.一种基于视觉语言模型的金丝猴面部识别方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，其中，基于gpt模型和clip模型，根据金丝猴语料库中的特征信息和模型训练数据集，获取每个样本对应的描述文本，构成描述文本数据集；包括：

3.如权利要求1所述的方法，其特征在于，其中，基于所述模型训练数据集对所述面部识别模型进行训练，得到训练后的面部识别模型，采用的损失函数为arcface损失函数。

4.如权利要求1所述的方法，其特征在于，所述微调后的clip模型中的图像编码器为vit模型。

5.一种基于视觉语言模型的金丝猴面部识别装置，其特征在于，包括：

6.如权利要求5所述的装置，其特征在于，所述描述文本数...

【专利技术属性】
技术研发人员：许鹏飞，尹爽，孙哲，张旭，邓鑫，郭竞，郭松涛，何刚，聂卫科，
申请(专利权)人：西北大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人