图像分类方法、装置、电子设备和介质制造方法及图纸

技术编号：40830838 阅读：2 留言：0更新日期：2024-04-01 14:53

本公开的实施例公开了图像分类方法、装置、电子设备和介质，涉及配电网调控技术领域。该方法的具体实施方式包括：利用训练完成的大规模语言模型基于待分类图片生成第一图片描述文本；获取预设的场景需求数据，构建第二图片描述文本；确定第一分类结果；利用关键点检测算法对上述待分类图片进行特征提取，得到目标特征；将上述目标特征输入训练好的图像深度学习网络，得到目标向量；对上述目标向量进行训练调整，得到第二分类结果。该实施方式通过利用大规模语言模型生成图片描述文本、利用关键点检测算法进行特征提取以及利用监督学习深度学习网络进行训练和调整，从而自动化地对图像进行分类，并且具有较高的准确率和鲁棒性的效果。

全部详细技术资料下载

【技术实现步骤摘要】

本公开的实施例涉及图像处理，具体涉及图像分类方法、装置、电子设备和介质。

技术介绍

1、图像分类技术是一种根据图像的语义信息对不同类别图像进行区分的技术。它是计算机视觉领域最核心的任务之一，是物体检测、图像分隔、物体跟踪、行为分析、人脸识别等其他高层次视觉任务的基础。

2、虽然图像分类技术已经取得了很大的进展，但仍存在一些不足之处，例如光照变化、背景杂波、遮挡和部分可见性、尺度变化、视角变化、类别间相似度、数据集偏差以及计算资源等问题。目前大部分图像分类的数据集都是从网络上收集的，这些数据集可能存在一些偏差，例如标签错误、数据不平衡等，这些都会影响图像分类的性能。

技术实现思路

1、有鉴于此，本公开实施例提供了一种图像分类方法、装置、电子设备和介质，以解决现有技术中如何克服由于目前大部分图像分类的数据集都是从网络上收集的，这些数据集可能存在一些偏差，例如标签错误、数据不平衡等，这些都会影响图像分类的性能的问题。

2、本公开实施例的第一方面，提供了一种图像分类方法，包括：获取待分类图片，利用训练完成的大规模语言模型基于上述待分类图片生成第一图片描述文本；获取预设的场景需求数据，构建第二图片描述文本；利用上述大规模语言模型，确定上述第一图片描述文本和上述第二图片描述文本的第一分类结果；若上述第一分类结果表征分类相符，利用关键点检测算法对上述待分类图片进行特征提取，得到目标特征；将上述目标特征输入训练好的图像深度学习网络，得到目标向量；利用监督学习深度学习网络对上

3、在一些实施例的一些可选的实现方式中，上述大规模语言模型的训练过程，包括：获取大规模语言模型的初始模型；利用参数高效性微调方法构建目标训练矩阵；随机抽取两张图片，计算上述初始模型输出特征的距离；利用对比学习算法基于上述输出特征的距离计算两张图片的损失值，基于上述损失值判断上述两张图片是否属于一个类别；若属于同一类别，利用反向传播修改上述目标训练矩阵参数，直至模型收敛。

4、在一些实施例的一些可选的实现方式中，上述大规模语言模型的训练过程，还包括：抽取两张符合上述预设标准的图片，计算上述大规模语言模型输出的目标特征的距离；利用对比学习算法基于上述目标特征的距离计算两张图片的损失值，基于上述损失值判断上述两张图片是否属于同一类别；若属于同一类别，利用反向传播修改上述目标训练矩阵参数，直至模型收敛。

5、在一些实施例的一些可选的实现方式中，上述利用训练好的大规模语言模型，确定上述第一图片描述文本和上述第二图片描述文本的第一分类结果，包括：将第一图片描述文本和第二图片描述文本输入到训练好的大规模语言模型进行解析和处理，得到文本关键信息和特征；利用大规模语言模型基于文本关键信息和特征确定上述待分类图片是否与预设的场景需求相符；若相符，得到第一分类结果为将上述待分类图片归为相应的类别；若不相符，得到第一分类结果为将上述待分类图片归为其他类别或拒绝分类。

6、在一些实施例的一些可选的实现方式中，上述利用关键点检测算法对待分类图片进行特征提取，得到目标特征，包括：利用关键点检测算法对待分类图片进行特征提取，得到关键特征点；计算上述关键特征点的坐标信息、方向信息和尺度信息；基于上述坐标信息、上述方向信息和上述尺度信息将上述关键特征点进行连接，得到目标特征。

7、在一些实施例的一些可选的实现方式中，上述将上述目标特征输入训练好的图像深度学习网络，得到目标向量，包括：将上述目标特征输入训练好的图像深度学习网络，利用图像深度学习网络将目标特征映射到目标维度的空间中；在目标维度的空间中，对上述目标特征进行转化，得到目标向量。

8、在一些实施例的一些可选的实现方式中，上述监督学习深度学习网络为全连接网络、自注意力机制的神经网络、时间卷积网络和循环神经网络的任意一种。

9、本公开实施例的第二方面，提供了一种图像分类装置，装置包括：第一获取单元，被配置成获取待分类图片，利用训练好的大规模语言模型基于上述待分类图片生成第一图片描述文本；第二获取单元，被配置成获取预设的场景需求数据，构建第二图片描述文本；第一分类单元，被配置成利用训练好的大规模语言模型，基于第一图片描述文本和第二图片描述文本得到第一分类结果；特征提取单元，被配置成若上述第一分类结果为分类相符，利用关键点检测算法对待分类图片进行特征提取，得到目标特征；特征转化单元，被配置成将上述目标特征输入训练好的图像深度学习网络，得到目标向量；第二分类单元，被配置成利用监督学习深度学习网络对上述目标向量进行训练微调，得到第二分类结果，上述第二分类结果为待分类图片属于各个类别的概率。

10、本公开实施例的第三方面，提供了一种电子设备，包括存储器、处理器以及存储在存储器中并且可以在处理器上运行的计算机程序，该处理器执行计算机程序时实现上述方法的步骤。

11、本公开实施例的第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

12、本公开的上述各个实施例中的一个实施例具有如下有益效果：首先，获取待分类图片，利用训练完成的大规模语言模型基于上述待分类图片生成第一图片描述文本；获取预设的场景需求数据，构建第二图片描述文本；然后，利用上述大规模语言模型，确定上述第一图片描述文本和上述第二图片描述文本的第一分类结果；之后，若上述第一分类结果表征分类相符，利用关键点检测算法对上述待分类图片进行特征提取，得到目标特征；将上述目标特征输入训练好的图像深度学习网络，得到目标向量；最后，利用监督学习深度学习网络对上述目标向量进行训练调整，得到第二分类结果，上述第二分类结果为待分类图片属于各个类别的概率。本公开提供图像分类方法通过利用大规模语言模型生成图片描述文本、利用关键点检测算法进行特征提取以及利用监督学习深度学习网络进行训练和调整，从而自动化地对图像进行分类，并且具有较高的准确率和鲁棒性的效果。

本文档来自技高网...

【技术保护点】

1.一种图像分类方法，包括：

2.根据权利要求1所述的图像分类方法，其特征在于，所述大规模语言模型的训练过程，包括：

3.根据权利要求2所述的图像分类方法，其特征在于，大规模语言模型的训练过程，还包括：

4.根据权利要求1所述的图像分类方法，其特征在于，所述利用训练好的大规模语言模型，确定所述第一图片描述文本和所述第二图片描述文本的第一分类结果，包括：

5.根据权利要求1所述的图像分类方法，其特征在于，所述利用关键点检测算法对待分类图片进行特征提取，得到目标特征，包括：

6.根据权利要求1所述的图像分类方法，其特征在于，所述将所述目标特征输入训练好的图像深度学习网络，得到目标向量，包括：

7.根据权利要求1所述的图像分类方法，其特征在于，所述监督学习深度学习网络为全连接网络、自注意力机制的神经网络、时间卷积网络和循环神经网络的任意一种。

8.一种图像分类装置，包括：

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并且可以在所述处理器上运行的计算机程序，其特征在于，所述处理器

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。

...

【技术特征摘要】

1.一种图像分类方法，包括：

2.根据权利要求1所述的图像分类方法，其特征在于，所述大规模语言模型的训练过程，包括：

3.根据权利要求2所述的图像分类方法，其特征在于，大规模语言模型的训练过程，还包括：

5.根据权利要求1所述的图像分类方法，其特征在于，所述利用关键点检测算法对待分类图片进行特征提取，得到目标特征，包括：

6.根据权利要求1所述的图像分类方法，其特征在于，所述将所述目标特征输入训练好...

【专利技术属性】
技术研发人员：鲁鑫，
申请(专利权)人：北京宏瓴科技发展有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人