【技术实现步骤摘要】
图像分类方法、装置、设备、存储介质和程序产品
[0001]本申请涉及计算机
,特别是涉及一种图像分类方法、装置、设备、存储介质和程序产品。
技术介绍
[0002]随着人工智能技术与计算机技术的飞速发展,图像处理技术应用于各类业务场景中。其中,图像分类技术利用图像的特征对其进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。
[0003]目前,图像分类技术多是基于深度学习的,图像分类的准确性往往依赖于大量的人工标注的图像数据,而且分类效果往往随着人工标注图像数据量的增长才会有较为明显的提升。然而,人工标注的图像数据的质量良莠不齐,同时人工标注工作量极大,需要花费大量的人工标注成本,效率也非常低。
技术实现思路
[0004]基于此,有必要针对上述技术问题,提供一种图像分类方法、装置、设备、存储介质和程序产品,能够降低人工标注工作量,减少大量的人工标注成本,提高标注效率。
[0005]第一方面,本申请提供了一种图像分类方法。所述方法包括:
[0006]获取原始图像和多个提示文本,每个提示文本根据不同的图像标签生成;
[0007]对于每个提示文本,将所述原始图像、所述提示文本与随机噪声图像输入已训练好的扩散模型,通过所述扩散模型根据所述原始图像和所述随机噪声图像生成带噪图像,根据所述带噪图像与所述提示文本生成预测噪声图像,计算生成的所述预测噪声图像与所述随机噪声图像的差异;
[0008]确定生成相应差异最小的预测噪声图像所依 ...
【技术保护点】
【技术特征摘要】
1.一种图像分类方法,其特征在于,所述方法包括:获取原始图像和多个提示文本,每个提示文本根据不同的图像标签生成;对于每个提示文本,将所述原始图像、所述提示文本与随机噪声图像输入已训练好的扩散模型,通过所述扩散模型根据所述原始图像和所述随机噪声图像生成带噪图像,根据所述带噪图像与所述提示文本生成预测噪声图像,计算生成的所述预测噪声图像与所述随机噪声图像的差异;确定生成相应差异最小的预测噪声图像所依赖的提示文本;将所述所依赖的提示文本对应的图像标签,作为所述原始图像的图像标签。2.根据权利要求1所述的方法,其特征在于,所述将所述原始图像、所述提示文本与随机噪声图像输入已训练好的扩散模型,通过所述扩散模型根据所述原始图像和所述随机噪声图像生成带噪图像,包括:通过所述扩散模型的图像编码器,对所述原始图像进行图像编码,得到所述原始图像的图像编码表示;通过所述扩散模型的扩散器,将所述随机噪声图像对应的噪声信息叠加至所述图像编码信息,得到所述带噪图像。3.根据权利要求2所述的方法,其特征在于,所述根据所述带噪图像与所述提示文本生成预测噪声图像,包括:通过所述扩散模型的文本编码器,对所述提示文本进行语义编码,得到所述提示文本对应的文本语义表示;将所述带噪图像和所述文本语义表示输入至所述扩散模型的噪声预测器中,通过所述噪声预测器输出预测噪声图像。4.根据权利要求3所述的方法,其特征在于,所述噪声预测器包括多个交替连接的残差网络和注意力层;所述将所述带噪图像和所述文本语义表示输入至所述扩散模型的噪声预测器中,通过所述噪声预测器输出预测噪声图像,包括:将所述带噪图像和所述随机噪声图像所对应的随机噪声量编码信息输入第一个残差网络,通过所述第一个残差网络,输出预测噪声信息;将所述预测噪声信息和所述文本语义表示输入第一个注意力层,通过所述第一个注意力层,输出注意力信息;从第二个残差网络开始,依次地将下一个残差网络作为当前残差网络,将下一个注意力层作为当前注意力层,将与所述当前残差网络连接的上一个注意力层输出的上一个注意力信息以及所述随机噪声量编码信息输入所述当前残差网络,通过所述当前残差网络,输出预测噪声信息;将所述当前残差网络输出的预测噪声信息和所述文本语义表示输入所述当前注意力层,通过所述当前注意力层,输出注意力信息;将末尾注意力层输出的注意力信息作为所述预测噪声图像。5.根据权利要求3所述的方法,其特征在于,所述方法还包括:获取训练样本,所述训练样本包括样本文本、样本图像和用于表示所述样本文本和所述样本图像是否匹配的标注信息;通过初始图像编码器,对所述样本图像进行图像编码,得到所述样本图像的图像编码表示;通过初始文本编码器,对所述样本文本进行语义编码,得到所述样本文本对应的文本
语义表示;计算所述图像编码表示与所述文本语义表示之间的相似度,根据所述相似度确定关于所述样本文本与所述样本图像是否匹配的预测结果;根据所述标注信息和所述预测结果的差异,构建样本损失,根据所述样本损失更新所述初始图像编码器和所述初始文本编码器后返回所述获取训练样本的步骤继续训练,得到所述扩散模型的图像编码器和所述扩散模型的文本编码器。6.根据权利要求1所述的方法,其特征在于,所述获取多个提示文本,包括:获取提示文本模板与多个图像标签;将所述多个图像标签中的每个图像标签,分别填充至所述提示文本模板中,得到多个与相应的图像标签对应的提示文本。7.根据权利要求1所述的方法,其特征在于,所述方法还包括:对所述原始图像进行划分,得到多个子图;所述对于每个提示文本,将所述原始图像、所述提示文本与随机噪声图像输入已训练好的扩散模型,通过所述扩散模型根据所述原始图像和所述随机噪声图像生成带噪图像,根据所述带噪图像与所述提示文本生成预测噪声图像,计算生成的所述预测噪声图像与所述随机噪声图像的差异,确定生成相应差异最小的预测噪声图像所依赖的提示文本;将所述所依赖的提示文本对应的图像标签,作为所述原始图像的图像标签,包括:对于每个子图,依次从所述多个提示文本中获取提示文本,对于每次获取的提示文本,将所述子图、获取的提示文本与随机噪声图像输入已...
【专利技术属性】
技术研发人员:朱城,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。