System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 多层提示信息的多标签图像分类方法技术_技高网

多层提示信息的多标签图像分类方法技术

技术编号:44342494 阅读:14 留言:0更新日期:2025-02-18 20:55
一种多层提示信息的多标签图像分类方法,包括:获取测试图像和训练集样本对应的标签集;利用主题模型得到训练集中所有样本的主题分布;在模型中学习一组表示主题标签分布信息的提示块,将提示块Prompt Token注入到中间特征中,输入进选定的提示层Prompt Block中;最后由Vision Transformer的输出结果判断该样本隶属于哪些类别。与现有技术相比,本发明专利技术增进了多标签分类任务的精准度,有助于注意力机制关注到更小的、对于区分物体属于哪一类别更加关键的区域,一定程度上能够弥补标签的缺失和错误,提高了模型的鲁棒性,同时降低了人力成本。

【技术实现步骤摘要】

本专利技术属于计算机视觉、自然语言处理领域,具体涉及一种多层提示信息的多标签图像分类方法


技术介绍

1、主题模型(topic modeling)是文本分析领域的一个核心任务,其目标是通过机器学习算法让机器深入理解文档集合中的潜在主题结构,进而利用这些主题信息对文本数据进行抽象和概括。主题模型能够对包含大量词汇的文档进行语义层面的关系推理和数据挖掘,从而在文档中揭示出隐藏的主题分布。

2、主题模型是一种统计模型,用于对文本中的隐含语义结构进行聚类分析。它通过非监督学习的方式,找出文档中潜在的主题,并分析这些主题与词语之间的关联性。主题模型主要应用于自然语言处理(nlp)和文本挖掘,例如按主题对文本进行收集、分类和降维。主题模型的工作原理基于概率模型,每个主题被视为词表中单词的概率分布。一篇文章中的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”的过程得到的。

3、多标签分类(multi-lable classification,mlc)是计算机视觉领域一个关键的任务,这一任务要求机器学习模型能够充分挖掘样本的特征信息,并在多个标签之间进行有效的关系推理。通过多标签分类,机器学习模型能够在复杂的数据集中识别出样本所具有的多种属性或类别。多标签分类的研究,不仅有助于推动机器学习技术的发展,也受到了模式识别、信息检索等领域的广泛关注。该任务在实际应用中具有广泛的价值,如在网络内容审核、图像标注、文本分类等领域,能够帮助机器更好地理解样本的多维度特征,提高数据处理和分析的准确性,从而提升智能化处理能力。

4、在多标签分类任务中,样本标签的正确性与完整性是影响模型性能的关键因素之一。样本标签集的不准确或缺失会削弱深度学习模型的预测能力,进而影响其在实际应用中的表现。而随着大数据时代的到来,数据量的激增带来了样本数量和标签种类的爆炸性增长,这不仅大幅提升了人工标注样本标签集的经济成本,同时也增加了标注工作的复杂性。人工标注过程中,由于疲劳、主观判断差异或专业知识不足等原因,标签集的不完整性和错误标注现象屡见不鲜。这些问题的存在,无疑大大提高了训练出高精度多标签分类深度学习模型的难度,同时也对模型的泛化能力和可靠性提出了更高的要求。


技术实现思路

1、鉴于上述,本专利技术的目的是提供一种多层提示信息的多标签图像分类方法。

2、本专利技术先利用主题模型(topic modeling)聚类出多标签数据集中的样本的主题分布;然后将主题分布注入到样本图像训练模型中,利用交叉注意力机制影响特征提取的过程,让模型更加容易关注到在某个主题下对应的一些显著的图像特征。

3、为实现上述专利技术目的,本专利技术提供的技术方案步骤如下:

4、步骤1,获取测试图像和训练集样本对应的标签集;

5、步骤2,设定主题数量,利用主题模型得到训练集中所有样本的主题分布;

6、步骤3,在视觉transformer(vision transformer,vit)模型中学习一组表示主题标签分布信息的提示块,将提示块注入到中间特征中,输入进选定的提示层中;

7、步骤4,最后由vit模型的输出结果判断该样本隶属于哪些类别。

8、进一步的:

9、步骤1中,图像为自然场景下含有多个实体的彩色图像,每个图像对应一个标签集,其中包含不少于一种标签,且训练集的样本已知其对应的标签集,测试集样本的标签集未知。

10、标签集指训练集中每个样本所隶属的类的自然语言名称集合。

11、步骤2中,主题模型是指发掘多个文档蕴含的抽象主题的模型。将训练集样本对应的标签集输入到主题模型中,并设定主题数量,则利用主题模型得到训练集样本的主题分布;

12、主题分布是指一个样本属于几个不同主题的概率,通常一个样本的主题分布是一个长度为设定好的主题数量的向量,且向量内所有元素和为1。

13、训练集样本是指图片集合,而训练集样本对应的主题分布是指每个训练集样本对应每个主题的概率值。

14、步骤3中,利用辅助学习策略,在开展主要任务多标签分类的同时进行辅助任务标签主题分类,具体方法是,首先选定插入提示的提示层(prompt block)以及每个提示层所插入主题信息对应的主题数量;对每个提示层,将对应的提示块连接到上一层输出的图像特征上,输入进提示层中,通过交叉注意力机制让图像特征和提示层相互吸收信息,最后将提示层的输出分割成新的图像特征和提示块,得到的图像特征继续进入下一层block,提示块则进入主题分类学习任务中。具体而言:

15、在vit模型中,选定vit模型中间的某几层block作为提示层prompt block,并设定对应的主题数量;

16、对于每一个提示层:

17、首先,初始化一个大小为(1,embed_size)的tensor作为提示块,然后将该提示块和上一层block输出的图片特征连接起来,一起输入到提示层中;

18、然后,从提示层的输出结果拆分出提示块和图像特征两个分布;提示块进入到辅助任务中,而图像特征进入下一层block中继续进行主要任务;若提示层是最后一层block,则提示块进入到辅助任务中,而图像特征进入分类器中进行多标签分类任务;

19、最后,将辅助任务和主要任务的损失加权求和得到模型的损失。

20、辅助任务主题标签分类任务采用cross-entropy loss作为损失函数,每一个提示层都会产生一个相应的主题标签损失ai;主要任务多标签分类任务则采用asymmetricloss作为损失函数,产生的损失记为b,模型整体损失函数n代表提示层个数。

21、辅助任务的主题标签分类任务采用cross-entropy loss作为损失函数,每一个提示层都会产生一个相应的主题标签损失ai,主要任务多标签分类任务则采用asymmetricloss作为损失函数,产生的损失记为b,模型整体损失函数i代表提示层的序号,n代表提示层个数,α、βi为人为设定的超参数,用于加权求和主要任务和辅助任务的损失得到最后模型总损失,βi对应第i层提示层产生的主题标签损失的权重。

22、首先要选定插入提示的提示层(prompt block)以及每个提示层所插入主题信息对应的主题数量,靠近底部的提示层对应的主题数量较少,提示层越靠近顶部对应的提示数量逐渐增加,让vit模型能有层次地学习到颗粒度逐渐细化的主题信息。

23、由vision transformer模型的输出结果判断该样本隶属于哪些类别指,将visiontransformer模型输出的结果经过sigmoid函数激活,随后设定一个阈值,通常为0.5,大于这个阈值的值对应的下标所对应的标签即被认为是这张图片随包含的标签。

24、综上,本专利技术在vision transformer模型进行多标签分类任务上对于提供主题信息、丰富标签集层次性从而引导机本文档来自技高网...

【技术保护点】

1.一种多层提示信息的多标签图像分类方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的多层提示信息的多标签图像分类方法,其特征在于,步骤3中,在ViT模型中,选定ViT模型中间的某几层Block作为提示层Prompt Block,并设定对应的主题数量;

3.根据权利要求1所述的多层提示信息的多标签图像分类方法,其特征在于,在步骤2中,主题模型是LDA模型、BTM模型或BERTopic模型。

4.根据权利要求2所述的多层提示信息的多标签图像分类方法,其特征在于,在步骤3中,辅助任务的主题标签分类任务采用Cross-Entropy Loss作为损失函数,每一个提示层都会产生一个相应的主题标签损失Ai,主要任务多标签分类任务则采用Asymmetric Loss作为损失函数,产生的损失记为B,模型整体损失函数i代表提示层的序号,n代表提示层个数,α、βi为人为设定的超参数,用于加权求和主要任务和辅助任务的损失得到最后模型总损失,βi对应第i层提示层产生的主题标签损失的权重。

5.根据权利要求1所述的多层提示信息的多标签图像分类方法,其特征在于,特征是在步骤4中,将ViT模型的输出送入激活函数中;激活函数的输出结果的标签概率值大于预设阈值,则认为这个样本含有这个类别。

6.根据权利要求1所述的多层提示信息的多标签图像分类方法,其特征在于,特征是在步骤4中,由ViT模型的输出结果判断该样本隶属于哪些类别的方法为:

...

【技术特征摘要】

1.一种多层提示信息的多标签图像分类方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的多层提示信息的多标签图像分类方法,其特征在于,步骤3中,在vit模型中,选定vit模型中间的某几层block作为提示层prompt block,并设定对应的主题数量;

3.根据权利要求1所述的多层提示信息的多标签图像分类方法,其特征在于,在步骤2中,主题模型是lda模型、btm模型或bertopic模型。

4.根据权利要求2所述的多层提示信息的多标签图像分类方法,其特征在于,在步骤3中,辅助任务的主题标签分类任务采用cross-entropy loss作为损失函数,每一个提示层都会产生一个相应的主题标签损失a...

【专利技术属性】
技术研发人员:彭岳王姜鹏
申请(专利权)人:南京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1