System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于低秩自适应的零样本异常图像检测方法技术_技高网

一种基于低秩自适应的零样本异常图像检测方法技术

技术编号:40559713 阅读:13 留言:0更新日期:2024-03-05 19:21
本发明专利技术公开了一种基于低秩自适应的零样本异常图像检测方法。本发明专利技术构建了低秩自适应模块并将其嵌入视觉语言大模型的视觉编码网络中,将待检图片输入至视觉编码网络获得图像的视觉编码特征,同时构建文本状态嵌入模块,将设计的通用状态文本输入文本状态嵌入模块获得图像对应的文本特征,接着将视觉编码特征和文本特征输入图像异常区域计算模块,获得待检图像的异常区域。本发明专利技术提出的低秩自适应模块具有规模较小的可学习参数,能有效降低预训练大模型迁移任务的微调难度,并且本发明专利技术构建的文本状态嵌入模块仅使用了通用的状态文本,极大降低了提示工程的设计难度,并显著提高了异常检测的准确率。

【技术实现步骤摘要】

本专利技术涉及计算机视觉和异常图像检测领域,特别涉及一种基于低秩自适应的零样本异常图像检测方法


技术介绍

1、异常检测的主要任务是识别与常规模式不同的情形,广泛应用于视频监控、产品质量控制、医学诊断等领域。传统的基于正常样本特征分布的图像异常检测方法将所学特征分布之外的样本视为异常样本,虽然不需要收集异常图像样本,但依赖大量的正常样本数据训练网络。当前比较流行的零样本异常检测方法采用了任务迁移的策略,避免了在目标任务上的数据收集。这些方法一般将预训练的大模型迁移到下游的异常检测任务,但是受限于模型规模,不能在下游任务中有效优化模型参数,限制了异常检测精度的提升。另外,对于基于文本监督的异常检测模型过多的依赖人工提示文本的设计,并且需要领域专家设计多个类似文本。不但增加了提示工程的设计难度,而且不能保证文本选取的合理性和有效性,不利用异常检测精度的提升。


技术实现思路

1、为了解决现有技术的不足,本专利技术提出了一种基于低秩自适应的零样本异常图像检测方法,通过构建低秩自适应模块降低模型的可学习参数规模,将低秩自适应模块嵌入预训练视觉语言模型,增强预训练模型对下游迁移任务的适应性和泛化能力。另外,通过构建文本状态嵌入模块,选择领域知识无关的状态文本,以降低对专家领域知识的依赖程度及改善提示工程的稳定性和可靠性。

2、为了实现上述目的,本专利技术采用的技术方案为:

3、本专利技术中的基于低秩自适应的零样本异常图像检测方法具体包括以下步骤:

4、1)构建基于低秩自适应的零样本异常检测网络;

5、2)针对所述零样本异常检测网络采用异常检测数据集训练;

6、3)采用训练后的零样本异常检测网络检测待检图像的异常区域:将待检图像和其对应的状态文本输入到零样本异常检测网络中进行检测,获得异常检测结果。

7、具体地,所述零样本异常检测网络具体按照以下方式设置:

8、所述零样本异常检测网络包括视觉编码网络、文本状态嵌入模块、reshape操作、异常区域计算模块和相乘操作,零样本异常检测网络的输入为待检图像和其对应的状态文本。

9、将所述待检图像输入到视觉编码网络,经视觉编码网络输出为多个视觉编码特征,每个视觉编码特征分别经过一个多层感知机操作mlp后输出各自对应的编码特征;将所述的状态文本输入到文本状态嵌入模块处理后,输出文本特征;将各个编码特征分别与文本特征共同输入至异常区域计算模块,分别经过reshape操作输出各个编码特征对应的异常区域图,最后将各个异常区域图通过相乘操作处理后得到待检图像异常区域热图,异常区域热图中的像素值大于设定阈值的区域即为异常区域。

10、具体地,所述的视觉编码网络包括依次进行的四个阶段:第一阶段、第二阶段、第三阶段和第四阶段;第一阶段的输入为待检图像,其余三个阶段的输入均为前一阶段输出的视觉编码特征。

11、将待检图像输入视觉编码网络后,每个阶段分别输出一个视觉编码特征,四个阶段分别输出第一视觉编码特征、第二视觉编码特征、第三视觉编码特征、第四视觉编码特征,再将四个视觉编码特征输入到各自对应的一个多层感知机操作mlp中获得对应的编码特征后,将得到的四个编码特征分别与文本特征共同输入至异常区域计算模块。

12、具体地,所述视觉编码网络的每个阶段包括依次进行的六个低秩自适应残差注意模块,每个低秩自适应残差注意模块主要是通过将残差注意模块中的线性模块采用低秩自适应模块替换后构成;所述低秩自适应模块包括预训练权值部分和秩分解部分;低秩自适应模块的输入先分别经过预训练权值部分和秩分解部分处理,再经元素相加后获得输出特征。

13、其中,预训练权值指预先训练好的模型权值,在网络训练过程中权值参数固定不变。秩分解部分的特征维度先降维再升维,权值参数随网络优化更新。

14、具体地,所述预训练权值部分包含了一个多层感知机mlp,所述秩分解部分包括了依次连接的多个多层感知机mlp。

15、优选地,所述秩分解部分包括第一多层感知机mlp和第二多层感知机mlp;低秩自适应模块的输入依次经第一多层感知机mlp特征降维、第二多层感知机mlp特征升维后,输出秩分解部分的输出结果。

16、具体地,所述文本状态嵌入模块将状态文本编码为文本状态嵌入,所述状态文本采用通用状态文本,不包含专家领域知识。所述状态文本包括正常样本状态文本和异常样本状态文本,所述文本状态嵌入模块具体为:将正常样本状态文本、异常样本状态文本分别编码为正常样本状态文本嵌入、异常样本状态文本嵌入后,拼接获得文本特征。

17、进一步地,本专利技术的实施例中,采用的状态文本分别为:

18、正常样本状态文本为:'a photo of a normal[class].';

19、异常样本状态文本为:'a photo of a abnormal[class].'

20、[class]表示待检测图像中的物体类别,在编码前用物体类别代替。

21、本专利技术的实施例中,在状态文本确定后,使用预训练的视觉语言大模型clip中的文本编码网络分别对正常样本状态文本和异常样本状态文本执行编码操作,将状态文本编码为维度均为1×d的文本状态嵌入。将正常样本和异常样本的文本状态嵌入拼接后获得维度为2×d的文本状态嵌入向量作为文本特征。其中,d为某一特征的维度。

22、具体地,所述步骤3)中的异常区域计算模块具体为:

23、将各个编码特征分别与文本特征共同输入至异常区域计算模块,基于各个编码特征和文本特征之间的余弦相似度判断异常区域。

24、其中,所述余弦相似度判断为该区域为异常区域的概率值,任一编码特征fm与文本特征之间的余弦相似度mm具体为:

25、mm=softmax(fm@wt)m=1,2,3,4

26、其中,mm为任一编码特征与文本特征之间的余弦相似度;

27、符号@表示矩阵相乘;

28、softmax表示激活函数;

29、wt表示文本特征的转置;

30、fm为任一编码特征;

31、m为任一编码特征对应的视觉编码网络中的阶段序号。

32、本专利技术的有益效果是:

33、本专利技术构造了一种基于低秩自适应的零样本异常图像检测方法,通过构建能够嵌入现有大模型、模块参数可随网络更新优化、具有规模较小的可学习参数以及参数量较少的低秩自适应模块,并将其嵌入到预训练视觉编码网络中,极大地降低了视觉语言大模型在下游迁移任务中的微调难度,增强预训练模型对下游迁移任务的适应性和泛化能力,同时提升了零样本异常图像检测网络的训练效率。此外,本专利技术构建的文本状态嵌入模块仅利用通用领域状态文本构建提示工程,不仅避免了对领域专家知识的过度依赖,极大降低了提示工程的设计难度,还增强了提示嵌入的泛化性能、稳定性和可靠性,显著提高了异常检测的准确率和精度。

本文档来自技高网...

【技术保护点】

1.一种基于低秩自适应的零样本异常图像检测方法,其特征在于:所述方法包括:

2.根据权利要求1所述的一种基于低秩自适应的零样本异常图像检测方法,其特征在于:所述零样本异常检测网络具体按照以下方式设置:

3.根据权利要求2所述的一种基于低秩自适应的零样本异常图像检测方法,其特征在于:所述的视觉编码网络包括依次进行的四个阶段:第一阶段、第二阶段、第三阶段和第四阶段;第一阶段的输入为待检图像,其余三个阶段的输入均为前一阶段输出的视觉编码特征;将待检图像输入视觉编码网络后,每个阶段分别输出一个视觉编码特征,再将四个视觉编码特征输入到各自对应的一个多层感知机操作mlp中获得对应的编码特征后,将得到的四个编码特征分别与文本特征共同输入至异常区域计算模块。

4.根据权利要求3所述的一种基于低秩自适应的零样本异常图像检测方法,其特征在于:所述视觉编码网络的每个阶段包括依次进行的六个低秩自适应残差注意模块,每个低秩自适应残差注意模块主要是通过将残差注意模块中的线性模块采用低秩自适应模块替换后构成;所述低秩自适应模块包括预训练权值部分和秩分解部分;低秩自适应模块的输入先分别经过预训练权值部分和秩分解部分处理,再经元素相加后获得输出特征。

5.根据权利要求4所述的一种基于低秩自适应的零样本异常图像检测方法,其特征在于:所述预训练权值部分包含了一个多层感知机mlp,所述秩分解部分包括了依次连接的多个多层感知机mlp。

6.根据权利要求5所述的一种基于低秩自适应的零样本异常图像检测方法,其特征在于:所述秩分解部分包括第一多层感知机mlp和第二多层感知机mlp;低秩自适应模块的输入依次经第一多层感知机mlp特征降维、第二多层感知机mlp特征升维后,输出秩分解部分的输出结果。

7.根据权利要求2所述的一种基于低秩自适应的零样本异常图像检测方法,其特征在于:所述文本状态嵌入模块将状态文本编码为文本状态嵌入,所述状态文本不包含专家领域知识;所述状态文本包括正常样本状态文本和异常样本状态文本,所述文本状态嵌入模块具体为:将正常样本状态文本、异常样本状态文本分别编码为正常样本状态文本嵌入、异常样本状态文本嵌入后,拼接获得文本特征。

8.根据权利要求2所述的一种基于低秩自适应的零样本异常图像检测方法,其特征在于:所述步骤3)中,异常区域计算模块具体为:

...

【技术特征摘要】

1.一种基于低秩自适应的零样本异常图像检测方法,其特征在于:所述方法包括:

2.根据权利要求1所述的一种基于低秩自适应的零样本异常图像检测方法,其特征在于:所述零样本异常检测网络具体按照以下方式设置:

3.根据权利要求2所述的一种基于低秩自适应的零样本异常图像检测方法,其特征在于:所述的视觉编码网络包括依次进行的四个阶段:第一阶段、第二阶段、第三阶段和第四阶段;第一阶段的输入为待检图像,其余三个阶段的输入均为前一阶段输出的视觉编码特征;将待检图像输入视觉编码网络后,每个阶段分别输出一个视觉编码特征,再将四个视觉编码特征输入到各自对应的一个多层感知机操作mlp中获得对应的编码特征后,将得到的四个编码特征分别与文本特征共同输入至异常区域计算模块。

4.根据权利要求3所述的一种基于低秩自适应的零样本异常图像检测方法,其特征在于:所述视觉编码网络的每个阶段包括依次进行的六个低秩自适应残差注意模块,每个低秩自适应残差注意模块主要是通过将残差注意模块中的线性模块采用低秩自适应模块替换后构成;所述低秩自适应模块包括预训练权值部分和秩分解部分;低秩自适应模块的输入先分别经过预训练权...

【专利技术属性】
技术研发人员:宋亚楠鲁鹏沈卫明
申请(专利权)人:浙江大学计算机创新技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1