一种基于语义驱动Transformer模型的弱监督目标定位方法技术

技术编号：44664796 阅读：5 留言：0更新日期：2025-03-19 20:22

本发明专利技术公开了一种基于语义驱动Transformer模型的弱监督目标定位方法，包括以下步骤：S1、对待检测的图片进行预处理，用于将待检测的图片转换为适合神经网络处理的格式；S2、将预处理后待检测的图片及其对应的图片级别的标签送入神经网络；所述神经网络包括Transformer主干网络、语义内核集成模块SKI和语义增强适配模块SBA；S3、神经网络对图片进行处理，在训练过程中输出待检测图片对应每一个类别的概率数值；S4、在测试过程中输出待检测图片预测的框的坐标、类别和得分；本发明专利技术通过使注意力图更加专注于前景区域，在弱监督环境下实现了更精确的、语义感知的目标定位，从而提高了模型的解释精度和相关性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉，具体涉及一种基于语义驱动transformer模型的弱监督目标定位方法。

技术介绍

1、近年来，随着计算机性能的飞速提升以及大数据技术的蓬勃发展，视觉信息数据呈现爆炸式增长趋势。各种多媒体数据类型，包括静态图像、动态图像、视频文件以及音频文件等，正以前所未有的速度在社交媒体和互联网上传播。作为计算机视觉领域中的核心问题之一，目标检测技术得到了广泛的应用，涵盖了目标跟踪、行为识别、人机交互、自动驾驶以及人脸识别等诸多领域。这一研究方向自20世纪初便吸引了大量学者的关注和深入探索。尤其是人脸识别、视频监控、目标检测、图像内容审查和生物特征识别等技术，已逐渐成为计算机视觉研究的热点，并广泛应用于医疗健康、智能交通、智慧城市管理、公共安全等实际场景，如医学影像诊断、姿态估计、车站安检、自动驾驶辅助系统和视频监控行为分析等。

2、目标定位作为计算机视觉和机器学习领域中一个重要的研究课题，融合了图像处理、模式识别、深度学习和自动控制等多个学科的前沿技术。传统的目标定位任务通常涉及到在图像中识别并标注出主要目标的位置，该目标通常位于图像的显著区域或中心位置。随着社交网络和视频平台的飞速发展，人们接触到的多媒体资源呈现出海量的增长，目标定位技术的应用场景也逐步扩展，涵盖了如社交平台中的人脸检测、图像与视频序列中的行人检测、交通监控中的车辆识别，以及为视觉障碍群体提供图像内容辅助理解等领域。

3、当前目标定位的研究主要集中于卷积神经网络(convolutionneural network,cnn)

4、现有的wsol方法通常依赖于cnn分类器生成定位热力图，通过定位头预测目标对象的边界框，以覆盖图像中的高响应区域。然而，wsol面临两个主要的挑战，与完全监督的目标检测方法相比，存在显著的性能差距。首先，cnn分类器在处理任务时，往往过度依赖显著区域，而忽略了图像中次显著的特征，导致模型难以学习全面的目标定位信息。由于骨干网络通常通过图像分类任务进行预训练，定位头的学习过程复杂且困难。其次，定位头生成的边界框通常只能捕捉到目标物体中具有高度鉴别性的部分，忽略了目标的完整性。例如，在一幅鸟类图像中，即使鸟的头部或羽毛的特征足以进行分类，但仅基于这些区域生成的边界框无法正确定位整个鸟类对象。

5、为解决这一问题，现有大多数wsol方法依赖于类激活映射(classactivationmapping,cam)，通过分类损失激活与目标类别相关的特征区域。然而，cam只能捕捉到目标对象中最具鉴别力的区域，导致生成的边界框往往较实际目标区域偏小。为了克服这一局限性，研究人员提出了多种技术改进方案，旨在增强cam的性能，例如：图传播技术、数据增强策略、对抗性擦除以及空间关系激活等。这些改进尽管在一定程度上提高了wsol的定位效果，但由于卷积神经网络固有的局部特征提取局限性，无法有效建模全局特征关系，导致在完整目标定位上的性能仍然受到限制。

6、现有技术的基本思路是在类标记的基础上生成注意力图，并与特定类别的特征图相结合，生成定位图。然而，这种机制可能会产生模糊的注意力图，即生成的注意力图在类别区域上并不明确。这些注意力图呈现语义不可知特性的原因主要归结为两类噪声：1)基础噪声，源自模型对当前不相关类别的先验知识。例如，在一幅标注为“黄貂鱼”的图像中(图2第一列顶部示例)，注意力图意外地激活了不仅仅与黄貂鱼相关的区域，还包括与人物相关的区域。这一现象表明，模型先前对人物特征的学习不小心干扰了黄貂鱼的定位过程。这表明“人物”是ilsvrc数据集中一个相关类别，突显了将当前相关特征与模型的先验知识分离的挑战。2)新奇噪声，指的是完全超出模型先验知识范围的背景簇。这类噪声激活会削弱模型的关注焦点，导致其将注意力分配到不相关的背景区域。例如，在一幅标注为“鸟类”的图像中(图2第一列底部示例)，注意力图不仅突出了鸟类，还延伸至背景簇，如木材。这些未学习的、全新的背景簇引发了分散的激活模式，削弱了模型的关注焦点，并错误地将注意力导向无关的背景区域。因此，现有的弱监督目标定位方法定位精度较差，较难满足实际的使用需求。

技术实现思路

1、为解决上述问题，本专利技术提出一种基于语义驱动transformer模型的弱监督目标定位方法，该方法通过结合弱监督学习的优势，实现以更低成本的图像标注和更少的标签信息，获取更丰富且高效的特征表达，进而提升模型的定位性能和精确度。

2、为实现上述目的，本专利技术采用以下技术方案：

3、一种基于语义驱动transformer模型的弱监督目标定位方法，包括以下步骤：

4、s1、对待检测的图片进行预处理，用于将待检测的图片转换为适合神经网络处理的格式；

5、s2、将预处理后待检测的图片及其对应的图片级别的标签送入神经网络；所述神经网络包括transformer主干网络、语义内核集成模块ski和语义增强适配模块sba；其中，所述transformer主干网络用于图片的特征提取；所述语义核心集成模块ski用于所有transformer自我注意力特征图中构筑语义卷积核；所述语义增强适配模块sba融合对比语言-图像预训练模型，通过类别文本与特征对的形式提供更精细的语义指导；

6、s3、神经网络对图片进行处理，在训练过程中输出待检测图片对应每一个类别的概率数值；

7、步骤s3中所述神经网络的训练过程包括以下具体过程：

8、s31、给定带有图像级别标签的数据集集合，将数据集集合划分为训练图片样本集和测试图片样本集；

9、s32、从训练图片样本集中任意选取图像i，将该图像i，以及其对应的图像级别的标签y输入神经网络的transformer主干网络，得到网络输出的特征图特征经过全局池化层进入分类器，得到网络分类损失

10、s33、将类别意识的刺激模块生成的特征图xcsm和对象约束模块生成的特征图送入语义内核集成模块ski，生成一个语义内核kski后，语义内核kski通过卷积的方式从特征图中提取语义线索，获得一个新的特征图xski，新的特征图xski经过全局池化层进入分类器产生类别概率分布得到语义核心损失计算公式为：

11、

12、其中，表示语义核心损失；c表示类别数量；i表示循环求和下标，i的值从0到c-1；yi表示第i个类别的真实标签；e表示自然常数；j表示循环求和下标，j的值从0到c-1；表本文档来自技高网...

【技术保护点】

1.一种基于语义驱动Transformer模型的弱监督目标定位方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种基于语义驱动Transformer模型的弱监督目标定位方法，其特征在于，步骤S1中所述预处理包括以下具体过程：

3.如权利要求1所述的一种基于语义驱动Transformer模型的弱监督目标定位方法，其特征在于：步骤S4中，在测试阶段，根据预测的框的类别，在步骤S32得到的特征图中，取出对应的特征图Mout；在步骤S33得到的在类别意识的刺激模块生成的特征图Xcsm中，取出对应的特征图Mcsm；

【技术特征摘要】

1.一种基于语义驱动transformer模型的弱监督目标定位方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种基于语义驱动transformer模型的弱监督目标定位方法，其特征在于，步骤s1中所述预处理包括以下具体过程：

3.如权利要求...

【专利技术属性】
技术研发人员：曹刘娟，陈志威，纪荣嵘，
申请(专利权)人：厦门大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人