一种基于置信度门控时空记忆网络的半监督视频目标分割方法技术

技术编号：39964889 阅读：11 留言：0更新日期：2024-01-09 00:20

本发明专利技术公开了一种基于置信度门控时空记忆网络的半监督视频目标分割方法，包括：获取视频分割相关数据集以及对应的分割标签；构建编码器，提取视频图像中所包含的信息；构建置信度门控时空记忆读取模块，过滤历史时空信息中的噪声；构建空洞卷积空间池化金字塔模块，捕捉多尺度的目标特征信息，提升模型的特征识别能力；构建分割解码器，将目标外观信息恢复至高分辨率，得到目标分割结果。本发明专利技术方法能够有效减少因目标遮挡或消失对视频目标分割任务带来的影响，进一步提升模型对小目标或相似目标局部特征的识别能力和视频目标分割的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于图像处理，具体涉及一种基于置信度门控时空记忆网络的半监督视频目标分割方法。

技术介绍

1、视频目标分割(vos)是计算机视觉中的一个具有挑战性的任务，在自动驾驶技术、视频摘要生成、人机交互等方面都有广泛的应用。其中半监督视频目标分割是一种只给定视频第一帧的先验信息，要求在视频的其余帧中分割出目标物体的方法。视频序列中的目标物体通常会因为一些复杂因素，如形变、遮挡、镜头抖动等发生较大的外观变化，同时视频中也可能会存在高速移动的物体，很容易导致预测偏移。因此，研究一种高效且准确的半监督视频目标分割方法对于自动驾驶、视频摘要等应用场景具有重要意义。

2、现有基于时空记忆网络的半监督视频目标分割方法，通过全局特征匹配的方式计算当前帧与历史帧的相似度，并根据该相似度对当前帧和所有历史帧进行特征融合，这种方式当遇到目标物体在视频序列中消失等情况时，会引入大量噪声，导致分割准确率降低，而且对视频序列中的小目标、极为相似的目标识别不够精细，容易产生错误的分割结果。

技术实现思路

1、本专利技术的目的在于克服现有基于历史时空信息的半监督视频目标分割方法的不足，提出一种基于置信度门控时空记忆网络的半监督视频目标分割方法，该方法通过设计置信度门控时空记忆读取模块以减少历史时空信息中的噪声对分割结果的影响，同时设计空洞卷积金字塔模块，增加视频目标分割网络对目标局部信息的关注度，进一步提升视频目标分割的准确性。

2、一、技术原理

3、半监督视频目标分割方法，

4、二、根据上述原理本专利技术通过以下方案实现：

5、一种基于置信度门控时空记忆网络的半监督视频目标分割方法，其特征在于包括以下步骤：

6、(1)获取数据集与分割标签：

7、获取半监督视频目标分割数据集与对应的分割标签。

8、(2)构建分割模型：该模型由编码器、置信度门控时空记忆读取模块、空洞卷积金字塔模块、解码器组成，具体构建过程包括以下步骤：

9、(2-a)构建编码器，包括查询编码器和记忆编码器，两者具有相同结构，都包括一个卷积模块、三个残差模块和一个特征嵌入模块。

10、查询编码器只对查询帧图像信息进行编码，当前查询帧图像依次经过查询编码器的卷积模块和三个残差模块，得到三个残差模块对应的输出特征图xr1、xr2和xr3；xr3经过特征嵌入模块编码后得到当前查询帧图像的特征对(kq,vq)，其中kq和vq分别是查询帧图像的键信息和值信息。

11、记忆编码器对图像和对应掩膜进行编码，当前查询帧图像的上一帧图像被视作记忆帧图像，该记忆帧图像及其掩膜依次经过记忆编码器的卷积模块和三个残差模块后，再经特征嵌入模块编码，得到记忆帧图像的特征对(km，vm)，其中km和vm分别表示记忆帧图像的键信息和值信息。

12、记忆编码器对记忆帧图像和该记忆帧图像之前帧的图像及其掩膜的编码结果共同构成记忆编码库其中表示记忆编码库中的第j个特征对，j≤t，t为正整数，t表示记忆编码库中特征对的最大个数，且0<t<200；当记忆帧图像及其之前的所有帧图像的总个数小于等于t时，则记忆编码库h由记忆帧图像和该记忆帧图像之前所有帧的图像及其掩膜的编码结果共同构成；当记忆帧图像及其之前的所有帧图像的总个数大于t时，则记忆编码库h由记忆帧图像和该记忆帧图像之前t-1帧的图像及其掩膜的编码结果共同构成。

13、(2-b)构建置信度门控时空记忆读取模块：分别计算由步骤(2-a)得到的kq与记忆编码库h中每一个键信息之间的置信度j为正整数，且j≤t；置信度门控机制根据置信度的大小从记忆编码库h中筛选出与当前查询帧图像关联性最强的前n个特征对，n为正整数，n<t且0<n<100；若记忆编码库h中现有特征对数不足n，则用特征值为(0,0)的特征对补充至n个；分别构建这n个特征对对应的键信息集合和值信息集合其中表示与当前查询帧图像关联性最强的第t个键信息，表示与当前查询帧图像关联性最强的第t个值信息；利用键信息集合keys中的元素计算权值，然后用计算得到的权值对值信息集合values中的元素加权求和得到vsum，最后将vsum与步骤(2-a)得到的vq进行特征拼接，得到综合特征信息r。

14、所述置信度门控机制权值计算及加权求和的计算公式分别为：

15、

16、

17、其中，wt表示权值，exp(·)表示以自然常数e为底的指数运算。

18、(2-c)构建空洞卷积金字塔模块：所述模块包括并行的四个不同卷积模块，分别为1×1大小的标准卷积模块、膨胀率为6的3×3空洞卷积模块、膨胀率为12的3×3空洞卷积块以及膨胀率为18的3×3空洞卷积模块；利用四个不同的卷积模块对步骤(2-b)得到的综合特征信息r分别进行多尺度特征提取，对提取的结果进行逐像素相加操作，得到增强特征j。

19、(2-d)构建解码器：对步骤(2-c)得到的增强特征j进行两次3×3卷积和一次上采样后得到中间特征f1；对由步骤(2-a)得到的xr2进行两次3×3卷积得到中间特征将和f1逐像素相加后再进行一次上采样得到中间特征f2；对由步骤(2-a)得到的xr1进行两次3×3卷积得到中间特征将和f2逐像素相加后再进行一次3×3卷积和一次上采样得到当前查询帧的预测分割掩膜y。

20、(2-e)当前查询帧图像的预测分割掩膜得到以后，该查询帧图像成为新的记忆帧图像，而该查询帧图像的下一帧图像成为新的查询帧图像，利用步骤(2-a)构建的记忆编码器对新的记忆帧图像进行编码，将编码结果保存至记忆编码库h，更新记忆编码库；利用步骤(2-a)构建的查询编码器对新的查询帧图像进行编码，得到新查询帧图像的编码特征对，利用步骤(2-b)构建的置信度门控时空记忆读取模块计算新查询帧图像的综合特征信息；利用步骤(2-c)构建的空洞卷积金字塔模块对综合特征信息进行多尺度特征提取得到增强特征；利用步骤(2-d)构建的解码器对增强特征进行解码，得到新查询帧图像的预测分割掩膜；新查询帧图像的预测分割掩膜完成以后，该查询帧图像成为最新的记忆帧图像，该查询帧图像的下一帧图像成为最新的查询帧图像；如此循环，直到视频序列最后一帧图像的预测分割掩膜完成。...

【技术保护点】

1.一种基于置信度门控时空记忆网络的半监督视频目标分割方法，其特征在于包括以下步骤：

2.如权利要求1所述的一种基于置信度门控时空记忆网络的半监督视频目标分割方法，其特征在于，所述步骤(2-b)中的置信度，其计算公式为：

3.如权利要求1所述的一种基于置信度门控时空记忆网络的半监督视频目标分割方法，其特征在于，所述步骤(2-b)中的置信度门控机制权值计算和加权求和，它们的计算公式分别为：

4.如权利要求1所述的一种基于置信度门控时空记忆网络的半监督视频目标分割方法，其特征在于，所述步骤(2-c)中的空洞卷积金字塔模块，包含并行的四个不同的卷积模块，分别为1×1大小的标准卷积模块、膨胀率为6的3×3空洞卷积模块、膨胀率为12的3×3空洞卷积块以及膨胀率为18的3×3空洞卷积模块。

5.如权利要求1所述的一种基于置信度门控时空记忆网络的半监督视频目标分割方法，其特征在于，所述步骤(2-d)中的解码器，解码器中卷积层的卷积核大小都为3×3。

【技术特征摘要】

1.一种基于置信度门控时空记忆网络的半监督视频目标分割方法，其特征在于包括以下步骤：

2.如权利要求1所述的一种基于置信度门控时空记忆网络的半监督视频目标分割方法，其特征在于，所述步骤(2-b)中的置信度，其计算公式为：

4.如权利要求1所述...

【专利技术属性】
技术研发人员：赵于前，孟显帅，张帆，阳春华，桂卫华，
申请(专利权)人：中南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人