一种基于时序注意力机制的行人视频描述算法制造技术

技术编号：39245019 阅读：12 留言：0更新日期：2023-10-30 11:57

本文提出了一种提取视频时序特征并采用时序注意力机制的行人视频描述算法。本算法采用三维深度残差网络提取视频的时序特征，其中残差块的跳跃连接方法解决了神经网络梯度爆炸的问题，使该模型能够在较低的计算量下提取到更加细粒度的特征。本算法采用时序注意力机制进行描述的注意力分配和生成，循环注意力模块能够更好的完成注意力分配任务，更重要的是，在其中加入LSTM(Long Short

全部详细技术资料下载

【技术实现步骤摘要】
一种基于时序注意力机制的行人视频描述算法

[0001]本专利技术属于计算机视觉
，是一种基于时序注意力机制的行人视频描述算法。

技术介绍

[0002]随着互联网技术的不断发展，人们对智能化生活的需求日益增长，尤其是对处理视频信息的需求变得越来越迫切。视频数据在信息中的占比和重要性不断提升，涉及监控视频下的嫌疑人锁定、车辆智能驾驶、短视频人物描述以及跨模态行人视频检索等领域。跨模态的检索任务要求将视频和对其的准确描述联系起来，然而目前的数据集主要由人工制作，面对海量的视频数据，制作描述变得非常繁琐。因此，视频描述生成的任务变得愈发重要，我们的目标是生成人们可以理解的视频内容描述。
[0003]现有的视频描述生成算法主要基于图像识别后的硬处理，但对图像主体的状态和特征判断效果并不理想。最近提出的大规模视频预训练方法虽然描述更加详细，但其预训练基础缺乏对视频主体特征的描述，因此在行人描述生成任务上效果不佳。
[0004]在行人视频描述过程中，背景和遮挡物的影响不可忽视，因此需要模型将注意力分配到行人主体上，进行细粒度的特征提取与描述，同时排除遮挡物的干扰。另外需要对行人整体的行为进行描述，这就需要我们关注行人视频的时序信息，生成流畅的准确的描述。

技术实现思路

[0005]本专利技术的目的是针对于行人视频描述研究欠缺以及视频描述时序性与注意力不兼容的问题，提出一种基于时序注意力机制的行人视频描述算法。
[0006]本专利技术的技术方案是：
[0007]本专利技术提供一种...

【技术保护点】

【技术特征摘要】
1.一种基于时序注意力机制的行人视频描述算法，其特征在于，所述算法包括以下步骤：步骤1、将准备好的行人视频描述数据集输入三维深度残差网络，将帧数T，高度H，宽度W和颜色通道数C作为参数输入模型的输入层；在三维卷积层对输入数据同时进行时间维度和空间维度的卷积；步骤2、将特征向量输入多个三维卷积层构成的残差块以及多个三维残差块构成的三维残差网络，提取得到包含时空信息的特征向量；通过全局池化层将特征向量转化为固定大小的向量，得到时序特征向量；步骤3、将时序特征向量输入循环注意力模块，把时序特征向量划分为长度为N的片段，N是设定的超参数，使用滑动窗口注意力机制处理一个长度为N的片段，每个窗口只能关注前W个时序特征，W是窗口大小的超参数；添加一组更新循环注意力模块状态的状态向量，每次滑动的W个时序特征和当前状态向量即为当前循环注意力模块的输入；步骤4、引入LSTM(Long Short
‑
Term Memory)门控机制控制循环注意力模块的状态的更新；每个模块执行水平和垂直两种运作模式，利用条件掩码进行注意力计算，垂直运作模式将时序特征向量片段进行自注意力编码，将循环状态向量进行交叉注意力解码，水平运作模式将循环状态向量进行自注意力编码，将W个时序特征进行交叉注意力解码，解码计算下一个词的概率分布，进而生成描述。2.根据权利要求1所述的基于时序注意力机制的行人视频描述算法，其特征在于，步骤1中的三维卷积层包括：三维卷积层由多个卷积核组成，每个卷积核对应一个输出通道。卷积核的大小为(D
k
，H
k
，W
k
，C
in
，C
out
)，其中D
k
、H
k
和W
k
分别表示卷积核在时间、高度和宽度维度上的大小，C
in
表示输入通道数，C
out
表示输出通道数。在三维卷积层中，卷积核同时对时间维度和空间维度进行卷积操作。(T
out
，H
out
，W
out
，C
out
)＝3DConv(D
k
，H
k
，W
k
，C
in
，C
out
)三维卷积核在输入张量上进行滑动卷积操作，计算得到一个输出张量，通常表示为(T
out
，H
out
，W
out
，C
out
)。输出张量的大小取决于卷积核的大小和步幅。步幅是指卷积核在输入张量上滑动的步长，用于控制输出张量的大小。3.根据权利要求1所述的基于时序注意力机制的行人视频描述算法，其特征在于，步骤2中的三维残差块以及三维残差网络，包括：残差块的基本结构由一个三维卷积层后接ReLU激活函数，再加上一个三维卷积层构成。在第二个3D卷积层的输出特征上，直接添加输入特征，形成一个跳跃连接(Skip Connection)。这个跳跃连接允许模型直接传递原始输入特征到残差块的输出，绕过了两个3D卷积层的计算，从而保留了原始特征的信息，计算得到时序特征向量V
T
：V
T
＝F(x)+W
·
xx为残差块的初始输入，F(x)表示跳跃连接的部分，W表示卷积操作，用来调整x的channel的维度。4.根据权利要求1所述的基于时序注意力机制的行人视频描述算法，其特征在于，步骤3中的循环注意力模块，包括：
循环注意力模块本质是一个transformer层，通过循环的方式调用，其步骤包括：步骤4
‑
1、循环注意力模块每次接收两个输入：一组W个时序特征向量片段，其中W是窗口的大小；当前状态向量c
t
，这些向量是循环注意力模块在前一次循环的输出c
t
‑1；步骤4
‑
2、在垂直方向，将时序特征向量片段进行自注意力编码，得到特征注意力编码encode
feature
，将当前状态向量进行交叉注意力解码，获取当前状态中的词符token
t
，通过线性层将当前词符与词的注意力编码结合生成输出的词嵌入值token_embedding
out
；token_embedding
out
＝Linear(encode
feature
，token
t
)步骤4
‑
3、在水平方向先将状态向量进行自注意力编码，得到状态注意力编码encode
states
，再将输入的时间特征进行交叉注意力解码，得到特征注意力解码decode
feature
。通过线性层将状态向量的注意力编码与特征注意力解码结合得到LSTM门的输入h
t
；h
t
＝Linear(encode
states
，decode
feature
)步骤4
‑
4、引入LSTM门控机制，根据输入自适应地更新状态，避免遗忘问题的出现，并且更好的处理长序列的依赖问题；步骤4
‑
5、整合循环的输出词嵌入值，进行概率对比合并为包含整个序列的输出序列caption[p...

【专利技术属性】
技术研发人员：张详云，朱艾春，胡方强，
申请(专利权)人：南京工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人