视频特征提取方法及应用该方法的视频量化方法技术

技术编号:26259419 阅读:14 留言:0更新日期:2020-11-06 17:53
本发明专利技术涉及计算机视觉技术领域,尤其涉及视频特征提取方法及应用该方法的视频量化方法,提供了一种视频特征提取方法,以解决有效获得包含丰富上下文信息的视频特征的技术问题,同时提供了一种应用上述视频特征提取方法的视频量化方法。视频特征提取方法包括:从目标视频中提取原始视觉特征并构建原始特征矩阵,所述原始特征矩阵包含每帧采样图像的空间信息和每帧采样图像之间的时序信息;根据原始特征矩阵生成采样图像空间注意力热度图和采样图像时序注意力热度图;以及将原始特征矩阵、采样图像空间注意力热度图、采样图像时序注意力热度图相加融合得到目标特征矩阵。

【技术实现步骤摘要】
视频特征提取方法及应用该方法的视频量化方法
本专利技术涉及计算机视觉
,尤其涉及视频特征提取方法及应用该方法的视频量化方法。
技术介绍
视频检索是计算机视觉中的一个基础又富有挑战性的问题,其目的是从海量的视频库中检索出与输入视频最相似的视频。而无监督的视频量化检索则是通过将原始无标签的视频的视觉特征压缩成紧凑的二进制码来实现视频的快速检索。目前已知的一种无监督的视频量化检索方法是先使用卷积神经网络提取视频每帧图片的视觉特征信息,再使用循环神经网络处理这些帧的特征得到视频特征,然后使用哈希算法将特征信息压缩至极短的二进制编码,以此缩减数据库体积,加快检索速度。上述方法存在两方面问题。第一,通过卷积神经网络和循环神经网络的方式难以获取长时间范围的信息,因此难以保留视频的上下文信息,无法获取更好的视频特征。第二,在大规模的视频库下,视频特征十分复杂,哈希算法难以获得好的准确率。专利技术创造内容本专利技术所要解决的技术问题是:提供一种视频特征提取方法,以解决有效获得包含丰富上下文信息的视频特征的技术问题,以及提供一种应用上述视频特征提取方法的视频量化方法。本专利技术解决上述技术问题所采用的技术方案是:一种视频特征提取方法,包括:从目标视频中提取原始视觉特征并构建原始特征矩阵,所述原始特征矩阵包含每帧采样图像的空间信息和每帧采样图像之间的时序信息;根据原始特征矩阵生成采样图像空间注意力热度图和采样图像时序注意力热度图;以及将原始特征矩阵、采样图像空间注意力热度图、采样图像时序注意力热度图相加融合得到目标特征矩阵。根据本说明书提供的实施例,根据原始特征矩阵生成采样图像空间注意力热度图包括:根据原始特征矩阵生成表示每帧采样图像中每个像素点和与该像素点处于同一行的其他所有像素点之间信息依赖关系的行维度注意力热度图;和根据原始特征矩阵生成表示每帧采样图像中每个像素点和与该像素点处于同一列的其他所有像素点之间信息依赖关系的列维度注意力热度图。根据本说明书提供的实施例,根据原始特征矩阵生成采样图像时序注意力热度图包括:根据原始特征矩阵生成表示每帧采样图像中每个像素点和与该像素点处于同一时序的其他所有像素点之间信息依赖关系的时序维度注意力热度图。根据本说明书提供的实施例,若设目标视频的原始特征矩阵Oi∈RT′×h×w×c,其中h为视频每帧图像的高度、w为视频每帧图像的宽度、c为视频每帧图像的通道数、T′为采样图像帧数。则,根据原始特征矩阵生成表示每帧采样图像中每个像素点和与该像素点处于同一行的其他所有像素点之间信息依赖关系的行维度注意力热度图包括:将原始特征矩阵重塑为{T′×h}×w×c;分别采用三个尺寸为c*1*1的卷积核对重塑后的矩阵进行卷积操作,得到三个维度均为{T′×h}×w×c的特征矩阵rθ,rρ,rγ,其中c*1*1为通道数*高度*宽度;将所述三个特征矩阵rθ,rρ,rγ按公式进行运算,得到行维度注意力热度图r,其中是特征矩阵rγ的转置矩阵。根据本说明书提供的实施例,若设目标视频的原始特征矩阵Oi∈RT′×h×w×c,其中h为视频每帧图像的高度、w为视频每帧图像的宽度、c为视频每帧图像的通道数、T′为采样图像帧数,则,根据原始特征矩阵生成表示每帧采样图像中每个像素点和与该像素点处于同一列的其他所有像素点之间信息依赖关系的列维度注意力热度图包括:将原始特征矩阵重塑为{T′×w}×h×c;分别采用三个尺寸为c*1*1的卷积核对重塑后的矩阵进行卷积操作,得到三个维度均为{T′×w}×h×c的三个特征矩阵cθ,cρ,cγ,其中c*1*1为通道数*高度*宽度;将所述三个特征矩阵cθ,cρ,cγ按公式进行运算,得到列维度注意力热度图c,其中为特征矩阵cγ的转置矩阵。根据本说明书提供的实施例创造的实施例,若设目标视频的原始特征矩阵Oi∈RT′×h×w×c,其中h为视频每帧图像的高度、w为视频每帧图像的宽度、c为视频每帧图像的通道数、T′为采样图像帧数,则,根据原始特征矩阵生成表示每帧采样图像中每个像素点和与该像素点处于同一时序的其他所有像素点之间信息依赖关系的时序维度注意力热度图包括:将原始特征矩阵重塑为{w×h}×T′×c;分别采用三个1*1的卷积核对重塑后的矩阵进行卷积操作,得到维度均为{w×h}×T′×c的三个特征矩阵tθ,tρ,tγ;将所述三个特征矩阵tθ,tρ,tγ按公式进行运算,得到时序维度注意力热度图t,其中为特征矩阵tγ的转置矩阵。为了实现上述目的,根据本说明书提供的实施例创造的一个方面,提供了一种视频量化方法。该方法包括:根据上述任意一种视频特征提取方法得到目标特征矩阵;将目标特征矩阵转变为代表目标视频的特征向量;以及将特征向量压缩成二进制编码实现视频量化。根据本说明书提供的实施例创造的实施例,将目标特征矩阵转变为代表目标视频的特征向量包括:分别将行维度注意力热度图r,列维度注意力热度图c,时序维度注意力热度图t重塑为T′×h×w×c;然后将重塑后的行维度注意力热度图矩阵r、列维度注意力热度图c和时序维度注意力热度图t与原始特征矩阵Oi相加,从而得到融合三维注意力的特征矩阵O′i,其维度与原始特征矩阵Oi一致;此后,将融合三维注意力的特征矩阵O′i作为输入,输入到三维自注意力模块,经过上述计算得到经过两次融合三维注意力的特征矩阵O″i,其维度与原始特征矩阵O′i一致,维度均为T′×h×w×c;最后,对经过两次融合三维注意力的特征矩阵O″i,分别在T′、h、w维度上进行全局平均池化操作,从而得到最后的特征矩阵,其维度为1×1×1×c,即c维的特征向量;取c=D,即得到后续的D维长度的特征向量x。根据本说明书提供的实施例创造的实施例,将特征向量压缩成二进制编码实现视频量化包括将特征向量输入渐进式特征量化网络然后从该渐进式特征量化网络输出所述二进制编码的过程,其中,所述渐进式特征量化网络包含多个量化层,若设所述特征向量为一个D维长度的特征向量x,则每一个量化层包含具有M个D维码字的码本,所述码本中每一个码字对应有相应的索引;当渐进式特征量化网络中任意一个量化层接收到输入向量后,由该量化层计算输入向量与所在量化层的码本中各个码字之间的距离d,从而得到由M个距离组成的距离向量D,此后再将该距离向量D通过归一化指数函数后得到归一化距离向量P,然后提取该归一化距离向量P中最大值所对应的码字的索引作为第一输出,并将输入向量与使用归一化距离向量P对量化层的码本中各个码字进行加权求和得到的输入向量近似值的差值即量化层量化误差作为第二输出;将渐进式特征量化网络中各个量化层的第一输出进行连接得到所述二进制编码,将各个量化层的第二输出作为输出第二输出的量化层的下一个量化层的输入向量,将所述特征向量x作为渐进式特征量化网络中第一个量化层的输入向量。根据本说明书提供的实施例创造的实施例,所述渐进式特征量化网络的每个量化层的码本中包含256个码字,则每个量化层的第一输出为8位二进制编码。根据本说明书提供的实施例创造的实施例,所述渐进式特征量化网络包含四个量化层,则将渐本文档来自技高网...

【技术保护点】
1.视频特征提取方法,其特征在于,包括:/n从目标视频中提取原始视觉特征并构建原始特征矩阵,所述原始特征矩阵包含每帧采样图像的空间信息和每帧采样图像之间的时序信息;/n根据原始特征矩阵生成采样图像空间注意力热度图和采样图像时序注意力热度图;以及/n将原始特征矩阵、采样图像空间注意力热度图、采样图像时序注意力热度图相加融合得到目标特征矩阵。/n

【技术特征摘要】
1.视频特征提取方法,其特征在于,包括:
从目标视频中提取原始视觉特征并构建原始特征矩阵,所述原始特征矩阵包含每帧采样图像的空间信息和每帧采样图像之间的时序信息;
根据原始特征矩阵生成采样图像空间注意力热度图和采样图像时序注意力热度图;以及
将原始特征矩阵、采样图像空间注意力热度图、采样图像时序注意力热度图相加融合得到目标特征矩阵。


2.如权利要求1所述的视频特征提取方法,其特征在于,
A)根据原始特征矩阵生成采样图像空间注意力热度图包括:
根据原始特征矩阵生成表示每帧采样图像中每个像素点和与该像素点处于同一行的其他所有像素点之间信息依赖关系的行维度注意力热度图;和
根据原始特征矩阵生成表示每帧采样图像中每个像素点和与该像素点处于同一列的其他所有像素点之间信息依赖关系的列维度注意力热度图;
并且/或者,
B)根据原始特征矩阵生成采样图像时序注意力热度图包括:
根据原始特征矩阵生成表示每帧采样图像中每个像素点和与该像素点处于同一时序的其他所有像素点之间信息依赖关系的时序维度注意力热度图。


3.如权利要求2所述的视频特征提取方法,其特征在于:
若设目标视频的原始特征矩阵oi∈RT′×h×w×c,其中h为视频每帧图像的高度、w为视频每帧图像的宽度、c为视频每帧图像的通道数、T′为采样图像帧数,则
A)根据原始特征矩阵生成表示每帧采样图像中每个像素点和与该像素点处于同一行的其他所有像素点之间信息依赖关系的行维度注意力热度图包括:
将原始特征矩阵重塑为{T′×h}×w×c;分别采用三个尺寸为c*1*1的卷积核对重塑后的矩阵进行卷积操作,得到三个维度均为{T′×h}×w×c的特征矩阵rθ,rρ,rγ,其中c*1*1为通道数*高度*宽度;将所述三个特征矩阵rθ,rρ,rγ按公式进行运算,得到行维度注意力热度图r,其中是特征矩阵rγ的转置矩阵;
并且/或者,
B)根据原始特征矩阵生成表示每帧采样图像中每个像素点和与该像素点处于同一列的其他所有像素点之间信息依赖关系的列维度注意力热度图包括:
将原始特征矩阵重塑为{T′×w}×h×c;分别采用三个尺寸为c*1*1的卷积核对重塑后的矩阵进行卷积操作,得到三个维度均为{T′×w}×h×c的三个特征矩阵cθ,cρ,cγ,其中c*1*1为通道数*高度*宽度;将所述三个特征矩阵cθ,cρ,cγ按公式进行运算,得到列维度注意力热度图c,其中为特征矩阵cγ的转置矩阵;
并且/或者,
C)根据原始特征矩阵生成表示每帧采样图像中每个像素点和与该像素点处于同一时序的其他所有像素点之间信息依赖关系的时序维度注意力热度图包括:
将原始特征矩阵重塑为{w×h}×T′×c;分别采用三个1*1的卷积核对重塑后的矩阵进行卷积操作,得到维度均为{w×h}×T′×c的三个特征矩阵tθ,tρ,ty;将所述三个特征矩阵tθ,...

【专利技术属性】
技术研发人员:宋井宽郎睿敏朱筱苏高联丽
申请(专利权)人:成都井之丽科技有限公司电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1