一种基于自适应时间结构深度网络的偷窃行为识别方法技术

技术编号：33388814 阅读：12 留言：0更新日期：2022-05-11 23:04

本发明专利技术公开了一种自适应时间结构深度网络的偷窃行为识别方法。本发明专利技术采用分段方式，实现对长时视频的处理。针对段内特征相似度高而产生的信息冗余问题，通过估计段内时间结构的距离阈值，来计算段内每个视频帧的二值采样标记，去除段内冗余的视频帧，减少段内模型计算量。针对视频段的语义信息重要性估计问题，设计了子行为原型参数矩阵，学习每个视频段的子行为相关的语义描述，并估计视频段的时间注意力，进行视频段的特征增强。最后，对多视频段的特征串联，并使用三层感知器，实现偷窃行为识别。本文发明专利技术具有时间自适应能力强，对长时视频中段内的冗余视频帧，和段间的语义信息分析，都具有较好的鲁棒处理能力，可有效实现偷窃行为识别。窃行为识别。窃行为识别。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于自适应时间结构深度网络的偷窃行为识别方法

[0001]本专利技术涉及人物行为识别
，尤其涉及一种基于自适应时间结构深度网络的偷窃行为识别方法。

技术介绍

[0002]为了维护公共治安稳定，保护人民财产安全，需要对偷窃行为进行监管。随着深度学习和计算机视觉技术的发展，针对偷盗的智能行为识别正逐步引起重视。
[0003]中国专利申请公布号CN111444861A《一种基于监控视频的车辆偷盗行为识别方法》，提出了一种基于监控视频的车辆偷盗行为识别方法。利用三维卷积提取特征，加入时空联合注意力机制，聚焦行为的时空位置，分类实现偷盗行为识别。但是该方法对于多阶段、长时视频的处理效果并未进行验证。中国专利申请公布号CN109800717B《基于强化学习的行为识别视频帧采样方法及系统》，提出了一种基于LSTM确定待测重要性得分，根据得分确定关键帧，对关键帧行为预测，继而得到视频行为预测的方法。但是只根据关键帧进行的预测很容易造成信息缺失甚至造成误判。中国专利申请公布号CN109919031B《一种基于深度神经网络的人体行为识别方法》提出了一种基于深度神经网络的人体行为识别方法，将卷积神经网络单元用于帧图像高层语义特征学习，循环神经网络单元用于视频行为运动特征学习。但是该方法计算量较大，难以对异常行为做到实时的监测。
[0004]由于计算复杂问题常见于视频处理，针对关键帧的提取、处理方法逐渐用于视频人物行为识别。夏利民等人在《基于关键帧的复杂人体行为识别》中采用自分裂竞争学习提取简单行为片段的关键帧。最

【技术保护点】

【技术特征摘要】
1.一种基于自适应时间结构深度网络的偷窃行为识别方法，其特征在于：具体包括以下步骤：(1)提取偷窃行为视频帧特征；(2)估计段内时间结构距离阈值；(3)计算段内视频帧采样LSTM的隐状态特征；(4)计算基于子行为原型时间注意力的偷窃行为得分；(5)求解自适应时间结构深度网络的参数集合；(6)基于自适应时间结构深度网络进行偷窃行为识别。2.根据权利要求1所述的一种基于自适应时间结构深度网络的偷窃行为识别方法，其特征在于：步骤(1)所述的提取偷窃行为视频帧特征，具体步骤如下：步骤1
‑
1将偷窃行为视频，按照等时间间隔取n
s
个视频段；步骤1
‑
2在每个视频段中，继续按照等时间间隔取n
i
个子区间，在每个子区间使用随机时间下标采集一个视频帧，在该视频段内共采集n
i
个视频帧，n
i
是段内视频帧的采样数量；步骤1
‑
3使用预训练的ResNet50模型，提取每个视频帧的特征，并将特征转换为行向量，获得视频帧的特征集合，X
v,s
＝{x
v,s,i
}，其中X
v,s
是特征集合，v表示视频编号，s表示视频段编号，i表示段内的视频帧编号，x
v,s,i
是一个行向量，行向量的特征维度为1x1000。3.根据权利要求2所述的一种基于自适应时间结构深度网络的偷窃行为识别方法，其特征在于：步骤(2)所述的估计段内时间结构距离阈值，具体步骤如下：步骤2
‑
1给定训练集中所有视频段的特征X
v,s
＝{x
v,s,i
}；步骤2
‑
2计算段内两个视频帧特征之间的距离d
v,s,i,i+1
，距离计算公式为两个特征x
v,s,i
和x
v,s,i+1
之间的2范数，距离计算公式为表示为：d
v,s,i,i+1
＝||x
v,s,i
‑
x
v,s,i+1
||2步骤2
‑
3对偷窃行为训练集的所有视频的所有段，计算段内两个视频帧特征之间的距离，获得距离集合，D＝{d
v,s,i,i+1
}，v是训练集所有视频的编号，s是视频段编号，i是段内视频帧编号；步骤2
‑
4求出距离集合的均值u
d
，距离集合的均值公式表示为：其中n
v
是视频的数量，n
s
是每个视频内段的数量；步骤2
‑
5求出距离集合的方差，距离集合的方差公式表示为：步骤2
‑
6段内时间结构距离阈值估计公式表示为：τ
d
＝u
d
+σ
d
。4.根据权利要求3所述的一种基于自适应时间结构深度网络的偷窃行为识别方法，其特征在于：步骤(3)所述的计算段内视频帧采样LSTM的隐状态特征，具体步骤如下：步骤3
‑
1给定一个视频段的特征X
v,s
＝{x
v,s,i
}；步骤3
‑
2计算段内每个视频帧的二值采样标记；
步骤3
‑2‑
1根据步骤2
‑
2计算段内两个视频帧之间的距离d
v,s,i,i+1
；步骤3
‑2‑
2设置特征距离阈值τ
d
，计算下一个视频帧的采样概率公式表示为：当两个视频帧之间的距离d
v,s,i,i+1
＝τ
d
则采样概率为0.5，并随着距离的变大，有更大的概率被采样；随着距离的变小，有更小的概率被采样；步骤3
‑2‑
3根据步骤3
‑2‑
2中计算得到的下一个视频帧的采样概率，进行二值0
‑
1的伯努利采样，获得下一个视频帧的二值采样概率；即，使用[0,1]区间内的均匀分布z～U[0,1]，产生一个随机数，如果该随机数大于段内采样权重，则返回0，表示下一个视频帧被采样，如果随机数小于段内采样阈值，则返回1，表示下一个视频帧不采样；段内视频帧采样公式表示为：z为随机数，通过随机数z转换为随机性采样，保证样本采样时具有随机性，允许模型对特征权重小的样本进行采样；此时，获得段内每个视频帧的二值采样标记sm
v,s,i,i+1
，该二值采样标记与LSTM时间节点对应，其中sm
v,s,1,2
二值采样标记为根据第一个视频帧和第二个视频帧特征距离，来估计第二个视频帧的二值采样标记；步骤3
‑
3根据段内视频帧的下标，初始化LSTM的时间节点，其中第i视频帧对应第i时间节点,第i视频帧的二值标记表示为sm
v,s,i
‑
1,i
；步骤3
‑
4对LSTM模型添加初始节点，并将初始节点和第一个视频帧的二值采样标记设置为1，即sm
v,s,0,1
＝1，获得添加初始节点的LSTM的段内二值采样标记集合SM＝{sm
v,s,0,1
,sm
v,s,1,2
,...,sm
v,s,ni
‑
1,ni
}；步骤3
‑
5初始化初始时间节点的记忆状态和隐状态；步骤3
‑5‑
1计算当前段的平均特征的公式表示为：步骤3
‑5‑
2对当前段的平均特征，使用三层感知器，学习每段LSTM初始节点的记忆状态，公式表示为：其中φ
init,c
(
·
)为记忆状态的三层感知器。步骤3
‑5‑
3对当前段的平均特征，使用三层感知器，学习每段LSTM初始节点的隐状态，公式表示为：其中φ
init,h
(
·
)为隐状态的三层感知器；步骤3
‑
6对当前段的第i个视频帧，即对应LSTM中的第i个时间节点，进行段内LSTM时间自适应节点更新；
步骤3
‑6‑
1根据上一个节点的记忆状态c
v,s,i
‑1、隐状态h
v,s,i
‑1和当前节点的输入x
v,s,i
，使用LSTM模块估计第i个节点的候选状态，估计方式为：其中，第一行用于估计忘记门，f
v,s,i
是忘记门的输出，W
fx
、W
fh
和b
f
表示忘记门的LSTM参数；第二行用于估计输入门，in
v,s,i
是输入门的输出，W
inx
、W
inh
和b
in
表示输入门的LSTM参数；第三行用于估计选择门，g
v,s,i
是选择门的输出，W
gx
、W
gh
和b
g
表示选择门的LSTM参数；第四行用于估计输出门，o
v,s,i
是输出门的输出，W
ox
、W
oh
和b
o
表示输出门的LSTM参数；第五行用于估计下一节点的候选记忆状态第六行用于估计下一节点的候选隐状态σ(
·
)和tanh(
·
)表示sigmoid和tanh激活函数，
⊙
表示哈达马积；步骤3
‑6‑
2根据步骤3<...

【专利技术属性】
技术研发人员：谢昭，江朝晖，王冠，吴克伟，孙永宣，
申请(专利权)人：合肥工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人