一种面向行为时序的工作流程识别方法技术

技术编号:38377213 阅读:16 留言:0更新日期:2023-08-05 17:37
本发明专利技术涉及一种面向行为时序的工作流程识别方法,属于计算机视觉技术领域。建立针对不同应用场景下工作行为动作标签库,并进行行为识别;构建轻量化多目标跟踪模型,并进行人物身份识别,对视频中的人物进行跟踪;将人的身份和行为进行绑定,获得身份绑定后的行为序列;建立工作内容训练标签库,使用时序模型对行为序列的工作内容进行检查,从而判断该行为序列的工作内容;建立工作流程检查库,将确定工作内容的行为序列与工作流程检查库中属于同一工作内容的流程序列进行匹配,判断该行为序列的工作流程是否符合标准规范。本发明专利技术通过建立不同目标及其行为的关系链,用于复杂视频场景中工作人员工作流程规范性的检查和判断。场景中工作人员工作流程规范性的检查和判断。场景中工作人员工作流程规范性的检查和判断。

【技术实现步骤摘要】
一种面向行为时序的工作流程识别方法


[0001]本专利技术属于计算机视觉
,涉及一种面向行为时序的工作流程识别方法。

技术介绍

[0002]近些年来,工作流程标准化对于行业应用来说越来越重要,工作流程标准化可以有效提高企业的工作水平,从而实现企业竞争力的提升。同时工作标准化可以提高员工的职业化水平,促进员工工作的标准化和规范化。在标准化和规范化的检测过程中,可结合自动化检测手段实现工作人员工作流程检测。
[0003]目前国内外针对工作流程的研究手段可以分为两种:一种是基于计算机视觉的研究手段,另外一种就是基于传感器以及语音的研究手段。
[0004]基于语音的方法,虽然说已经有了很多的方案,但是就其本身而言,涉及隐私性较高,而且容易受噪音等环境因素的影响,使用场景受到一定限制。
[0005]基于计算机视觉的方法,通过模型可以比较准确地对真实情况进行模拟,其得出的评价结果也较为准确。带来诸多好处的同时,其不足之处也越来越明显,随着自由度的提高,使得模型复杂度也呈数量级的增长,在评价过程中,计算量也越来越大。因此,此类方法在应用时具有较大的使用门槛,不具有普适性和便捷性。

技术实现思路

[0006]有鉴于此,本专利技术的目的在于提供一种面向时序的工作流程识别方法,对工作人员工作过程进行监测;设计了一种结合视频和文本的工作流程检测、识别方法。
[0007]为达到上述目的,本专利技术提供如下技术方案:
[0008]一种面向行为时序的工作流程识别方法,主要在多目标场景下对工作人员的工作进行流程检查,包括以下步骤:
[0009]S1:根据不同应用场景对工作流程规范性的不同需求,利用拍摄到的视频帧建立工作行为动作标签库,使用行为识别网络模型对视频帧进行行为识别;
[0010]S2:构建轻量化多目标跟踪模型,对视频中的人物进行跟踪;建立人脸库,对人物身份进行识别,以获取跟踪目标身份;
[0011]S3:通过人物跟踪框和行为识别框的重合度,将人的身份和行为进行绑定,获得身份绑定后的行为序列;
[0012]S4:建立工作内容训练标签库,使用时序模型完成对行为序列的工作内容检查从而判断身份绑定后行为序列的工作内容;
[0013]S5:建立工作流程检查库,将确定工作内容的行为序列与工作流程检查库中属于同一工作内容的流程序列进行匹配,判断该行为序列的工作流程是否符合标准规范。
[0014]进一步,步骤S2中,所述轻量化多目标跟踪网络模型的构建步骤如下:
[0015]S21:依据ShuffleNetV2网络结构,对Yolov5s的主干网络C3Net进行替换,得到轻量化的Yolov5s检测网络;
[0016]S22:将S21所述轻量化的Yolov5s检测网络替代DeepSORT的检测网络,形成轻量化改进后的DeepSORT网络,以提高检测和跟踪的实时性。将步骤S1中行为识别抽帧后的视频送入轻量化改进后的DeepSORT网络,对视频中不同目标进行跟踪,获得视频中每帧的跟踪框信息;
[0017]S23:步骤S22目标跟踪计算后,将跟踪视频帧送入人脸识别模型中,对每帧图像进行人脸识别,获取跟踪框的人物身份信息。
[0018]进一步,步骤S21中具体包括:
[0019]S211:将视频帧依次输入,检测网络需对每一帧图像进行resize。并通过Focus方法将帧图像处理为特征图1;
[0020]S212:按步长stride=1,卷积核kernel_size=1*1的卷积进行特征提取,输出卷积后的特征图2;
[0021]S213:第一阶段:采用SH

b模块对空间维度进行下采样操作,提取深层次特征,按步长stride=2,卷积核kernel_size=3*3的DWConv进行采样,输出特征图;然后,将SH

b获得的特征图作为SH

a特征提取模块的输入,按步长stride=1,卷积核kernel_size=3*3的DWConv进行特征提取,输出特征图4;
[0022]S214:第二阶段:将特征图4作为输入,采用SH

b模块对空间维度进行下采样,按步长stride=2,卷积核kernel_size=3*3的DWConv进行采样,经过第二阶段的SH

b得到特征图5;连续进行三次SH

a操作,均按步长stride=1,卷积核kernel_size=3*3的DWConv进行特征提取,经过第二阶段获得的特征图6;
[0023]S215:第三阶段:首先将经过第二阶段获得的特征图6作为第三阶段的输入特征图,将特征图6经过SH

b对空间维度进行下采样,降低图像的分辨率,采用步长stride=2,卷积核kernel_size=3*3的DWConv进行采样,输出特征图7;随后采用连续三次的SH

a进行特征提取,按照步长stride=1,卷积核kernel_size=3*3的DWConv进行特征提取,输出特征图8;
[0024]S216:第四阶段:首先将经过第三阶段获得的输出特征图8作为第四阶段的输入特征图,将输入的特征图8经过SH

b进行下采样操作,按步长stride=2,卷积核kernel_size=3*3的DWConv进行采样,降低图像的分辨率,提高感受野,最终输出特征图9;
[0025]S217:采用SPP方法,按照不同大小的池化核进行三种不同MaxPool,输出特征图10;
[0026]S218:通过SH

a进行特征提取,按照步长stride=1,卷积核kernel_size=3*3的DWConv进行特征提取,输出特征图11;
[0027]S219:最后利用特征图6、8、11完成融合和检测。
[0028]进一步,步骤S22中具体包括:
[0029]将S1中行为识别后的视频送入轻量化的DeepSort模型中,对于每一帧图像,将会输出一个nob*5维的矩阵:
[0030]{(id1,position1),(id2,position2),...,(id
j
,position
j
),...,(id
nob
,position
nob
)}
[0031]position
j
=(x
j
,y
j
,w
j
,h
j
)
[0032]其中nob表示当前图像帧中跟踪目标数量,j表示当前帧中的第j个目标,j=1

nob。id
j
表示当前帧图像中第j个目标的ID,position
j
分别表示第j个目标的定位信息,包括:跟踪框的左上角横纵坐标点和跟踪框的宽高;
[0033]根据轻量化改本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向行为时序的工作流程识别方法,主要是在多目标场景下对工作人员的工作进行流程检查,包括以下步骤:S1:根据不同应用场景对工作流程规范性的不同需求,利用拍摄到的视频帧建立工作行为动作标签库,使用行为识别网络模型对视频帧进行行为识别;S2:构建轻量化多目标跟踪模型,对视频中的人物进行跟踪;建立人脸库,对人物身份进行识别,以获取跟踪目标身份;S3:通过人物跟踪框和行为识别框的重合度,将人的身份和行为进行绑定,获得身份绑定后的行为序列;S4:建立工作内容训练标签库,使用时序模型完成对行为序列的工作内容检查从而判断身份绑定后行为序列的工作内容;S5:建立工作流程检查库,将确定工作内容的行为序列与工作流程检查库中属于同一工作内容的流程序列进行匹配,判断该行为序列的工作流程是否符合标准规范。2.根据权利要求1所述的面向行为时序的工作流程识别方法,其特征在于:步骤S2中,所述轻量化多目标跟踪网络模型的构建步骤如下:S21:依据ShuffleNetV2网络结构,对Yolov5s的主干网络C3Net进行替换,得到轻量化的Yolov5s检测网络;S22:将步骤S21所述轻量化的Yolov5s检测网络替代DeepSORT的检测网络,形成轻量化改进后的DeepSORT网络;将步骤S1中行为识别抽帧后的视频送入轻量化改进后的DeepSORT网络,对视频中不同目标进行跟踪,获得每个视频帧的跟踪框信息;S23:步骤S22目标跟踪计算后,将跟踪视频帧送入人脸识别模型中,对每帧图像进行人脸识别,获取跟踪框的人物身份信息。3.根据权利要求2所述的面向行为时序的工作流程识别方法,其特征在于:步骤S21中,所述轻量化的Yolov5s检测网络具体包括:S211:将视频帧依次输入,检测网络需对每一帧图像进行resize;并通过Focus方法将帧图像处理为特征图1;S212:按步长stride=1,卷积核kernel_size=1*1的卷积进行特征提取,输出卷积后的特征图2;S213:第一阶段:采用SH

b模块对空间维度进行下采样操作,提取深层次特征,按步长stride=2,卷积核kernel_size=3*3的DWConv进行采样,输出特征图3;然后将SH

b获得的特征图作为SH

a特征提取模块的输入,按步长stride=1,卷积核kernel_size=3*3的DWConv进行特征提取,输出特征图4;S214:第二阶段:将特征图4作为输入,采用SH

b模块对空间维度进行下采样,按步长stride=2,卷积核kernel_size=3*3的DWConv进行采样,经过第二阶段的SH

b得到特征图5;连续进行三次SH

a操作,均按步长stride=1,卷积核kernel_size=3*3的DWConv进行特征提取,经过第二阶段获得的特征图6;S215:第三阶段:首先将经过第二阶段获得的特征图6作为第三阶段的输入特征图,将特征图6经过SH

b对空间维度进行下采样,降低图像的分辨率,采用步长stride=2,卷积核kernel_size=3*3的DWConv进行采样,输出特征图7;随后采用连续三次的SH

a进行特征提取,按照步长stride=1,卷积核kernel_size=3*3的DWConv进行特征提取,输出特征图8;
S216:第四阶段:首先将经过第三阶段获得的输出特征图8作为第四阶段的输入特征图,将输入的特征图8经过SH

b进行下采样操作,按步长stride=2,卷积核kernel_size=3*3的DWConv进行采样,降低图像的分辨率,提高感受野,最终输出特征图9;S217:采用SPP方法,按照不同大小的池化核进行三种不同MaxPool,输出特征图10;S218:通过SH

a进行特征提取,按照步长stride=1,卷积核kernel_size=3*3的DWConv进行特征提取,输出特征图11;S219:最后利用特征图6、8、11完成融合和检测。4.根据权利要求3所述的面向行为时序的工作流程识别方法,其特征在于:步骤S22中具体包括:将S1中行为识别的视频送入轻量化的DeepSort模型中,对于每一帧图像,输出一个nob*5维的矩阵:{(id1,position1),(id2,position2),...,(id
j
,position
j
),...,(id
nob
,position
nob
)},position
j
=(x
j
,y
j
,w
j
,h
j
),其中nob表示当前图像帧中跟踪目标数量,j表示当前帧中的第j个目标,j=1

nob;id
j
表示当前帧图像中第j个目标的ID,position
j
分别表示第j个目标的定位信息,包括:跟踪框的左上角横纵坐标点和跟踪框的宽高;根据轻量化改进后的DeepSORT网络,为每个跟踪到的目标分配ID,集合ID={ID1,

,IDq},表示视频中共对q个目标进行了跟踪;最终,经过轻量化改进后的DeepSORT网络将获得视频的跟踪框信息记为A
n
:其中,n表示视频的帧数,表示视频中第i帧的跟踪框信息,i=1,

,n,,n,其中nobi表示第i帧的目标数量,z
i
表示当前跟踪框信息属于第i帧,表示第i帧第j个目标的ID,个目标的ID,分别表示第i帧第j个目标的定位信息,包括:跟踪框的左上角坐标点和跟踪框的宽高,表示第i帧第j个目标跟踪框所包含物体的置信度,j=1,

,nobi,nobi表示第i帧的跟踪目标数量。5.根据权利要求4所述的面向行为时序的工作流程识别方法,其特征在于:步骤S23中,人物跟踪框身份识别方法具体包括:设定所有视频目标人物身份集合为personID,集合personID={personID1,...,personID
m
},m表示视频库中人物数量,personID
m
表示其对应的人物身份信息;利用人脸识别模型,获得S22中视频每帧的人脸检测框及其身份信息,记为表示第i帧第k个目标的身份信息,i=1,

,n;其中表示第i帧中第k个人物身份信息,z
i
表示第i帧,
是人脸识别模型获得的第i帧第k个人脸定位信息,...

【专利技术属性】
技术研发人员:刘歆王奕琀万邦睿赵春泽韦庆杰金霜朱思宇
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1