当前位置: 首页 > 专利查询>中山大学专利>正文

一种面向众核处理器的行为视频识别加速的方法及系统技术方案

技术编号:35865094 阅读:20 留言:0更新日期:2022-12-07 10:56
本发明专利技术公开了一种面向众核处理器的行为视频识别加速的方法及系统,该方法包括:对视频数据进行视频帧图像处理,得到处理后的视频图像数据;对3d

【技术实现步骤摘要】
一种面向众核处理器的行为视频识别加速的方法及系统


[0001]本专利技术涉及计算机并行计算
,尤其涉及一种面向众核处理器的行为视频识别加速的方法及系统。

技术介绍

[0002]在大数据和信息爆炸的时代,视频数据占比越来越大,各种视频任务层出不穷,其中,行为视频识别任务,可以通过将行为视频经过三维卷积神经网络进行处理,在预定义行为选项中,最终提取出一个置信度最高的行为选项作为识别结果,在三维卷积神经网络中,代表模型有3d

resnet34和C3D等,但是这类模型通常为了数据预测精度,其计算性能欠佳,且其中三维卷积的计算占比最大,而其还有很大的改进空间,如今,多种推理计算框架层出不穷,如Arm

Compute

Library(ACL),旨在给移动端或主机端提供神经网络推理运行加速,其在三维数据运算部分实现欠佳,原因是视频数据的内存占用空间比图片数据的更大,在移动端相比主机端内存更有限的情况下,大部分推理框架使用直接卷积的三维卷积算子的实现方式,避免更多的内存损耗,但同时导致运算性能欠佳,同时,越来越多的处理器核心被同时放置在一台机器上,多核处理器引入了非统一内存访问体系结构(NUMA),如Intel CPU和AMD CPU等,多个核心被组织成一个NUMA节点,若干个NUMA节点组织成一台众核设备,目前推理计算框架大多是对移动端平台进行推理加速,但是欠缺对众核设备平台的适配和优化,在众核设备上搭建推理服务需要重新适配,框架的可移植性低。

技术实现思路

[0003]为了解决上述技术问题,本专利技术的目的是提供一种面向众核处理器的行为视频识别加速的方法及系统,能够在提升行为视频识别精度的同时提高行为视频的识别速度。
[0004]本专利技术所采用的第一技术方案是:一种面向众核处理器的行为视频识别加速的方法,包括以下步骤:
[0005]对视频数据进行视频帧图像处理,得到处理后的视频图像数据;
[0006]对3d

resnet34网络模型的layer层进行并行计算分层处理并在每层layer层后增加channel

shuffle,构建改造后的3d

resnet34网络模型;
[0007]将处理后的视频图像数据输入至改造后的3d

resnet34网络模型,输出视频图像识别结果。
[0008]进一步,所述对视频数据进行视频帧图像处理,得到处理后的视频图像数据这一步骤,其具体包括:
[0009]获取视频数据;
[0010]对视频数据进行均匀帧采样处理,得到采样后的视频图像数据;
[0011]对采样后的视频图像数据依次进行边缘切割和中心标准化处理,得到处理后的视频图像数据。
[0012]进一步,所述对3d

resnet34网络模型的layer层进行并行计算分层处理并在每层
layer层后增加channel

shuffle,构建改造后的3d

resnet34网络模型这一步骤,其具体包括:
[0013]所述改造后的3d

resnet34网络模型包括最大池化层、layer层和全连接层,其中,所述layer层的层数为4层,且每一层layer层后均与channel

shuffle连接。
[0014]进一步,所述将处理后的视频图像数据输入至改造后的3d

resnet34网络模型,输出视频图像识别结果这一步骤,其具体包括:
[0015]将处理后的视频图像数据输入至改造后的3d

resnet34网络模型;
[0016]基于最大池化层,对处理后的视频图像数据进行rgb通道增大处理,得到放大后的三维视频图像数据;
[0017]基于layer层,对放大后的三维视频图像数据依次进行分组与重组处理,得到三维视频图像特征数据;
[0018]基于全连接层,对三维视频图像特征数据进行平均池化处理,输出视频图像识别结果。
[0019]进一步,所述基于layer层,对放大后的三维视频图像数据依次进行分组与重组处理,得到三维视频图像特征数据这一步骤,其具体包括:
[0020]对放大后的三维视频图像数据进行帧编号处理,得到具有奇数帧和偶数帧编号的三维视频图像数据;
[0021]依据三维视频图像数据的奇数帧和偶数帧,通过分组卷积操作对三维视频图像数据进行分组处理,得到分组后的三维视频图像数据;
[0022]将分组后的三维视频图像数据进行并行卷积计算操作,得到计算后的三维视频图像数据;
[0023]对计算后的三维视频图像数据进行channel

shuffle操作,得到多个分组三维视频图像特征数据;
[0024]对多个分组三维视频图像特征数据进行重组处理,得到三维视频图像特征数据。
[0025]进一步,所述并行卷积计算操作为基于img2col3d+gemm的单通道卷积操作,具体如下:
[0026]对输入的三维视频图像数据的滑窗数据进行转换处理,得到矩阵形式三维视频图像数据;
[0027]使用gemm矩阵乘算法对矩阵形式三维视频图像数据进行矩阵乘运算,得到计算后的三维视频图像数据。
[0028]进一步,所述基于全连接层,对三维视频图像特征数据进行平均池化处理,输出视频图像识别结果这一步骤,其具体包括:
[0029]对三维视频图像特征数据进行预处理处理,得到三维视频图像数据的置信区间;
[0030]对三维视频图像数据的置信区间进行计算,得到三维视频图像数据的置信度值;
[0031]选取三维视频图像数据的置信度值最高时对应的三维视频图像数据作为视频图像识别结果。
[0032]本专利技术所采用的第二技术方案是:一种面向众核处理器的行为视频识别加速系统,包括:
[0033]预处理模块,用于对视频数据进行视频帧图像处理,得到处理后的视频图像数据;
[0034]构建模块,用于对3d

resnet34网络模型的layer层进行并行计算分层处理并在每层layer层后增加channel

shuffle,构建改造后的3d

resnet34网络模型;
[0035]输出模块,用于将处理后的视频图像数据输入至改造后的3d

resnet34网络模型,输出视频图像识别结果。
[0036]本专利技术方法及系统的有益效果是:本专利技术通过对视频数据进行帧图像操作处理,对视频数据做边缘切割和中间标准化处理,可以缩小数据规模,并屏蔽掉边缘的与行为无关的边缘噪音,进一步对传统的3d

resnet34网络模型进行改进,将3d

resnet34网络模型的中部layer层分为四层,对视频图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向众核处理器的行为视频识别加速的方法,其特征在于,包括以下步骤:对视频数据进行视频帧图像处理,得到处理后的视频图像数据;对3d

resnet34网络模型的layer层进行并行计算分层处理并在每层layer层后增加channel

shuffle,构建改造后的3d

resnet34网络模型;将处理后的视频图像数据输入至改造后的3d

resnet34网络模型,输出视频图像识别结果。2.根据权利要求1所述一种面向众核处理器的行为视频识别加速的方法,其特征在于,所述对视频数据进行视频帧图像处理,得到处理后的视频图像数据这一步骤,其具体包括:获取视频数据;对视频数据进行均匀帧采样处理,得到采样后的视频图像数据;对采样后的视频图像数据依次进行边缘切割和中心标准化处理,得到处理后的视频图像数据。3.根据权利要求2所述一种面向众核处理器的行为视频识别加速的方法,其特征在于,所述对3d

resnet34网络模型的layer层进行并行计算分层处理并在每层layer层后增加channel

shuffle,构建改造后的3d

resnet34网络模型这一步骤,其具体包括:所述改造后的3d

resnet34网络模型包括最大池化层、layer层和全连接层,其中,所述layer层的层数为4层,且每一层layer层后均与channel

shuffle连接。4.根据权利要求3所述一种面向众核处理器的行为视频识别加速的方法,其特征在于,所述将处理后的视频图像数据输入至改造后的3d

resnet34网络模型,输出视频图像识别结果这一步骤,其具体包括:将处理后的视频图像数据输入至改造后的3d

resnet34网络模型;基于最大池化层,对处理后的视频图像数据进行rgb通道增大处理,得到放大后的三维视频图像数据;基于layer层,对放大后的三维视频图像数据依次进行分组与重组处理,得到三维视频图像特征数据;基于全连接层,对三维视频图像特征数据进行平均池化处理,输出视频图像识别结果...

【专利技术属性】
技术研发人员:黄聃黄子健江嘉治陈志广卢宇彤
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1