当前位置: 首页 > 专利查询>河海大学专利>正文

基于计算机视觉的街景流量信息采集方法技术

技术编号:31024135 阅读:40 留言:0更新日期:2021-11-30 03:21
本发明专利技术公开了一种基于计算机视觉的街景流量信息采集方法,包含对每一帧视频采用目标检测算法YOLOv5检测识别街景中的物体;提取检测物体的外观特征辅助检测框与预测框的匹配;使用卡尔曼滤波算法预测每个被检测目标下一帧出现的位置;使用匈牙利算法利用提取的外观特征和运动特征计算代价矩阵,实现检测框的级联匹配为识别物体分配追踪目标序号;使用原型库等数据结构维护检测物体的外观特征和追踪序号,并以此判断检测物体是否第一次出现在视频中;对第一次被检测到的物体截取小图并转存至指定路径下,统计每类别出现的不同物体数,在视频中显示这种物体的运动轨迹。本发明专利技术实现了实时采集街景下常见物体图像信息和不同类别物体的计数统计信息。别物体的计数统计信息。别物体的计数统计信息。

【技术实现步骤摘要】
基于计算机视觉的街景流量信息采集方法


[0001]本专利技术属于多目标跟踪交叉
,具体涉及一种基于计算机视觉的街景流量信息采集方法。

技术介绍

[0002]视频目标跟踪是计算机视觉中的一项重要任务,是指对视频序列中的目标状态进行持续推断的过程,其任务在于通过在视频的每一帧中定位目标,以生成目标的运动轨迹,并在每一时刻提供追踪目标出现在视频中完整的目标区域。视频跟踪技术在计算机视觉领域内有着十分广泛的应用。本专利技术便是结合改进了目标跟踪技术以及检测技术,优化了常用街景流量信息收集技术推理速度慢、跟踪丢失的问题。
[0003]常用于街景流量信息收集的技术采用的目标检测算法常为基于R

CNN系算法(R

CNN,Fast R

CNN,Faster R

CNN等),首先先需经过算法推算产生目标候选框,然后再对产生的候选框进行分类与回归筛选。其产生的问题便是推理速度较慢,难以满足视频检测的实时性,常需要对视频进行抽帧处理。针对这一问题,我们采用了one

stage中的最新的YOLOv5算法,使得其拥有了更快的推理速度和更高的精度、鲁棒性,同时也提高了对小目标物体检测的准确性。
[0004]同时,常用于街景流量信息收集的技术采用的跟踪算法为sort算法,未能全面利用图像信息导致跟踪目标被短暂遮挡后便会发生track

id切换。针对这一现象,本专利技术利用一个简单的CNN卷积网络,提取了跟踪目标检测框的图像信息,在进行数据级联是附加上提取的图像信息,进而提高了整体算法的精度。

技术实现思路

[0005]本专利技术的目的在于提供一种基于计算机视觉的街景流量信息采集方法,解决现有技术中存在的问题。
[0006]本专利技术为实现上述功能采取如下技术方案:
[0007]基于计算机视觉的街景流量信息采集方法特征在于,包括如下步骤:
[0008]S1:利用YOLOv5算法识别视频每一帧中出现的十余种街景下常见物体,并按类别的不同用不同颜色的框将检测物体从视频中框出,在物体左上角显示检测的类别以及置信度;
[0009]S2:提取被检测物体的外观特征,保存为低维向量,为关联数据提供依据;
[0010]S3:利用卡尔曼滤波算法预测下一帧物体出现的位置,生成预测框;
[0011]S4:利用匈牙利算法将预测框与检测框级联匹配,为每个检测框分配追踪序号;
[0012]S5:将第一次出现在视频当中的物体截取小图并保存至指定路径,统计各类物体出现的数量。
[0013]进一步优化,所述步骤S1具体过程为:
[0014]S11:输入端采用了Mosaic数据增强、自适应锚框计算、自适应图片缩放三种方法
对输入图像数据进行预处理:
[0015](1)Mosaic数据增强:对训练图像采用随机缩放、随机裁剪、随机排布的方式进行拼接,丰富检测物体的背景,且在BN计算的时候一下子会计算四张图片的数据,使得mini

batch大小不需要很大,一个GPU就可以达到比较好的效果,有利于丰富数据集以及增强对小目标物体的检测精度;
[0016](2)自适应锚框计算:在Yolov3、Yolov4中,训练不同的数据集时,计算初始锚框的值是通过单独的程序运行的。但Yolov5中将此功能嵌入到代码中,每次训练时,自适应的计算不同训练集中的最佳锚框值;
[0017](3)自适应图片缩放:改变前代YOLO算法放缩图片尺寸的思路,对原始图像自适应的添加最少的黑边,使图像高度上两端的黑边变少,在推理时,计算量也会减少,即目标检测速度会得到提升。
[0018]S12:Backbone采用了Focus结构,CSP结构:
[0019](1)Focus结构:通过切片操作来对输入图片进行裁剪,在一张图片中每隔一个像素拿到一个值,通过这种操作可以获得四张图片,四张图片互补,且没有信息丢失,将将图像二维信息就集中到了通道空间,输入通道拓宽4倍,即拼接起来的图片相对于原先的RGB三通道模式变成了12个通道,最后将得到的新图片再经过卷积操作,最终得到了没有信息丢失情况下的二倍下采样特征图;
[0020](2)CSP结构:不同于YOLOv4算法,Yolov5中设计了两种CSP结构,CSP1_X结构应用于Backbone主干网络,另一种CSP2_X结构则应用于Neck中。
[0021]S13:Neck采用FPN+PAN结构,即在FPN层的后面还添加了一个自底向上的特征金字塔,其中包含两层PAN结构。这样结合操作,FPN层自顶向下传达强语义特征,而特征金字塔则自底向上传达强定位特征,两种结构相互作用,从不同的主干层对不同的检测层进行参数聚合。
[0022]S14:输出端采用GIOU_Loss做Bounding box的损失函数
[0023][0024]其中C为最小外接矩形,IOU为交并比,其数值等于重叠面积除以并集面积,是评价目标检测算法精度标准。
[0025]进一步优化,所述步骤二具体过程为:采用了一个相对简单且运算量不大的CNN来提取被检测物体(检测框覆盖区域)的外观特征并用128维向量表示,在每帧检测+追踪后,进行一次物体外观特征的提取并保存。而保存外观特征使用的是数据结构gallery,即
[0026][0027]L
k
表示多只能存储目标k当前时刻前100帧中的目标外观特征,i表示追踪序号。
[0028]具体地,所述步骤S3具体过程为:
[0029](1)基于track在t

1时刻的状态来预测其在t时刻的状态。
[0030]x'=Fx
ꢀꢀ
(1)
[0031]P'=FPF
T
+Q
ꢀꢀ
(2)
[0032](2)基于detection来更新预测的位置。
[0033]y=z

Hx'
ꢀꢀ
(3)
[0034]S=HP'H
T
+R
ꢀꢀ
(4)
[0035]K=P'H
T
S
‑1ꢀꢀ
(5)
[0036]x=x'+Ky
ꢀꢀ
(6)
[0037]P=(I

KH)P'
ꢀꢀ
(7)
[0038]公式1、2中,F为状态转移矩阵、x为track在t

1时刻的均值、Q为系统噪声矩阵、F
T
为状态转移矩阵的转置、y detection和track的均值误差、S噪声误差、I单位矩阵。
[0039]在公式3中,z为detection的均值向量,不包含速度变化值,即z=[cx,cy,r,h],H为测量矩阵,它将track的均值向量x'映射到检测空间,该公式计算detecti本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于计算机视觉的街景流量信息采集方法,特征在于,包括如下步骤:S1:识别视频每一帧中出现的十余种街景下常见物体,并按类别的不同用不同颜色的框将检测物体从视频中框出,得出检测框,在物体左上角显示检测的类别以及置信度;S2:提取被检测物体的外观特征,为关联数据提供依据;S3:预测下一帧物体出现的位置,生成预测框;S4:将预测框与检测框级联匹配,为每个检测框分配追踪序号;S5:将第一次出现在视频当中的物体截取小图并保存至指定路径,统计各类物体出现的数量。2.根据权利要求1所述基于计算机视觉的街景流量信息采集方法,其特征在于,所述步骤S1具体过程为:S11:输入端采用了Mosaic数据增强、自适应锚框计算、自适应图片缩放三种方法对输入图像数据进行预处理:(1)Mosaic数据增强:对训练图像采用随机缩放、随机裁剪、随机排布的方式进行拼接,有利于丰富数据集以及增强对小目标物体的检测精度;(2)自适应锚框计算:在Yolov3、Yolov4中,训练不同的数据集时,计算初始锚框的值是通过单独的程序运行的。但Yolov5中将此功能嵌入到代码中,每次训练时,自适应的计算不同训练集中的最佳锚框值;(3)自适应图片缩放:对原始图像自适应的添加最少的黑边,使图像高度上两端的黑边变少,在推理时,计算量也会减少,即目标检测速度会得到提升;S12:Backbone:Focus结构,CSP结构:(1)Focus结构:通过切片操作来对输入图片进行裁剪;(2)CSP结构:不同于YOLOv4算法,Yolov5中设计了两种CSP结构,CSP1_X结构应用于Backbone主干网络,另一种CSP2_X结构则应用于Neck中;S13:Neck采用FPN+PAN结构,即在FPN层的后面还添加了一个自底向上的特征金字塔,...

【专利技术属性】
技术研发人员:王峥吴东鹏黄秀君
申请(专利权)人:河海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1