当前位置: 首页 > 专利查询>江苏大学专利>正文

一种基于改进YOLOv3的果园环境下行人检测方法技术

技术编号:25522777 阅读:18 留言:0更新日期:2020-09-04 17:12
本发明专利技术公开了一种基于改进YOLOv3的果园环境下行人检测方法。包括步骤:S1、果园环境下采集图像,并进行预处理,制作果园行人样本集;S2、利用K‑means聚类算法生成anchor box数量计算行人候选框;S3、在YOLOv3网络的增加更细致的特征提取层,增加其网络在大尺度特征层的检测输出,得到改进后的网络模型YOLO‑Z;S4、将训练集输入YOLO‑Z网络进行多种环境训练,然后保存其权重文件;S5、引入Kalman滤波算法并进行相应改进来提高模型的鲁棒性,解决漏检问题,提高检测速度。本发明专利技术解决了果园环境下行人实时检测速度慢,准确率较低的困境,实现了多任务训练,保证了在果园环境下行人的检测速度和精度。

【技术实现步骤摘要】
一种基于改进YOLOv3的果园环境下行人检测方法
本专利技术涉及一种基于改进YOLOv3的果园环境下行人检测方法,针对无人农机在果园环境下的行人检测,属于深度学习、行人检测

技术介绍
随着人工智能的飞速发展,农业智能装备也进入了历史性的时刻,而无人农机又是农业智能装备的重中之重。在无人农机实地操作时,障碍物检测是面临的首要问题,其中行人检测更是至关重要。目前行人检测常用的方法有基于运动特性的方法、基于形状信息的方法、基于行人模型的方法、基于立体视觉而的方法、基于神经网络的方法、基于小波和支持向量机的方法等在果园环境下行人检测面临着一系列的问题:(1)行人的多姿态问题。行人目标严重的非刚性,行人可能呈现多种不同的姿态,或静止或行走,或站立或下蹲。(2)检测场景的复杂性问题。行人与背景混合,难以分离。(3)行人检测与跟踪系统实时性的问题。在实际的应用中,往往对检测跟踪系统的反应速度有一定的要求,行人检测算法的搭建往往比较复杂,进一步提高了系统实时性的阻力。(4)遮挡问题。在实际环境中,人与人,人与物存在着大量的遮挡。本文采取计算机视觉的方法结合深度学习进行行人检测,为实现行人检测提供研究基础。
技术实现思路
为解决以上在果园环境种智能无人农机对于行人检测要求,本专利技术提供一种基于改进YOLOv3的果园环境下行人检测方法,将检测视作回归问题,直接利用卷积网络结构对整个图像进行处理,同时预测出检测的类别和位置。本专利技术基于改进YOLOv3的果园环境下行人检测方法,包括以下步骤:步骤1:采集果园环境中行人图像;采集行人在深度摄像头下拍摄的所处果园各种位置的图像,其中,所述拍摄的行人处于不同遮挡环境下的图像以及在不同天气条件下的图像和不同距离包括近距离、中距离、远距离的行人图像;步骤2:对步骤1中采集的图像进行预处理,并构建标准的行人检测数据集;步骤3:将步骤2中处理后制作的训练集放入卷积特征器特征提取行人特征,通过K-means聚类算法产生anchorbox数来生成预测的行人边界框,并使用类似FPN网络进行多尺度融合预测来提升边界框和类别预测的准确性,具体步骤为:(3.1):随机选取一个坐标框的宽高作为第一个聚类中心;(3.2):第n个聚类中心选取原则是与当前n-1个聚类中心相似度距离越大的框被选去的概率越大;(3.3):循环(3.2)直到所有初始聚类中心被确定;(3.4):剩下其他坐标框逐一与聚类中心计算IoU(IntersectionoverUnion),得到两个框之间的相似度距离IoUloss,将坐标框划分到与其相似度距离最小聚类中心所属的类中;(3.5):所有坐标框都遍历后,计算各个类内坐标框宽、高的均值,作为下轮迭代的聚类中心;(3.6):重复(3.4)、(3.5),直到相邻迭代的TotalIoUloss差值小于阈值,或达到迭代次数,聚类算法停止。改进后的K-means聚类算法主要优化了初始聚类中心的选取,使得初始聚类中心之间的相似度距离尽可能大,这种方法可以有效缩短聚类时间,改善算法的聚类效果。步骤4:在YOLOv3网络的增加更细致的特征提取层,增加其网络在大尺度特征层的检测输出,得到改进后的网络模型YOLO-Z,具体如下:(4.1):先将步骤2中获得的训练集图像尺寸调整为608×608,并设置IOU阈值为0.45,置信度阈值为0.5。每个格子预测B个边界框(boundingbox),每个边界框包含1个置信度(confidencescore)值,4个坐标值以及C个类别概率,其中B是格子所在输出特征层anchorbox的数量。那么,对于尺寸的输出特征层,最终的输出维度为;聚类使用的公式为d(box,centroid)=1-IOU(box,centroid)其中,box为先验框,centroid为聚类中心,IOU(box,centroid)为两个区域的交并比,当d(box,centroid)小于等于度量阈值时,确定anchorbox的宽高大小。预测边界框的公式为bx=σ(tx)+cxby=σ(ty)+cy其中,cx和cy为划分的单元格与图像左上角的横纵坐标的距离,pw、ph分别为预测前的边界框宽度和高度,tx和ty为预测中心相对参数,σ(tx)和σ(ty)分别是预测框中心偏离其所在单元格左上角的水平方向和垂直方向的距离,bx和by分别为预测的边界框中心的横、纵坐标,bw和bh分别为预测的边界框的宽度和高度。预测边界框的置信度公式为其中,Pr(object)为0或1,为0表示图像中没有目标,为1表示有目标;表示预测的边界框和实际的边界框之间的交并比,置信度(confidencescore)反映是否包含目标以及包含目标情况下预测位置的准确性。置信度阈值设为0.5,则当预测的边界框置信度小于0.5时,删除预测的边界框;预测的边界框置信度大于0.5时,保留预测的边界框。(4.2):在YOLOv3网络的增加更细致的特征提取层,增加其网络在大尺度特征层的检测输出;YOLOv3网络每进行一个下采样都采用了大量的、卷积,根据感受野计算公式可知,随着网络层数的增加,感受野增大,提取到的特征由更多的信息融合组成,即网络越深越关注全局信息。行人在图片中所占的比例较小,属于小尺寸物体检测,在深层的特征图中,小尺寸物体的信息对特征图的影响较小,小尺度物体信息丢失严重。因此,增加了更细致的特征提取层,在保留YOLOv3原本的输出层基础上,对输出特征图进行上采样得到尺寸特征图同时与浅层尺寸卷积层合并,再经过若干卷积层后预测输出,得到模型YOLO-Z;(4.3):接着通过类似FPN网络对行人进行多尺度融合预测,YOLOv3算法将目标检测看成回归问题,所以采用的是均方差损失函数;类别预测使用的均方差损失函数(lossfunction)公式为其中:S2表示网络最终特征图网格尺寸,B表示每个网格的预测框个数,x,y,w,h表示框的中心和宽高,Ci表示预测框定位到行人的置信度,表示框内真实存在行人的置信度,Pi(c)表示预测行人置信度,真实存在行人置信度;指判断第i个栅格中第j个boundingbox是否负责这个物体,与物体的真实存在的目标框ground_truth_box的IOU最大boundingbox;表示IOU最大的boundingbox;λcoord为用于边界框坐标预测误差的权重系数;λnoobj代表分类误差classificationerror的权重;判断是否有object的中心落在栅格i中,网格中含有object的中心,就负责预测该object的类别概率;步骤5:将训练集输入YOLO-Z网络进行多种环境训练,然后保存其权重文件;基于改进后的YOLO-Z网络,增加了卷积层,得到了更细致的特征提取,并在浅层对小目标进行检测,得到果园下的行人检测模型。利用数据集的先验知识,用K-mea本文档来自技高网...

【技术保护点】
1.一种基于改进YOLOv3的果园环境下行人检测方法,其特征在于,包括以下步骤:/n步骤1:采集果园环境中行人图像;/n采集行人在深度摄像头下拍摄的所处果园各种位置的图像,其中,所述拍摄的行人处于不同遮挡环境下的图像以及在不同天气条件下的图像和不同距离包括近距离、中距离、远距离的行人图像;/n步骤2:对步骤1中采集的图像进行预处理,并构建标准的行人检测数据集;/n步骤3:将步骤2中的行人检测数据集处理后制作训练集放入卷积特征器特征提取行人特征,通过K-means聚类算法产生anchor box数来生成预测的行人边界框扩充数据,并使用类似FPN网络进行多尺度融合预测来提升边界框和类别预测的准确性;/n步骤4:在YOLOv3网络的增加更细致的特征提取层,增加其网络在大尺度特征层的检测输出,得到改进后的网络模型YOLO-Z;/n步骤5:将训练集输入YOLO-Z网络进行多种环境训练,然后保存其权重文件;/n步骤6:引入改进Kalman滤波算法来提高模型的鲁棒性,解决漏检问题,提高检测速度。/n

【技术特征摘要】
1.一种基于改进YOLOv3的果园环境下行人检测方法,其特征在于,包括以下步骤:
步骤1:采集果园环境中行人图像;
采集行人在深度摄像头下拍摄的所处果园各种位置的图像,其中,所述拍摄的行人处于不同遮挡环境下的图像以及在不同天气条件下的图像和不同距离包括近距离、中距离、远距离的行人图像;
步骤2:对步骤1中采集的图像进行预处理,并构建标准的行人检测数据集;
步骤3:将步骤2中的行人检测数据集处理后制作训练集放入卷积特征器特征提取行人特征,通过K-means聚类算法产生anchorbox数来生成预测的行人边界框扩充数据,并使用类似FPN网络进行多尺度融合预测来提升边界框和类别预测的准确性;
步骤4:在YOLOv3网络的增加更细致的特征提取层,增加其网络在大尺度特征层的检测输出,得到改进后的网络模型YOLO-Z;
步骤5:将训练集输入YOLO-Z网络进行多种环境训练,然后保存其权重文件;
步骤6:引入改进Kalman滤波算法来提高模型的鲁棒性,解决漏检问题,提高检测速度。


2.根据权利要求1所述的一种基于改进YOLOv3的果园环境下行人检测方法,其特征在于,通过K-means聚类算法产生anchorbox数来生成预测的行人边界框扩充数据,其具体步骤为:
步骤3.1:随机选取一个坐标框的宽高作为第一个聚类中心;
步骤3.2:第n个聚类中心选取原则是与当前n-1个聚类中心相似度距离越大的框被选去的概率越大;
步骤3.3:循环步骤3.2直到所有初始聚类中心被确定;
步骤3.4:剩下其他坐标框逐一与聚类中心计算IoU(IntersectionoverUnion),得到两个框之间的相似度距离IoUloss,将坐标框划分到与其相似度距离最小聚类中心所属的类中;
步骤3.5:所有坐标框都遍历后,计算各个类内坐标框宽、高的均值,作为下轮迭代的聚类中心;
步骤3.6:重复步骤3.4、步骤3.5,直到相邻迭代的TotalIoUloss差值小于阈值,或达到迭代次数,聚类算法停止。


3.根据权利要求1所述的一种基于改进YOLOv3的果园环境下行人检测方法,其特征在于,步骤4具体如下:
步骤4.1:先将步骤2中获得的训练集图像尺寸调整为608×608,并设置IoU(IntersectionoverUnion)阈值为0.45,置信度阈值为0.5,每个格子预测B个边界框boundingbox,每个边界框包含1个置信度confidencescore值,4个坐标值以及C个类别概率,其中B是格子所在输出特征层anchorbox的数量,那么,对于尺寸的输出特征层,最终的输出维度为;
聚类使用的公式为
d(box,centroid)=1-IOU(box,centroid)
其中,box为先验框,centroid为聚类中心,IOU(box,centroid)为两个区域的交并比,当d(box,centroid)小于等于度量阈值时,确定anchorbox的宽高大小;
预测边界框的公式为
bx=σ(tx)+cx
by=σ(ty)+cy






其中,cx和cy为划分的单元格与图像左上角的横纵坐标的距离,pw、ph分别为预测前的边界框宽度和高度,tx和ty为预测中...

【专利技术属性】
技术研发人员:沈跃张健刘慧张礼帅吴边
申请(专利权)人:江苏大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1