当前位置: 首页 > 专利查询>复旦大学专利>正文

面向随动小车夜间工况下的多模态目标跟随方法和系统技术方案

技术编号:39191421 阅读:19 留言:0更新日期:2023-10-27 08:38
本发明专利技术涉及一种面向随动小车夜间工况下的多模态目标跟随方法和系统,方法包括在小车进行目标跟随过程中,分别采集RGB图像、深度图像和红外图像,将RGB图像和红外图像载入预先建立并训练好的YOLOv5

【技术实现步骤摘要】
面向随动小车夜间工况下的多模态目标跟随方法和系统


[0001]本专利技术涉及计算机视觉领域,尤其是涉及面向随动小车夜间工况下的多模态目标跟随方法和系统。

技术介绍

[0002]近些年,功能性车辆领域集成了越来越多的技术,也使得功能性车辆越来越多样化。目前智能跟随小车是一个热门领域,传统的跟随方式是有激光跟随技术、GPS跟随技术、蓝牙跟随技术、视觉跟随技术等。激光跟随技术功耗较大,且常常受到室内墙体或物体的阻隔,实用性较差;GPS跟随技术在信号比较差的地方定位精度较低;蓝牙跟随技术虽然受环境干扰较小,但作用距离短,通信能力不强,不便于整合到其它系统中;对于视觉目标跟随方法借助视觉传感器完成,机器人借助单目、双目摄像头、深度摄像机、视频信号数字化设备或基于DSP的快速信号处理器等其他外部设备获取图像,同时随着深度学习的迅速发展,卷积神经网络可以自动发现检测及分类目标所需要的特征,同时通过卷积神经网络能够将原始输入信息转化为更抽象、更高维的特征,这种高维特征具有强大的特征表达能力和泛化性,在复杂场景下的表现较好。
[0003]基于深度学习的视觉跟随方法,主要分成两类:基于生成式模型的跟随方法和基于目标检测的跟随方法。其中基于生成式模型的跟随方法主要通过构建待检测的目标模型来实现跟随,例如,通过视觉传感器来获取待检测目标的特征信息,接着通过相机寻找视野范围内且与狗检测模型匹配的区域,并且使用基于生成式的目标跟踪算法跟踪目标。但是基于生成式模型的跟随方法通常只关注目标本身,而忽略了北京等信息,经常出现目标跟踪丢失的情况
[0004]基于目标检测的跟随方法用的是全局信息,并且检测速度很快,能满足特定场合的处理要求。基于深度学习的目标检测算法根据其算法流程特点大致可以分为两类:两阶段(Two

Stage)目标检测算法和单阶段(One

Stage)目标检测算法。两阶段目标检测算法的主要代表是Regions with Convolutional Neural Networks Features(R

CNN)系列,虽然此类检测算法检测精度较高,但是检测速度较慢。One

Stage目标检测算法的代表有You Only Look Once(YOLO)系列,此类检测算法精度一般,但是检测速度很快,具有高效、灵活和泛化性能好的优点,在工业界应用广泛。
[0005]YOLO算法系列发展至今,包括了从YOLOV1到YOLOV7以及各种基于改进YOLO的目标检测算法。Redmon J等人在2016年提出直接使用回归(Regression)的方法来对取景框进行检测和分类,将目标检测转化为回归问题求解,并基于一个单独的端到端网络,完成从原始输入图像到物体位置和类别的输出,大幅度提升了目标检测的速度。此后经过一系列的优化,已经成为目标检测领域的主流算法,并且在工业界广泛应用。YOLOV2中采用批量正则化(Batch Normalization)对数据进行预处理,大大提高训练速度,提升训练的效果,并且引入了标准欧氏距离的K

means聚类方法产生的Anchor机制,大大提高了算法的召回率。YOLOV3采用多个尺度融合的方法,对不同尺度目标的适应能力变得更强。YOLOV4加入了SPP
结构解决了多尺度检测的问题,引入PAN结构让浅层特征图具有深层特征图的语义信息以及深层特征图有浅层特征图的语义信息,以及利用Mosaic数据增强增加了网络的泛化性。YOLOV5在BackBone阶段使用了加残差模块的CSP结构,加强了网络特征融合的能力。
[0006]功能性车辆检测与跟踪目标的核心问题是其在跟随过程中,复杂的光照场景以及街道环境可能会影响其目标检测的精度。YOLOv5具有比较高的精度,同时应用比较广泛,兼容性较高,它以DarkNet为骨干网络,应用了CSP模块以及PAN结构。但是由于随动小车的应用场景不止是白天光线较好的情况,还有可能在夜晚光线较差的地方,虽然YOLOv5在白天场景拥有较好的效果,但是如果在夜晚效果就会大打折扣,极大地影响了随动小车的应用场景。为了扩展随动小车使用的场景,需要提取更多的信息并对网络结构进行改进。

技术实现思路

[0007]本专利技术的目的就是为了克服上述现有技术存在传统的清洗车需要专门雇用一个人开车,导致成本较高以及效率较低,且需要消耗大量人力物力的缺陷而提供一种能够辅助工作人员工作效率的面向随动小车夜间工况下的多模态目标跟随方法和系统。
[0008]本专利技术的目的可以通过以下技术方案来实现:
[0009]一种面向随动小车夜间工况下的多模态目标跟随方法,包括以下步骤:
[0010]在小车移动过程中,通过相机和红外成像仪采集待检测目标的各种姿态图,并进行图像标注,制作成训练数据集;
[0011]将所述训练数据集中的数据输入预先构建的YOLOv5

RTFT目标检测网络进行训练,得到训练好的目标检测模型,所述YOLOv5

RTFT目标检测网络为基于YOLOv5的双路网络结构,并引入RTFT结构,该RTFT结构在Transformer架构的基础上,删除Decoder结构,将图像信息分割成多个patches,从而融合RGB图像特征以及红外图像特征;
[0012]在小车进行目标跟随过程中,通过相机采集RGB图像以及深度图像,通过红外成像仪采集红外图像;
[0013]将采集的RGB图像和红外图像输入训练好的目标检测模型中,获取检测结果;
[0014]根据所述检测结果得到跟踪目标的中心坐标与取景框中心坐标的差值,从而判断小车的转向角,使得跟踪目标的中心点保持为取景框的中心点;
[0015]将RGB图上跟踪目标的坐标映射到所述深度图像上,得到跟踪目标与小车之间的距离,用来判断是否前进,实现目标跟随。
[0016]进一步地,所述YOLOv5

RTFT目标检测网络包括输入端模块、Backbone模块、Neck模块和Prediction模块。
[0017]进一步地,所述输入端模块利用Mosaic技术进行数据增强,并采用自适应的Anchor计算方式,调整计算出的Anchor;
[0018]所述利用Mosaic技术进行数据增强的过程包括:采用Mosaic技术对输入的数据集中的四张图片进行随即裁剪、缩放后再随机拼接成一张图片,实现数据集扩充;
[0019]所述自适应的Anchor计算方式的过程包括:在训练开始前,计算输入网络的数据集中所有目标的宽和高,从而计算此数据集标注信息针对默认Anchor的最佳召回率,若最佳召回率满足预设的召回率要求,则不更新Anchor,否者重新计算该数据集的Anchor。
[0020]进一步地,所述Backbone模块包括CBS结构、RTFT结构以及BottleNeck结构;
[0021]所述CBS结构包括依次串联的Conv层、Batch Normal本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向随动小车夜间工况下的多模态目标跟随方法,其特征在于,包括以下步骤:在小车移动过程中,通过相机和红外成像仪采集待检测目标的各种姿态图,并进行图像标注,制作成训练数据集;将所述训练数据集中的数据输入预先构建的YOLOv5

RTFT目标检测网络进行训练,得到训练好的目标检测模型,所述YOLOv5

RTFT目标检测网络为基于YOLOv5的双路网络结构,并引入RTFT结构,该RTFT结构在Transformer架构的基础上,删除Decoder结构,将图像信息分割成多个patches,从而融合RGB图像特征以及红外图像特征;在小车进行目标跟随过程中,通过相机采集RGB图像以及深度图像,通过红外成像仪采集红外图像;将采集的RGB图像和红外图像输入训练好的目标检测模型中,获取检测结果;根据所述检测结果得到跟踪目标的中心坐标与取景框中心坐标的差值,从而判断小车的转向角,使得跟踪目标的中心点保持为取景框的中心点;将RGB图上跟踪目标的坐标映射到所述深度图像上,得到跟踪目标与小车之间的距离,用来判断是否前进,实现目标跟随。2.根据权利要求1所述的一种面向随动小车夜间工况下的多模态目标跟随方法,其特征在于,所述YOLOv5

RTFT目标检测网络包括输入端模块、Backbone模块、Neck模块和Prediction模块。3.根据权利要求2所述的一种面向随动小车夜间工况下的多模态目标跟随方法,其特征在于,所述输入端模块利用Mosaic技术进行数据增强,并采用自适应的Anchor计算方式,调整计算出的Anchor;所述利用Mosaic技术进行数据增强的过程包括:采用Mosaic技术对输入的数据集中的四张图片进行随即裁剪、缩放后再随机拼接成一张图片,实现数据集扩充;所述自适应的Anchor计算方式的过程包括:在训练开始前,计算输入网络的数据集中所有目标的宽和高,从而计算此数据集标注信息针对默认Anchor的最佳召回率,若最佳召回率满足预设的召回率要求,则不更新Anchor,否者重新计算该数据集的Anchor。4.根据权利要求2所述的一种面向随动小车夜间工况下的多模态目标跟随方法,其特征在于,所述Backbone模块包括CBS结构、RTFT结构以及BottleNeck结构;所述CBS结构包括依次串联的Conv层、Batch Normalization层以及SiLU层;所述Conv层包括1
×
1卷积层和3
×
3卷积层,所述1
×
1卷积层和3
×
3卷积层均用于对RGB图像以及深度图像的特征图进行扩展;所述Batch Normalization层用于利用权值共享策略,把一整张特征图当作一个神经元进行归一化处理;所述SiLU层为基于的SiLU的激活函数层;所述RTFT结构用于以Vision Transformer结构为基础,将RGB图像以及深度图像的特征进行融合;所述BottleNeck结构为BottleNeckTrue结构或BottleNeckFalse结构,所述BottleNeckTrue结构先通过1
×
1的CBS结构进行卷积,然后通过3
×
3的CBS结构进行卷积,最后通过残差结构与BottleNeckTrue结构的初始输入进行相加;所述BottleNeckFalse结构先通过1
×
1的CBS结构进行卷积,然后通过3
...

【专利技术属性】
技术研发人员:董志岩闫哲胡博邓文清
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1