一种双阶段物品检测方法及装置制造方法及图纸

技术编号:30376122 阅读:48 留言:0更新日期:2021-10-16 18:06
本发明专利技术公开一种双阶段物品检测方法及装置,方法包括响应于获取采集的实时图像,将实时图像输入至前景检测模型中,使获得前景定位信息,并基于前景定位信息确定实时图像中包含物品的至少一个预测框的位置;根据至少一个预测框的位置对实时图像进行截取,使获得至少一个预测框图像,并将至少一个预测框图像输入至类别判断模型中,输出至少一个物品的类别;响应于获取的前景定位信息,基于双目图像视差计算获得至少一个物品的位置信息。通过将物品检测分成前景分析和类别判断两个过程,有效避免了经典的深度检测算法在应用中难以采集足够样本完成训练的问题,并且有效解决了导盲装置便携性与深度学习模型计算复杂性之间的矛盾。便携性与深度学习模型计算复杂性之间的矛盾。便携性与深度学习模型计算复杂性之间的矛盾。

【技术实现步骤摘要】
一种双阶段物品检测方法及装置


[0001]本专利技术属于物品检测
,尤其涉及一种双阶段物品检测方法及装置。

技术介绍

[0002]数据显示,随着人口的增长和老龄化程度的加深,到2050年,全球预计会有 7.03亿人面临中重 度视力损害或失明。根据中国残联的数据,目前我国至少有500万盲人,且盲人数量正在以每年45万的速度 迅速增加。视觉是人类最重要的感知手段,人类约90%的感知信息来自眼睛。盲人因为缺失了视觉感知手段,生活极为不便,同时也给社会带来了沉重的负担。如何增强盲人的自主环境感知能力一直是科研人员努力的方向。
[0003]手杖和导盲犬是最常用的导盲工具。手杖简单实用,但是获得的信息也少;导盲犬导盲效果好,但是训练不易,成本高昂。随着科技水平的提高,近年来人们开始将先进的信息处理技术用于导盲,开发出许多新的导盲装置。Pravin M 等人用固定的白色LED灯作为发射器,用户手持PIN二极管接收器读取不同频率光线对应的信息以确定位置。宋玉娥等人基于STM32单片机设计了一款新型的智能导盲手杖,利用超声波传感器、温度传感器及积水探测传感器分别探测盲人前方障碍物、环境温度、路面积水情况等信息,并通过语音播报预警信息反馈给盲人。Chuang T K等人研发了一款循迹机导盲器人,通过同时对车身左30
°
、正前方、右30
°
进行拍摄,可识别黄蓝条带轨迹和美国波士顿的“自由轨迹”。随着人工智能技术和机器视觉技术的不断进步,如何将先进的深度学习、图像处理等技术应用于导盲领域,为视觉障碍者带来第二双“眼睛”,进一步扩大盲人的信息感知范围,成为重要的研究内容。
[0004]虽然导盲工具研究取得了很多成果,为盲人出行提供了许多便利,但是现有方法仍然存在以下问题:1、一些装置只能感知障碍物的存在,却无法获知障碍物类型,使得感知信息单一;2、现有的物品识别方法,尤其是基于深度学习的方法,需要大量的样本进行复杂的训练,才能达到较好的效果,所识别的物品一般需要在设计时预先设定,难以满足不同用户的个性化需求。

技术实现思路

[0005]针对传统基于深度学习模型的物品检测模型需要采集大量样本才能完成训练,为了使用户能够自己根据个性化需求定制待检测物品,有必要降低检测模型的训练难度,并提高其在小样本集条件下的训练精度。为此本专利技术提供一种双阶段物品检测方法,该方法考虑到传统检测方法采用单神经网络模型一次获得待检测物品的位置和类别,训练难度大,小样本条件下容易过拟合的问题,将位置检测和类别判别分成两个模型分别训练,前景检测模型只训练可能的物品位置信息,类别判别模型仅用于对可能物品进行分类,由于每个模型只完成检测过程的部分任务,因此能够有效降低模型训练的难度,同时在模型训练过程中采用迁移学习方式,两个子模型的训练都在成熟的千分类网络模型参数基础上进行,并尽可能保留千分类网络的特征提取功能,保证了特征提取的有效性;此外,通过选用
合适的类别判别网络模型,减少未训练物品的误识别率,从而提高了检测模型在小样本集条件下训练的成功率。具体内容如下:第一方面,本专利技术提供一种双阶段物品检测方法,包括:响应于获取的样本图像集,基于至少一个标注框对所述样本图像集中的某一样本图像内包含的物品进行标注,并将标注后的样本图像输入至预设第一神经网络模型中,使输出所述至少一个标注框的预测位置信息,其中,所述预测位置信息包括所述至少一个标注框的中心点坐标值以及所述至少一个标注框的宽度值和高度值;将所述至少一个标注框的预测位置信息与所述至少一个标注框的标准信息进行比对,并基于比对结果对所述预设第一神经网络模型中的网络参数进行修正,使建立前景检测模型;响应于获取标注后的样本图像,对标注后的样本图像进行预处理,并将预处理后的样本图像输入至预设第二神经网络模型中,使输出所述至少一个标注框中某一物品所属类别的预测概率,其中,标注后的样本图像中包含某一物品的真实类别标签;基于交叉熵损失函数计算所述预测概率与所述真实类别标签之间的损失,并通过反向传播更新所述预设第二神经网络模型中的模型参数,使建立类别判断模型;响应于获取采集的实时图像,将所述实时图像输入至所述前景检测模型中,使获得前景定位信息,并基于所述前景定位信息确定所述实时图像中包含物品的至少一个预测框的位置,其中,所述前景定位信息中包含所述至少一个预测框的中心点坐标值以及所述至少一个预测框的宽度值和高度值;根据所述至少一个预测框的位置对所述实时图像进行截取,使获得至少一个预测框图像,并将所述至少一个预测框图像输入至所述类别判断模型中,输出至少一个物品的类别;响应于获取的所述前景定位信息,基于双目图像视差计算获得至少一个物品的位置信息;响应于获取的至少一个物品的位置信息,将所述至少一个物品的位置信息输入至导盲装置中,使所述导盲装置进行语音播报至少一个物品的位置信息。
[0006]第二方面,本专利技术提供一种双阶段物品检测装置,包括:第一输出模块,配置为响应于获取的样本图像集,基于至少一个标注框对所述样本图像集中的某一样本图像内包含的物品进行标注,并将标注后的样本图像输入至预设第一神经网络模型中,使输出所述至少一个标注框的预测位置信息,其中,所述预测位置信息包括所述至少一个标注框的中心点坐标值以及所述至少一个标注框的宽度值和高度值;修正模块,配置为将所述至少一个标注框的预测位置信息与所述至少一个标注框的标准信息进行比对,并基于比对结果对所述预设第一神经网络模型中的网络参数进行修正,使建立前景检测模型;第二输出模块,配置为响应于获取标注后的样本图像,对标注后的样本图像进行预处理,并将预处理后的样本图像输入至预设第二神经网络模型中,使输出所述至少一个标注框中某一物品所属类别的预测概率,其中,标注后的样本图像中包含某一物品的真实类别标签;更新模块,配置为基于交叉熵损失函数计算所述预测概率与所述真实类别标签之间的损失,并通过反向传播更新所述预设第二神经网络模型中的模型参数,使建立类别判断模型;第一输入模块,配置为响应于获取采集的实时图像,将所述实时图像输入至所述前景检测模型中,使获得前景定位信息,并基于所述前景定位信息确定所述实时图像中包含物品的至少一个预测框的位置,其中,所述前景定位信息中包含所述至少一个预测框的中心点坐标值以及所述至少一个预测框的宽度值和高度值;第二输入模块,配置为根据所述至少一个预测框的位置对所述实时图像进行截取,使获得至少一个预测框图像,并将所述至少一个预测框图像输入至所述类别判断模型中,输出至少一个物品的类别;计算模块,配置为响应于获取的所述前景
定位信息,基于双目图像视差计算获得至少一个物品的位置信息;传输模块,配置为响应于获取的至少一个物品的位置信息,将所述至少一个物品的位置信息输入至导盲装置中,使所述导盲装置进行语音播报至少一个物品的位置信息。
[0007]第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种双阶段物品检测方法,其特征在于,包括:响应于获取的样本图像集,基于至少一个标注框对所述样本图像集中的某一样本图像内包含的物品进行标注,并将标注后的样本图像输入至预设第一神经网络模型中,使输出所述至少一个标注框的预测位置信息,其中,所述预测位置信息包括所述至少一个标注框的中心点坐标值以及所述至少一个标注框的宽度值和高度值;将所述至少一个标注框的预测位置信息与所述至少一个标注框的标准信息进行比对,并基于比对结果对所述预设第一神经网络模型中的网络参数进行修正,使建立前景检测模型;响应于获取标注后的样本图像,对标注后的样本图像进行预处理,并将预处理后的样本图像输入至预设第二神经网络模型中,使输出所述至少一个标注框中某一物品所属类别的预测概率,其中,标注后的样本图像中包含某一物品的真实类别标签;基于交叉熵损失函数计算所述预测概率与所述真实类别标签之间的损失,并通过反向传播更新所述预设第二神经网络模型中的模型参数,使建立类别判断模型;响应于获取采集的实时图像,将所述实时图像输入至所述前景检测模型中,使获得前景定位信息,并基于所述前景定位信息确定所述实时图像中包含物品的至少一个预测框的位置,其中,所述前景定位信息中包含所述至少一个预测框的中心点坐标值以及所述至少一个预测框的宽度值和高度值;根据所述至少一个预测框的位置对所述实时图像进行截取,使获得至少一个预测框图像,并将所述至少一个预测框图像输入至所述类别判断模型中,输出至少一个物品的类别;响应于获取的所述前景定位信息,基于双目图像视差计算获得至少一个物品的位置信息;响应于获取的至少一个物品的位置信息,将所述至少一个物品的位置信息输入至导盲装置中,使所述导盲装置进行语音播报至少一个物品的位置信息。2.根据权利要求1所述的一种双阶段物品检测方法,其特征在于,在响应于获取的样本图像集之前,所述方法还包括:响应于获取的某一样本图像,基于Mosaic数据增强算法对所述某一样本图像进行数据扩充和数据变换,使得到样本图像集。3.根据权利要求1所述的一种双阶段物品检测方法,其特征在于,所述对标注后的样本图像进行预处理包括:按标注后的样本图像的长宽比对标注后的样本图像进行缩放,使标注后的样本图像的长度等于预设值;定义一个新的RGB格式图片,大小为224
×
224像素,设置RGB三个通道的像素值在0

255之间随机取值;将缩放后的样本图像粘贴在所述RGB格式图片的中心位置,使获得预处理后的样本图像。4.根据权利要求1所述的一种双阶段物品检测方法,其特征在于,所述前景检测模型为YOLO v5模型。5.根据权利要求1所述的一种双阶段物品检测方法,其特征在于,所述类别判断模型为VISION TRANSFORMER模型。
6.根据权利要求1所述的一种双阶段物品检测方法,其...

【专利技术属性】
技术研发人员:徐雪松于波付瑜彬
申请(专利权)人:华东交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1