基于YOLO-RGGNet的机器人端人脸检测方法技术

技术编号:27591294 阅读:35 留言:0更新日期:2021-03-10 10:08
本发明专利技术公开了基于YOLO

【技术实现步骤摘要】
基于YOLO-RGGNet的机器人端人脸检测方法


[0001]本专利技术涉及深度学习目标检测和机器人交叉领域,尤其是涉及了基于YOLO-RGGNet的机器人端人脸检测方法。

技术介绍

[0002]在计算机视觉领域里,对人脸识别与定位对于机器人、基于手机的智能APP、智能显示器支架等应用场合都是一个不可或缺的功能。这种定位通常需要采用双目摄像机、深度摄像机、激光/微波雷达等技术实现,随之而来的是系统硬件成本和算法计算复杂度的提升。
[0003]传统的人脸识别算法包括几何特征方法、支持向量机、PCA等。几何特征方法速度快,但识别率较低。支持向量机和PCA方法准确率相对较高,但需要大量的训练样本。
[0004]近年来,基于深度学习的人脸识别方法FaceBoxes、MTCNN和FaceNet等,在精度和速度方面都有了巨大的进步,但是这类算法参数量大、资源内存消耗多、实时性不高,不易直接移植到机器人等嵌入式智能终端平台。而随着生活水平的提高,人们迫切需求一种类似于人与人之间的场景真实的人机交互方式,从机器人平台获得更好的情感体验,因而拥有人脸识别、真实情感对话的服务能力的机器人越来越引起人们的关注。如果能将深度学习和机器人结合,构建一种能根据人脸位置变动而实时进行头部转向的的易于移植的人机交互系统,将对开发具有情感和社交智能的个性化机器人方向灌入巨大的潜力,进而对未来人机交互领域产生重大的意义。

技术实现思路

[0005]针对现有技术的不足,本专利技术提出了基于YOLO-RGGNet的机器人端人脸检测方法,能高效识别出自然环境中人脸并且在机器人平台检测速度快、鲁棒性高。
[0006]基于YOLO-RGGNet的机器人端人脸检测方法,具体包括以下步骤:
[0007]步骤1、建立数据集
[0008]从互联网采集或者拍摄自然场景下的人脸图片,并对图像进行预处理操作扩充数据后划分训练集和验证集,然后标注图像中人脸框的高度、宽度和左上角坐标。
[0009]作为优选,对图像进行预处理的操作包括几何变换、高斯模糊和亮度对比度随机调节。
[0010]步骤2、构建分类预测网络模型
[0011]s2.1、构建特征提取部分
[0012]使用5个RGGBlock残差模块代替YOLOv3网络中原有的5个残差块和下采样模块,构建轻量化的DarkRGGNet-44特征提取网络,网络结构依次为3x3卷积块Conv0和5个RGGBlock残差模块;RGGBlock残差模块包括一个RGGNet下采样残差单元块和多个RGGNet残差单元,5个RGGBlock残差模块中RGGNet残差单元的个数依次为1、2、2、2、1个。RGGNet残差单元的结构为将输入的特征依次经过RGG module1、BN层、RELU激活层、RGG module2和BN层后再与恒
等映射后的输入特征进行通道拼接操作;RGGNet下采样残差单元块的结构为在RGGNet残差单元的RELU激活层后依次插入1个步长为2的深度可分离卷积、BN层和RELU激活层。
[0013]其中,RGG module将通道数为C的输入特征图P
in
特征分离为通道数为εC的特征图P
rep
和通道数为(1-ε)C的特征图P
red
,再使用1x1的卷积块提取特征图P
red
的隐含细节信息,将其与使用Group-Ghost module提取P
rep
得到的重要信息进行通道拼接。Group-Ghost module将Ghost module的本征特征图分为K组后先经过1x1的卷积块得到多样化的特征图后再进行一次Ghost操作生成多个随机特征,再将随机特征与经过恒等映射的本征特征进行拼接。
[0014]s2.2、构建预测部分
[0015]将YOLOv3原FPN网络中52x52预测层和26x26预测层中的“concat+CBL*5”模块替换为CEC模块,并将52x52预测层中CEC模块的输出输入到26x26预测层的CEC模块中。将26x26预测层的CEC模块的输出与13x13预测层的CBL*5操作的输出一同输入到13x13预测层的CEC模块后,再将结果与第5个RGGBlock残差模块的输出经过RFA模块后加权相加,再经过CBL和CONV操作后作为13x13预测层的输出。
[0016]所述CEC模块包括concat操作、eSENet模块和CBLx5操作;其中eSENet模块的结构为:将输入的特征依次经过全局平均池化、全连接层和Sigmoid操作将通道中的空间特征编码为1x1的全局特征,然后与恒等映射后的输入特征进行点加权操作,计算公式为:
[0017][0018]其中F为输入特征图,σ为sigmoid函数,H、W分别为特征图高度和宽度,
·
表示加权相加,FC为全连接层操作。
[0019]所述RFA模块通过自适应池化模块将尺度为s的输入特征图更改为不同尺度的N个上下文特征,然后通过1x1的卷积操作对N个不同尺度的上下文特征进行通道降维,再通过上采样模块将其统一放大到s尺度,最后通过ASF模块进行空间融合后输出。
[0020]所述ASF模块的结构为:将输入的特征依次经过通道合并操作、1x1的卷积操作、3x3的卷积操作和通道分离操作后与恒等映射后的输入特征进行通道特征增强操作后输出。
[0021]RFA模块的计算公式为:
[0022][0023]其中F为输入特征图,a
i
为自适应尺度参数,表示通道特征增强操作,CU
n
表示对第n个特征图进行CONV降维操作+UPSA下采样操作,CAT为通道拼接操作。
[0024]步骤3、模型训练与优化
[0025]向步骤2中构建的分类预测网络模型输入训练集进行迭代训练,并在每次迭代完成时进行验证,保存当前模型的权重文件与此前训练中最好的模型权重文件,使用Adam算法对模型进行优化,当迭代次数为60、80、100或120时,进行学习率衰减,计算公式为:
[0026][0027]其中α

表示衰减后的学习率,α表示初始学习率,r表示衰减率,epoch为当前训练的迭代次数,start表示开始进行学习率衰减的迭代次数,v表示衰减速度。
[0028]训练达到设置的迭代次数时,结束训练,并保存最好的模型权重文件。
[0029]作为优选,设置初始学习率α为0.01,衰减率r为0.9,衰减速度v为5。
[0030]作为优选,设置的迭代次数为300次。
[0031]步骤4、模型测试
[0032]使用移动端机器人的摄像头对周围环境进行实时录像,通过步骤3训练优化好的分类预测网络模型对采集的视频帧图像进行分析,输出图像中人脸框的高度、宽度以及左上角坐标。
[0033]步骤5、目标定位与人机交互
[0034]采用TriF-Map方法将分类预测模型输出的人脸框位置信息本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于YOLO-RGGNet的机器人端人脸检测方法,其特征在于:具体包括以下步骤:步骤1、建立数据集从互联网采集或者拍摄自然场景下的人脸图片,并对图像进行预处理操作扩充数据后划分训练集和验证集,然后标注图像中人脸框的中心点坐标以及4个顶点的坐标;步骤2、构建分类预测网络模型s2.1、构建特征提取部分使用5个RGGBlock残差模块代替YOLOv3网络中原有的5个残差块和下采样模块,构建轻量化的DarkRGGNet-44特征提取网络,网络结构依次为3x3卷积块Conv0和5个RGGBlock残差模块;RGGBlock残差模块包括一个RGGNet下采样残差单元块和多个RGGNet残差单元,5个RGGBlock残差模块中RGGNet残差单元的个数依次为1、2、2、2、1个;RGGNet残差单元的结构为将输入的特征依次经过RGG module1、BN层、RELU激活层、RGG module2和BN层后再与恒等映射后的输入特征进行通道拼接操作;RGGNet下采样残差单元块的结构为在RGGNet残差单元的RELU激活层后依次插入1个步长为2的深度可分离卷积、BN层和RELU激活层;其中,RGG module将通道数为C的输入特征图P
in
特征分离为通道数为εC的特征图P
rep
和通道数为(1-ε)C的特征图P
red
,再使用1x1的卷积块提取特征图P
red
的隐含细节信息,将其与使用Group-Ghost module提取P
rep
得到的重要信息进行通道拼接;Group-Ghost module将Ghost module的本征特征图分为K组后先经过1x1的卷积块得到多样化的特征图后再进行一次Ghost操作生成多个随机特征,再将随机特征与经过恒等映射的本征特征进行拼接;s2.2、构建预测部分将YOLOv3原FPN网络中52x52预测层和26x26预测层中的“concat+CBL*5”模块替换为CEC模块,并将52x52预测层中CEC模块的输出输入到26x26预测层的CEC模块中;将26x26预测层的CEC模块的输出与13x13预测层的CBL*5操作的输出一同输入到CEC模块后,再将结果与第5个RGGBlock残差模块的输出经过RFA模块后加权相加,再经过CBL和CONV操作后作为13x13预测层的输出;所述CEC模块包括concat操作、eSENet模块和CBLx5操作;其中eSENet模块的结构为:将输入的特征依次经过全局平均池化、全连接层和Sigmoid操作将通道中的空间特征编码为1x1的全局特征,然后与恒等映射后的输入特征进行点加权操作;所述RFA模块通过自适应池化模块将尺度为s的输入特征图更改为不同尺度的N个上下文特征,然后通过1x1的卷积操作对N个不同尺度的上下文特征进行通道降维,再通过上采样模块将其统一放大到s尺度,最后通过ASF模块进行空间融合后输出;所述ASF模块的结构为:将输入的特征依次经过通道合并操作、1x1的卷积操作、...

【专利技术属性】
技术研发人员:何志伟陈志民董哲康高明煜
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1