一种基于注意力的分块化目标检测方法技术

技术编号:15640445 阅读:97 留言:0更新日期:2017-06-16 05:58
一种基于注意力的分块化目标检测方法,首先对一幅图片,确定关注焦点,首次随机指定,找到感兴趣的小区域,然后以此为中心,创建三幅成比例大小的图片块,然后缩放到同一尺寸;将得到的三幅图片输入到递归神经网络,然后递归网络产生两个输出,一个输出进入定位网络产生定位信息,用于再次确定图片中的感兴趣目标焦点;另一个输入全连接网络用于确定本次产生的图片块是否是一个物体,如果是则反馈为1,如果不是反馈为0,作为增强学习的信号。

【技术实现步骤摘要】
一种基于注意力的分块化目标检测方法
本专利技术属于图像信息数据处理
,涉及图像信息数据处理技术在深度学习、视频分析、目标检测领域的应用。
技术介绍
深度卷积神经网络在物体监测识别领域取得了目前最好的成绩,设计用来处理多维数组数据,使用4个关键的想法来利用自然信号的属性:局部连接、权值共享、池化以及多网络层的使用。在目标检测上,主要使用selectivesearch等方法对可能存在目标区域,提取出候选,然后输入卷积神经网络,由于每张图片要产生数千个候选,然后将每个候选输入卷积神经网络,这样速度上大大变慢。谷歌的deepmind团队提出了一种模仿人类视觉的学习过程,按照注意力逐个处理,学习过程通过不断试错,加强正确学习的反馈,以期求得最大回报,目前只是应用到字母、数字识别等简单应用。
技术实现思路
现在物体识别领域,微软提出的fast-rcnn模型,在image-net数据集上效果最好,但是需要输入图片是固定尺寸的,本专利技术的目的是提供一种基于注意力的分块化目标检测方法,利用增强学习扩展faster-rcnn,使得输入图片尺寸可以任意大小。本专利技术的技术方案如下:一种基于注意力的分块化目标检测方法,其特征在于:(1)构建感受器网络;输入图片的中心点定义为(0,0),左上角定位为(-1,-1),采集图片的一个目标,构成三个多分辨率的图片块,输入到全连接网络,同时定位目标直接输入一个全连接网络,将两个网络的输出同时输入到下一个全连接网络,得到输出,作为下步递归神经网络的输入;(2)构建递归神经网络:得到感受器网络的输出,以及上次递归网络的输出作为输入,进入内部状态,再输出联结全连接网络,得到定位输出,与原始输入图片一起再次流入感受器网络,内部状态还要流入全连接网络判断是否含有物体,作为奖励,循环进行这一过程直到所有物体都已经找到或者达到指定次数;(3)感受器网络经过多次循环得到的很多的目标候选,输入到fast-rcnn模型,确定类别和位置,其中fast-rcnn模型已经在image-net上面进行预训练。本专利技术综合了基于注意力、递归神经网络、增强学习、卷积神经神经网络等目前的主流模型与方法,解决的faster-rcnn的缺陷:输入图片需要固定大小,速度大大提升,同时保证准确率。具体实施方式应用卷积神经网络处理大尺寸的图片,计算量是十分巨大的,人眼处理图片是基于注意力的,这样有重点的识别,而不是对看到的一幅图整体部分重点的处理。同时,人的学习过程还是一个不断加强正确认识,错误逐渐降低的过程,增强学习就是模仿这个原理。首先对一幅图片,确定关注焦点,首次随机指定,找到感兴趣的小区域,然后以此为中心,创建三幅成比例大小的图片块,然后缩放到同一尺寸,这也就是人眼一瞥。将得到的三幅图片输入到递归神经网络,然后递归网络产生两个输出,一个输出进入定位网络产生定位信息Lt,用于再次确定图片中的感兴趣目标焦点;另一个输入全连接网络用于确定本次产生的图片块是否是一个物体,如果是则反馈为1,如果不是反馈为0,作为增强学习的信号。本专利技术的增强学习过程为,根据以前的图片焦点,选择下次的焦点,从而产生了一个是否含有物体的奖励,学习的目标是求取奖励最大化。奖励经过若干次循环以后,得到很多含有物体的图片块,作为fast-rcnn模型的输入,输出目标分类和位置坐标,在此之前fast-rcnn在image-net上面做了预训练。递归神经网络的内部状体就是图片块和定位信息Lt的一种编码表达,两个输出就是增强学习所要学习的随机策略,移动到某下一定位位置,以及所获得的奖励。(1)构建感受器网络。输入图片的中心点定义为(0,0),左上角定位(-1,-1)采集图片的一个目标,构成三个多分辨率的图片块,输入到全连接网络,同时定位目标直接输入一个全连接网络,将两个网络的输出同时输入到下一个全连接网络,得到输出,作为下步递归神经网络的输入,即g=Rect(Linear(hg)+Linear(hl))。(2)构建递归神经网络。得到感受器网络的输出,以及上次递归网络的输出作为输入,进入内部状态,再输出联结全连接网络,得到定位输出,与原始输入图片一起再次流入感受器网络,内部状态还要流入全连接网络判断是否含有物体,作为奖励,R=sum(r1+r2+r3+...),循环进行这一过程直到所有物体都已经找到或者达到指定次数。(3)感受器网络经过多次循环得到的很多的目标候选,输入到fast-rcnn模型,确定类别和位置,其中fast-rcnn模型已经在image-net上面进行预训练。本文档来自技高网...

【技术保护点】
一种基于注意力的分块化目标检测方法,其特征在于:(1)构建感受器网络;输入图片的中心点定义为(0,0),左上角定位为(‑1,‑1),采集图片的一个目标,构成三个多分辨率的图片块,输入到全连接网络,同时定位目标直接输入一个全连接网络,将两个网络的输出同时输入到下一个全连接网络,得到输出,作为下步递归神经网络的输入;(2)构建递归神经网络:得到感受器网络的输出,以及上次递归网络的输出作为输入,进入内部状态,再输出联结全连接网络,得到定位输出,与原始输入图片一起再次流入感受器网络,内部状态还要流入全连接网络判断是否含有物体,作为奖励,循环进行这一过程直到所有物体都已经找到或者达到指定次数;(3)感受器网络经过多次循环得到的很多的目标候选,输入到fast‑rcnn模型,确定类别和位置。

【技术特征摘要】
1.一种基于注意力的分块化目标检测方法,其特征在于:(1)构建感受器网络;输入图片的中心点定义为(0,0),左上角定位为(-1,-1),采集图片的一个目标,构成三个多分辨率的图片块,输入到全连接网络,同时定位目标直接输入一个全连接网络,将两个网络的输出同时输入到下一个全连接网络,得到输出,作为下步递归神经网络的输入;(2)构建递归神经网络:得...

【专利技术属性】
技术研发人员:钟南成健张建伟张丹普张晓林王亚静
申请(专利权)人:北京航天长峰科技工业集团有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1