【技术实现步骤摘要】
一种基于注意力的分块化目标检测方法
本专利技术属于图像信息数据处理
,涉及图像信息数据处理技术在深度学习、视频分析、目标检测领域的应用。
技术介绍
深度卷积神经网络在物体监测识别领域取得了目前最好的成绩,设计用来处理多维数组数据,使用4个关键的想法来利用自然信号的属性:局部连接、权值共享、池化以及多网络层的使用。在目标检测上,主要使用selectivesearch等方法对可能存在目标区域,提取出候选,然后输入卷积神经网络,由于每张图片要产生数千个候选,然后将每个候选输入卷积神经网络,这样速度上大大变慢。谷歌的deepmind团队提出了一种模仿人类视觉的学习过程,按照注意力逐个处理,学习过程通过不断试错,加强正确学习的反馈,以期求得最大回报,目前只是应用到字母、数字识别等简单应用。
技术实现思路
现在物体识别领域,微软提出的fast-rcnn模型,在image-net数据集上效果最好,但是需要输入图片是固定尺寸的,本专利技术的目的是提供一种基于注意力的分块化目标检测方法,利用增强学习扩展faster-rcnn,使得输入图片尺寸可以任意大小。本专利技术的技术方案如下:一种基于注意力的分块化目标检测方法,其特征在于:(1)构建感受器网络;输入图片的中心点定义为(0,0),左上角定位为(-1,-1),采集图片的一个目标,构成三个多分辨率的图片块,输入到全连接网络,同时定位目标直接输入一个全连接网络,将两个网络的输出同时输入到下一个全连接网络,得到输出,作为下步递归神经网络的输入;(2)构建递归神经网络:得到感受器网络的输出,以及上次递归网络的输出作为输入,进入内 ...
【技术保护点】
一种基于注意力的分块化目标检测方法,其特征在于:(1)构建感受器网络;输入图片的中心点定义为(0,0),左上角定位为(‑1,‑1),采集图片的一个目标,构成三个多分辨率的图片块,输入到全连接网络,同时定位目标直接输入一个全连接网络,将两个网络的输出同时输入到下一个全连接网络,得到输出,作为下步递归神经网络的输入;(2)构建递归神经网络:得到感受器网络的输出,以及上次递归网络的输出作为输入,进入内部状态,再输出联结全连接网络,得到定位输出,与原始输入图片一起再次流入感受器网络,内部状态还要流入全连接网络判断是否含有物体,作为奖励,循环进行这一过程直到所有物体都已经找到或者达到指定次数;(3)感受器网络经过多次循环得到的很多的目标候选,输入到fast‑rcnn模型,确定类别和位置。
【技术特征摘要】
1.一种基于注意力的分块化目标检测方法,其特征在于:(1)构建感受器网络;输入图片的中心点定义为(0,0),左上角定位为(-1,-1),采集图片的一个目标,构成三个多分辨率的图片块,输入到全连接网络,同时定位目标直接输入一个全连接网络,将两个网络的输出同时输入到下一个全连接网络,得到输出,作为下步递归神经网络的输入;(2)构建递归神经网络:得...
【专利技术属性】
技术研发人员:钟南,成健,张建伟,张丹普,张晓林,王亚静,
申请(专利权)人:北京航天长峰科技工业集团有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。