一种基于二维空间编码的图像描述方法技术

技术编号:26792917 阅读:32 留言:0更新日期:2020-12-22 17:08
本发明专利技术涉及图像描述技术领域,公开了一种基于二维空间编码的图像描述方法,包括以下步骤:S1、将一幅图像送入编码器模型中进行图像特征提取,得到相应的二维特征图;S2、通过顺序位置编码、坐标位置编码或目标级的位置编码为二维特征图编码绝对位置信息;S3、根据二维特征图的绝对位置信息,将二维特征图转换为解码器能够识别的一维序列,这种基于二维空间编码的图像描述方法,能够解决图像空间位置信息丢失的问题,与现阶段一维序列不添加图像位置信息的方法相比较,图像描述效果好。

【技术实现步骤摘要】
一种基于二维空间编码的图像描述方法
本专利技术涉及图像描述
,特别涉及一种基于二维空间编码的图像描述方法。
技术介绍
随着人工智能的不断发展,计算机视觉成为人工智能领域最重要的研究方向之一,自从2006年Hinton教授在《科学》发表对于深层神经网络的训练方法以后,迎来了深度学习的蓬勃发展,也使得基于深度学习的计算机视觉成为目前人工智能最活跃的领域。视觉技术不仅需要计算机可以代替人的眼睛来“观察”事物,还必须像人的大脑一样具有“理解”事物的能力,它的挑战是使计算机和机器人开发成具有与人类水平相当的视觉能力,从而可以帮助人处理一些复杂的技术应用。当前,基于深度学习的计算机视觉被广泛应用于各个行业,其中包括智慧医疗、公共安防、无人机与自动驾驶等领域,如农产品品质检测、作物识别与分级、质量检测、地标跟踪等都为人类生活提供了越来越多的便利。图像描述(imagecaptioning)是一个融合计算机视觉、自然语言处理和机器学习的综合研究方向,它类似于将一幅图片翻译为一段描述文字,该任务对于人类来说非常容易,但对于机器却非常具有挑战性,它不仅需要利用模型去理解图片的内容并且还需要用自然语言去表达它们之间的语义关系,所以也是当前人工智能领域跨学科的研究重点和难点。图像描述是指给定一张图像,通过相应的算法不仅要理解图上有什么物体,而且要理解物体之间的相互关系,最后要用文字将其描述出来,就类似于小学生的“看图说话”题。随着机器翻译和大数据的兴起,出现了ImageCaption的研究浪潮。当前大多数的ImageCaption方法基于encoder-decoder模型,其中encoder一般为卷积神经网络(CNN),利用最后全连接层或者卷积层的特征作为图像的特征,decoder一般为递归神经网络(RNN),主要用于图像描述的生成。现在,大部分国内外知名团队在对图像描述任务进行改进时都会对“encoder-decoder”这一模型进行深入研究。为了更好的得到图像的高层语义信息,对原有的卷积神经网络进行改进,加强encoder阶段图像特征的提取;也会依据机器翻译领域的启发,对原有的递归神经网络进行改进,使得decoder模型的语言表达能力更为准确和丰富。在计算机视觉领域中,输入一幅图像中的各个目标之间固有的几何位置结构有利于对视觉信息进行推理,在图像理解的相关任务上有至关重要的影响,比如对于一幅图片中的两个目标而言,如果知道两个目标之间的相对位置关系就可以进一步提高计算机对整幅图像的理解,从而提取出更丰富的图像特征。对于图像描述而言,经过编码器对图片进行特征提取的过程,图片的相对位置关系没有发生变化,所以一般的编码器工作都没有特意给图片中的每个像素添加相应的空间位置信息。图像描述本来就是一项跨领域的研究,要将二维特征图转换成解码器能够识别的一维特征序列表示,但由于特征图没有特意标注空间位置信息,在转换成一维序列之后会打乱图像中原有每个像素点的空间位置关系,使得图像本身的位置信息丢失。
技术实现思路
本专利技术提供一种基于二维空间编码的图像描述方法,能够解决图像空间位置信息丢失的问题。本专利技术提供了一种基于二维空间编码的图像描述方法,包括以下步骤:S1、将一幅图像送入编码器模型中进行图像特征提取,得到相应的二维特征图;S2、通过顺序位置编码、坐标位置编码或目标级的位置编码为二维特征图编码绝对位置信息;S3、根据二维特征图的绝对位置信息,将二维特征图转换为解码器能够识别的一维序列。所述步骤S2中的顺序位置编码和坐标位置编码用于图像级图像描述和attention级图像描述,目标级的位置编码用于目标级图像描述。所述图像级图像描述和attention级图像描述采用EfficientNet编码器,目标级图像描述采用FasterR-CNN编码器。所述步骤S2中的顺序位置编码包括以下步骤:S21、二维特征图转换为一维序列的过程中,解码器模型具有按行读取像素点信息的特征,输入的特征图大小为m*n,按行依次给二维特征图中的m*n个像素点进行编码,得到二维特征图每个像素点的行位置信息即视觉信息V0、V1、V2…V(m*n)-2、V(m*n)-1;S22、依据编码好行位置信息的二维特征图中的像素点,每行像素都有从0到i-1共n个像素点,i=0、1、…、n-1,对第一行的n个像素点,当i=0时,就是对第一行中行位置信息为0的像素开始进行列抽取,按照i+j*n进行m次抽取,j=0、1、…、m-1,得到第1列的所有像素点;当i=1时,对第一行中行位置信息为1的像素进行列抽取,然后按照i+j*n进行m次抽取,得到第2列的所有像素点,依次类推对第一行0~i-1各像素点都按照i+j*n进行m次抽取,最终得到大小为m*n特征图的列位置信息;S23、根据二维特征图每个像素点的行位置信息和列位置信息,获得二维特征图的绝对位置信息。所述步骤S2中的坐标位置编码包括以下步骤:S21、给编码器输出的(i+1)*(i+1)特征图进行0~i的行位置编码,给第一行的i+1个像素点进行从0~i的编码,第二行的i+1个像素点进行从0~i的编码,以此类推给每一行的i+1个像素点都编码0~i,获得二维特征图的行位置信息;S22、对具有行位置编码的二维特征图进行转置操作,得到二维特征图中相应像素点的列位置信息;S23、根据二维特征图每个像素点的行位置信息和列位置信息,获得二维特征图的绝对位置信息。所述步骤S2中的目标级的位置编码包括以下步骤:S21、编码器模型FasterR-CNN通过锚框去框特征图中的目标,编码器模型FasterR-CNN计算锚框是否框到了目标,以及框到的目标的类别,置信度表示框到的目标有多大概率属于这个类别;S22、通过编码器模型FasterR-CNN提取出每个目标按照置信度排列的特征序列;S23、根据每个目标按照置信度排列的特征序列,借助编码器模型FasterR-CNN内部中心坐标的位置信息,为每个目标对象编码出相应的绝对位置信息,获得特征图的绝对位置信息。所述步骤S23中为每个目标对象编码出相应的绝对位置信息的具体过程包括以下步骤:S231、首先根据目标特征图中每个目标矩形框的坐标信息计算出矩形框的面积,使用交并比函数IOU计算出多个目标矩形框面积两两之间的重合度;S232、其次根据矩形框的位置坐标计算出多个目标相应的中心点位置,将此中心点位置进行反向映射到编码器输出的特征图即卷积特征图的相应像素点上;S233、对相应像素点进行位置编码得到多个目标的空间位置信息,从而使得编码器输出的置信度排列的一维视觉序列添加了每个目标的空间位置信息。所述步骤S231中的交并比函数IOU是一种计算目标1的矩形框面积area1和目标2的矩形框面积area2之间重合度的方法,定义为:IOU=area/(area1+area2-area)其中,交并比函数IOU值很大说明两个目标之间的重合度很高,如果交并比函数IOU本文档来自技高网
...

【技术保护点】
1.一种基于二维空间编码的图像描述方法,其特征在于,包括以下步骤:/nS1、将一幅图像送入编码器模型中进行图像特征提取,得到相应的二维特征图;/nS2、通过顺序位置编码、坐标位置编码或目标级的位置编码为二维特征图编码绝对位置信息;/nS3、根据二维特征图的绝对位置信息,将二维特征图转换为解码器能够识别的一维序列。/n

【技术特征摘要】
1.一种基于二维空间编码的图像描述方法,其特征在于,包括以下步骤:
S1、将一幅图像送入编码器模型中进行图像特征提取,得到相应的二维特征图;
S2、通过顺序位置编码、坐标位置编码或目标级的位置编码为二维特征图编码绝对位置信息;
S3、根据二维特征图的绝对位置信息,将二维特征图转换为解码器能够识别的一维序列。


2.如权利要求1所述的基于二维空间编码的图像描述方法,其特征在于,所述步骤S2中的顺序位置编码和坐标位置编码用于图像级图像描述和attention级图像描述,目标级的位置编码用于目标级图像描述。


3.如权利要求2所述的基于二维空间编码的图像描述方法,其特征在于,所述图像级图像描述和attention级图像描述采用EfficientNet编码器,目标级图像描述采用FasterR-CNN编码器。


4.如权利要求1所述的基于二维空间编码的图像描述方法,其特征在于,所述步骤S2中的顺序位置编码包括以下步骤:
S21、二维特征图转换为一维序列的过程中,解码器模型具有按行读取像素点信息的特征,输入的特征图大小为m*n,按行依次给二维特征图中的m*n个像素点进行编码,得到二维特征图每个像素点的行位置信息即视觉信息V0、V1、V2…V(m*n)-2、V(m*n)-1;
S22、依据编码好行位置信息的二维特征图中的像素点,每行像素都有从0到i-1共n个像素点,i=0、1、…、n-1,对第一行的n个像素点,当i=0时,就是对第一行中行位置信息为0的像素开始进行列抽取,按照i+j*n进行m次抽取,j=0、1、…、m-1,得到第1列的所有像素点;当i=1时,对第一行中行位置信息为1的像素进行列抽取,然后按照i+j*n进行m次抽取,得到第2列的所有像素点,依次类推对第一行0~i-1各像素点都按照i+j*n进行m次抽取,最终得到大小为m*n特征图的列位置信息;
S23、根据二维特征图每个像素点的行位置信息和列位置信息,获得二维特征图的绝对位置信息。


5.如权利要求1所述的基于二维空间编码的图像描述方法,其特征在于,所述步骤S2中的坐标位置编码包括以下步骤:
S21、给编码器输出的(i+1)*(i+1)特征图进行0~i的行位置编码...

【专利技术属性】
技术研发人员:杨小宝武君胜屈佳欣冯菲蓉
申请(专利权)人:西北工业大学西安邮电大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1