一种基于二维空间编码的图像描述方法技术

技术编号：26792917 阅读：32 留言：0更新日期：2020-12-22 17:08

本发明专利技术涉及图像描述技术领域，公开了一种基于二维空间编码的图像描述方法，包括以下步骤：S1、将一幅图像送入编码器模型中进行图像特征提取，得到相应的二维特征图；S2、通过顺序位置编码、坐标位置编码或目标级的位置编码为二维特征图编码绝对位置信息；S3、根据二维特征图的绝对位置信息，将二维特征图转换为解码器能够识别的一维序列，这种基于二维空间编码的图像描述方法，能够解决图像空间位置信息丢失的问题，与现阶段一维序列不添加图像位置信息的方法相比较，图像描述效果好。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于二维空间编码的图像描述方法
本专利技术涉及图像描述
，特别涉及一种基于二维空间编码的图像描述方法。
技术介绍
随着人工智能的不断发展，计算机视觉成为人工智能领域最重要的研究方向之一，自从2006年Hinton教授在《科学》发表对于深层神经网络的训练方法以后，迎来了深度学习的蓬勃发展，也使得基于深度学习的计算机视觉成为目前人工智能最活跃的领域。视觉技术不仅需要计算机可以代替人的眼睛来“观察”事物，还必须像人的大脑一样具有“理解”事物的能力，它的挑战是使计算机和机器人开发成具有与人类水平相当的视觉能力，从而可以帮助人处理一些复杂的技术应用。当前，基于深度学习的计算机视觉被广泛应用于各个行业，其中包括智慧医疗、公共安防、无人机与自动驾驶等领域，如农产品品质检测、作物识别与分级、质量检测、地标跟踪等都为人类生活提供了越来越多的便利。图像描述(imagecaptioning)是一个融合计算机视觉、自然语言处理和机器学习的综合研究方向，它类似于将一幅图片翻译为一段描述文字，该任务对于人类来说非常容易，但对于机器却非常具有挑战性，它不仅需要利用模型去理解图片的内容并且还需要用自然语言去表达它们之间的语义关系，所以也是当前人工智能领域跨学科的研究重点和难点。图像描述是指给定一张图像，通过相应的算法不仅要理解图上有什么物体，而且要理解物体之间的相互关系，最后要用文字将其描述出来，就类似于小学生的“看图说话”题。随着机器翻译和大数据的兴起，出现了ImageCaption的研究浪潮。当前大多数的ImageCaption方法基...

【技术保护点】
1.一种基于二维空间编码的图像描述方法，其特征在于，包括以下步骤：/nS1、将一幅图像送入编码器模型中进行图像特征提取，得到相应的二维特征图；/nS2、通过顺序位置编码、坐标位置编码或目标级的位置编码为二维特征图编码绝对位置信息；/nS3、根据二维特征图的绝对位置信息，将二维特征图转换为解码器能够识别的一维序列。/n

【技术特征摘要】
1.一种基于二维空间编码的图像描述方法，其特征在于，包括以下步骤：
S1、将一幅图像送入编码器模型中进行图像特征提取，得到相应的二维特征图；
S2、通过顺序位置编码、坐标位置编码或目标级的位置编码为二维特征图编码绝对位置信息；
S3、根据二维特征图的绝对位置信息，将二维特征图转换为解码器能够识别的一维序列。

2.如权利要求1所述的基于二维空间编码的图像描述方法，其特征在于，所述步骤S2中的顺序位置编码和坐标位置编码用于图像级图像描述和attention级图像描述，目标级的位置编码用于目标级图像描述。

3.如权利要求2所述的基于二维空间编码的图像描述方法，其特征在于，所述图像级图像描述和attention级图像描述采用EfficientNet编码器，目标级图像描述采用FasterR-CNN编码器。

4.如权利要求1所述的基于二维空间编码的图像描述方法，其特征在于，所述步骤S2中的顺序位置编码包括以下步骤：
S21、二维特征图转换为一维序列的过程中，解码器模型具有按行读取像素点信息的特征，输入的特征图大小为m*n，按行依次给二维特征图中的m*n个像素点进行编码，得到二维特征图每个像素点的行位置信息即视觉信息V0、V1、V2…V(m*n)-2、V(m*n)-1；
S22、依据编码好行位置信息的二维特征图中的像素点，每行像素都有从0到i-1共n个像素点，i＝0、1、…、n-1，对第一行的n个像素点，当i＝0时，就是对第一行中行位置信息为0的像素开始进行列抽取，按照i+j*n进行m次抽取，j＝0、1、…、m-1，得到第1列的所有像素点；当i＝1时，对第一行中行位置信息为1的像素进行列抽取，然后按照i+j*n进行m次抽取，得到第2列的所有像素点，依次类推对第一行0～i-1各像素点都按照i+j*n进行m次抽取，最终得到大小为m*n特征图的列位置信息；
S23、根据二维特征图每个像素点的行位置信息和列位置信息，获得二维特征图的绝对位置信息。

5.如权利要求1所述的基于二维空间编码的图像描述方法，其特征在于，所述步骤S2中的坐标位置编码包括以下步骤：
S21、给编码器输出的(i+1)*(i+1)特征图进行0～i的行位置编码...

【专利技术属性】
技术研发人员：杨小宝，武君胜，屈佳欣，冯菲蓉，
申请(专利权)人：西北工业大学，西安邮电大学，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人