基于卷积神经网络识别单词的方法和装置制造方法及图纸

技术编号:22388002 阅读:104 留言:0更新日期:2019-10-29 06:42
本发明专利技术提供了一种基于卷积神经网络识别单词的方法和装置。该方法包括采用卷积神经网络模型对原始图像进行特征提取以输出第一特征图;将第一特征图在高度维度上切片以得到多个第二特征图;分别自上而下、自下而上对多个第二特征图进行卷积和相加运算以得到第三特征图;将第三特征图在宽度维度上切片以得到多个第四特征图;分别自左向右、自右向左对多个第四特征图进行卷积和相加运算以得到第五特征图;通过平均池化和全连接的方式将第五特征图映射到单词相似性概率空间以得到第一单词语义空间特征图;采用时序分类算法求解第一单词语义空间特征图对应的最优的单词序列,从而利用上下文空间序列学习卷积神经网络,充分探索图像中上下文的语义关系。

Method and device of word recognition based on convolution neural network

【技术实现步骤摘要】
基于卷积神经网络识别单词的方法和装置
本专利技术涉及卷积神经网络
,具体涉及一种基于卷积神经网络识别单词的方法和装置。
技术介绍
现有的任意长度单词识别方法中在深度神经网络中使用空间信息通常采用两种方式,一种为使用长短期记忆网络(LongShort-TermMemory,LSTM)变体探索上下文语义信息,但该方法不易训练而且计算消耗较大;另一种为使用循环神经网络(RecurrentNeuralNetwork,RNN)按照每行和列传递信息,但特征图上的每个点只能接受最邻近的同一行或列的信息,无法探索到更加丰富的空间层次。
技术实现思路
有鉴于此,本专利技术实施例提供一种基于卷积神经网络识别单词的方法和装置,能够有效克服现有技术中学习空间语义的相互关系时参数量大、耗时、不易训练的缺点,同时可探索更加丰富的空间层次,使序列特征分类的更加准确。在本专利技术实施例的第一方面,本专利技术实施例提供了一种基于卷积神经网络识别单词的方法,包括:采用卷积神经网络模型对原始图像进行特征提取以输出第一特征图;将第一特征图在高度维度上切片以得到多个第二特征图;分别自上而下、自下而上对多个第二特征图进行卷积和相加运算以得到第三特征图;将第三特征图在宽度维度上切片以得到多个第四特征图;分别自左向右、自右向左对多个第四特征图进行卷积和相加运算以得到第五特征图;通过平均池化和全连接的方式将第五特征图映射到单词相似性概率空间以得到第一单词语义空间特征图;采用时序分类算法求解第一单词语义空间特征图对应的最优的单词序列。在本专利技术一实施例中,第一特征图的尺寸为C*H*W1,C为通道数,H为高度,W1为宽度,上述将第一特征图在高度维度上切片以得到多个第二特征图,包括:将第一特征图在高度维度上切片成第二特征图1、第二特征图2、第二特征图3…第二特征图H共H个单片的第二特征图,其中,上述分别自上而下、自下而上对多个第二特征图进行卷积和相加运算以得到第三特征图,包括:将第二特征图1作为输入,自上而下对H个单片的第二特征图进行卷积和相加运算以获得新的第二特征图1、新的第二特征图2、新的第二特征图3…新的第二特征图H;将新的第二特征图H作为输入,自下而上对新的第二特征图1、新的第二特征图2、新的第二特征图3…新的第二特征图H进行卷积和相加运算以得到第三特征图。在本专利技术一实施例中,上述通过平均池化和全连接的方式将第五特征图映射到单词相似性概率空间中以得到第一单词语义空间特征图之后,所述方法还包括:对第一单词语义空间特征图进行Softmax计算以得到第二单词语义空间特征图,其中,上述采用时序分类算法求解第一单词语义空间特征图对应的最优的单词序列,包括:采用时序分类算法求解第二单词语义空间特征图对应的最优的单词序列。在本专利技术一实施例中,第一特征图的尺寸为C*H*W1,C为通道数,H为高度,W1为宽度,上述通过平均池化和全连接的方式将第五特征图映射到单词相似性概率空间以得到第一单词语义空间特征图,包括:将第五特征图在高度维度上进行平均池化以得到平均池化后的第五特征图,平均池化后的第五特征图的尺寸为C*1*W1;采用全连接的方式将平均池化后的第五特征图映射到单词相似性概率空间以得到第一单词语义空间特征图,第一单词语义空间特征图的尺寸为W2*N,其中,W2为将平均池化后的第五特征图映射到单词相似性概率空间后输出的特征图的宽,N为单词的类别数目。在本专利技术一实施例中,时序分类算法包括连接时序分类算法或framewise分类算法。在本专利技术一实施例中,当时序分类算法为连接时序分类算法时,上述采用时序分类算法求解第一单词语义空间特征图对应的最优的单词序列,包括:采用连接时序分类算法对第一单词语义空间特征图进行指导训练;采用连接时序分类算法中的最优路径解码求解第一单词语义空间特征图对应的最优的单词序列。在本专利技术一实施例中,卷积神经网络模型包括AlexNet模型或VGG模型。在本专利技术一实施例中,VGG模型包括VGG11模型、VGG13模型、VGG16模型或VGG19模型。在本专利技术实施例的第二方面,本专利技术实施例提供了一种基于卷积神经网络识别单词的装置,包括:提取模块,用于采用卷积神经网络模型对原始图像进行特征提取以输出第一特征图;第一切片模块,用于将第一特征图在高度维度上切片以得到多个第二特征图;第一卷积和相加运算模块,用于分别自上而下、自下而上对多个第二特征图进行卷积和相加运算以得到第三特征图;第二切片模块,用于将第三特征图在宽度维度上切片以得到多个第四特征图;第二卷积和相加运算模块,用于分别自左向右、自右向左对多个第四特征图进行卷积和相加运算以得到第五特征图;第一映射模块,用于通过平均池化和全连接的方式将第五特征图映射到单词相似性概率空间以得到第一单词语义空间特征图;求解模块,用于采用时序分类算法求解第一单词语义空间特征图对应的最优的单词序列。在本专利技术实施例的第三方面,本专利技术实施例提供一种计算机可读存储介质,其上存储有计算机可执行指令,上述可执行指令被处理器执行时实现如本专利技术实施例的第一方面中的任一项所述的基于卷积神经网络识别单词的方法。根据本专利技术实施例提供的技术方案,通过采用卷积神经网络模型对原始图像进行特征提取以输出第一特征图;将第一特征图在高度维度上切片以得到多个第二特征图;分别自上而下、自下而上对多个第二特征图进行卷积和相加运算以得到第三特征图;将第三特征图在宽度维度上切片以得到多个第四特征图;分别自左向右、自右向左对多个第四特征图进行卷积和相加运算以得到第五特征图;通过平均池化和全连接的方式将第五特征图映射到单词相似性概率空间以得到第一单词语义空间特征图;采用时序分类算法求解第一单词语义空间特征图对应的最优的单词序列,从而实现利用上下文空间序列深度学习卷积神经网络,充分探索图像的行和列的上下文的语义关系,使序列特征分类的更加准确。附图说明图1是本专利技术一实施例提供的一种基于卷积神经网络识别单词的方法的流程示意图。图2是本专利技术另一实施例提供的一种基于卷积神经网络识别单词的方法的流程示意图。图3是本专利技术一实施例提供的一种将第一特征图转换成第五特征图的的流程示意图。图4是本专利技术一实施例提供的一种基于卷积神经网络识别单词的装置的结构示意图。图5是本专利技术一实施例提供的一种基于卷积神经网络识别单词的系统的框图。具体实施方式下面将结合本专利技术实施例中所需要使用的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显而易见地,下面描述的附图仅是本专利技术一部分实施例,而不是全部的实施例。需要说明的是,基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有相关实施例,都属于本专利技术保护的范围。本专利技术实施例中提供了一种基于卷积神经网络识别单词的方法和装置,以下分别进行详细说明。图1是本专利技术一实施例提供的一种基于卷积神经网络识别单词的方法的流程示意图。该方法可以由服务器或处理器等执行,以服务器作为执行主体为例。如图1所示,该方法包括以下步骤。S110:采用卷积神经网络模型对原始图像进行特征提取以输出第一特征图。具体而言,服务器接收用户输入的原始图像,服务器采用卷积神经网络模型对原始图像进行特征提取,从而输出第一特征图。卷积神经网络模型可以是视觉几何组(VisualGeom本文档来自技高网...

【技术保护点】
1.一种基于卷积神经网络识别单词的方法,其特征在于,包括:采用卷积神经网络模型对原始图像进行特征提取以输出第一特征图;将所述第一特征图在高度维度上切片以得到多个第二特征图;分别自上而下、自下而上对所述多个第二特征图进行卷积和相加运算以得到第三特征图;将所述第三特征图在宽度维度上切片以得到多个第四特征图;分别自左向右、自右向左对所述多个第四特征图进行卷积和相加运算以得到第五特征图;通过平均池化和全连接的方式将所述第五特征图映射到单词相似性概率空间中以得到第一单词语义空间特征图;采用时序分类算法求解所述第一单词语义空间特征图对应的最优的单词序列。

【技术特征摘要】
1.一种基于卷积神经网络识别单词的方法,其特征在于,包括:采用卷积神经网络模型对原始图像进行特征提取以输出第一特征图;将所述第一特征图在高度维度上切片以得到多个第二特征图;分别自上而下、自下而上对所述多个第二特征图进行卷积和相加运算以得到第三特征图;将所述第三特征图在宽度维度上切片以得到多个第四特征图;分别自左向右、自右向左对所述多个第四特征图进行卷积和相加运算以得到第五特征图;通过平均池化和全连接的方式将所述第五特征图映射到单词相似性概率空间中以得到第一单词语义空间特征图;采用时序分类算法求解所述第一单词语义空间特征图对应的最优的单词序列。2.如权利要求1所述的方法,其特征在于,所述第一特征图的尺寸为C*H*W1,C为通道数,H为高度,W1为宽度,所述将所述第一特征图在高度维度上切片以得到多个第二特征图,包括:将所述第一特征图在高度维度上切片成第二特征图1、第二特征图2、第二特征图3…第二特征图H共H个单片的第二特征图,其中,所述分别自上而下、自下而上对所述多个第二特征图进行卷积和相加运算以得到第三特征图,包括:将所述第二特征图1作为输入,自上而下对所述H个单片的第二特征图进行卷积和相加运算以获得新的第二特征图1、新的第二特征图2、新的第二特征图3…新的第二特征图H;将所述新的第二特征图H作为输入,自下而上对所述新的第二特征图1、新的第二特征图2、新的第二特征图3…新的第二特征图H进行卷积和相加运算以得到所述第三特征图。3.如权利要求1所述的方法,其特征在于,所述通过平均池化和全连接的方式将所述第五特征图映射到单词相似性概率空间中以得到第一单词语义空间特征图之后,所述方法还包括:对所述第一单词语义空间特征图进行Softmax计算以得到第二单词语义空间特征图,其中,所述采用时序分类算法求解所述第一单词语义空间特征图对应的最优的单词序列,包括:采用时序分类算法求解所述第二单词语义空间特征图对应的最优的单词序列。4.如权利要求1中所述的方法,其特征在于,所述第一特征图的尺寸为C*H*W1,C为通道数,H为高度,W1为宽度,所述通过平均池化和全连接的方式将所述第五特征图映射到单词相似性概率空间中以得到第一单词语义空间特征图,包括:将所述第五特...

【专利技术属性】
技术研发人员:张韵东黄发亮刘小涛
申请(专利权)人:北京中星微电子有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1