图片问答方法及装置制造方法及图纸

技术编号:17940234 阅读:25 留言:0更新日期:2018-05-15 20:32
本公开是关于一种图片问答方法及装置,包括接收图片和与所述图片相关的问题;通过CNN提取所述图片的图像特征向量;通过第一RNN提取所述问题的编码特征向量;将所述图像特征向量和所述编码特征向量进行拼接,得到联合特征向量;通过解码神经网络对所述联合特征向量进行解码,生成所述问题的答案;其中,所述CNN、第一RNN和解码神经网络是在三者作为整体网络的情况下,以端到端的方式训练得到的神经网络。根据本公开实施例的图片问答方法及装置能够生成与图片相关的问题的答案,且各步骤采用的CNN、第一RNN和解码神经网络是在三者作为一个整体的情况下,进行端到端的训练下得到的,消除了累计误差,提高了问答的准确率。

Photo Q & a method and device

The present disclosure is about a method and device for a question and answer of a picture, including receiving pictures and problems related to the picture; extracting the image feature vector of the picture by CNN; extracting the encoding feature vector of the problem by the first RNN; splicing the image feature vector with the code feature vector to get the union. The characteristic vector is decoded by decoding the neural network to generate the answers to the problem; the CNN, the first RNN and the decoded neural network are the neural networks trained by the end to end in the case of the three as a whole network. The picture question answering method and device according to the present disclosure can generate an answer to the problem related to the picture, and the CNN, the first RNN and the decoded neural network adopted by each step are obtained under the end to end training under the condition of the three as a whole, eliminating the error of the tired meter and improving the accuracy of the question and answer.

【技术实现步骤摘要】
图片问答方法及装置
本公开涉及信息处理
,尤其涉及图片问答方法及装置。
技术介绍
随着信息处理技术的发展,智能问答技术受到越来越多的关注,智能问答系统可以以一问一答的形式自动回答用户提出的问题。例如,针对图片的问答系统,就是向该问答系统提供一个图片和针对该图片的问题,智能问答系统可以自动的回答该问题。这样可以帮助视觉障碍者了解世界。相关技术中,智能问答系统提供的答案的准确率较低。
技术实现思路
为克服相关技术中存在的问题,本公开提供一种图片问答方法及装置,能够针对图片的问题,提供较为准确的答案。根据本公开实施例的第一方面,提供一种图片问答方法,包括:接收图片和与所述图片相关的问题;通过CNN提取所述图片的图像特征向量;通过第一循RNN提取所述问题的编码特征向量;将所述图像特征向量和所述编码特征向量进行拼接,得到联合特征向量;通过解码神经网络对所述联合特征向量进行解码,生成所述问题的答案;其中,所述CNN、第一RNN和解码神经网络是在三者作为整体网络的情况下,以端到端的方式训练得到的神经网络。在一种可能的实现方式中,通过CNN提取所述图片的图像特征向量包括:将接收到的图片缩放到固定尺寸,得到标准图像;将所述标准图像输入CNN中;将所述CNN的输出结果,确定为所述图片的图像特征向量。在一种可能的实现方式中,通过第一RNN提取所述问题的编码特征向量包括:将所述问题进行分词,得到所述问题对应的词嵌入序列;将所述词嵌入序列输入所述第一RNN中;将所述第一RNN的输出结果,确定为所述问题的编码特征向量。在一种可能的实现方式中,所述解码神经网络为多层神经网络MLP,通过解码神经网络对所述联合特征向量进行解码,生成所述问题的答案包括:将所述联合特征向量输入MLP网络,得到特征集;使用分类器对所述特征集进行分类,得到所述特征集的类别;将所述特征集的类别,确定为所述问题的答案。在一种可能的实现方式中,所述解码神经网络为RNN网络,通过解码神经网络对所述联合特征向量进行解码,生成所述问题的答案包括:将所述联合特征向量输入第二RNN中;将所述第二RNN的输出结果确定为所述问题的答案。根据本公开实施例的第二方面,提供一种图片问答装置,包括:接收模块,用于接收图片和与所述图片相关的问题;第一提取模块,用于通过卷积神经网络CNN提取所述图片的图像特征向量;第二提取模块,用于通过第一循环神经网络RNN提取所述问题的编码特征向量;拼接模块,用于将所述图像特征向量和所述编码特征向量进行拼接,得到联合特征向量;生成模块,用于通过解码神经网络对所述联合特征向量进行解码,生成所述问题的答案;其中,所述CNN、第一RNN和解码神经网络是在三者作为整体网络的情况下,以端到端的方式训练得到的神经网络。在一种可能的实现方式中,第一提取模块包括:缩放子模块,用于将接收到的图片缩放到固定尺寸,得到标准图像;图像输入子模块,用于将所述标准图像输入CNN中;第一确定子模块,用于将所述CNN的输出结果,确定为所述图片的图像特征向量。在一种可能的实现方式中,第二提取模块包括:分词子模块,用于将所述问题进行分词,得到所述问题对应的词嵌入序列;序列输入子模块,用于将所述词嵌入序列输入所述第一RNN中;第二确定子模块,用于将所述第一RNN的输出结果,确定为所述问题的编码特征向量。在一种可能的实现方式中,所述解码神经网络为MLP,生成模块包括:第一向量输入子模块,用于将所述联合特征向量输入MLP网络,得到特征集;分类子模块,用于使用分类器对所述特征集进行分类,得到所述特征集的类别;第三确定子模块,用于将所述特征集的类别,确定为所述问题的答案。在一种可能的实现方式中,所述解码神经网络为RNN网络,生成模块包括:第二向量输入子模块,用于将所述联合特征向量输入第二RNN中;第四确定子模块,用于将所述第二RNN的输出结果确定为所述问题的答案。本公开的实施例提供的技术方案可以包括以下有益效果:本公开实施例中,将通过CNN提取的图片的图像特征向量,与通过第一RNN提取的问题的编码特征向量进行拼接,得到联合特征向量,并通过解码神经网络对该联合特征向量进行解码,生成与图片相关的问题的答案。根据本公开实施例的图片问答方法及装置可以得到与图片有关的问题的答案,且各步骤采用的CNN、第一RNN和解码神经网络是在三者作为一个整体的情况下,进行端到端的训练得到的,消除了累计误差,提高了问答的准确率。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。图1是根据一示例性实施例示出的一种图片问答方法的流程图。图2a是根据一示例性实施例示出的接收的图片的一个示例。图2b是根据一示例性实施例示出的接收的图片的一个示例。图2c是根据一示例性实施例示出的神经网络连接的一个示例。图3是根据一示例性实施例示出的一种图片问答方法的流程图。图4是根据一示例性实施例示出的一种图片问答方法的流程图。图5是根据一示例性实施例示出的一种图片问答方法的流程图。图6是根据一示例性实施例示出的一种图片问答方法的流程图。图7是根据一示例性实施例示出的一种图片问答装置的框图。图8是根据一示例性实施例示出的一种图片问答装置的框图。图9是根据一示例性实施例示出的一种图片问答装置的框图。图10是根据一示例性实施例示出的一种图片问答装置的框图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。图1是根据一示例性实施例示出的一种图片问答方法的流程图,如图1所示,该图片问答方法可以用于终端设备或服务器中,包括以下步骤。在步骤S11中,接收图片和与所述图片相关的问题。在步骤S12中,通过CNN提取所述图片的图像特征向量。在步骤S13中,通过第一RNN提取所述问题的编码特征向量。在步骤S14中,将所述图像特征向量和所述编码特征向量进行拼接,得到联合特征向量。在步骤S15中,通过解码神经网络对所述联合特征向量进行解码,生成所述问题的答案。其中,所述CNN(ConvolutionalNeuralNetwork,卷积神经网络)、第一RNN(RecurrentNeuralNetwork,循环神经网络)和解码神经网络是在三者作为整体网络的情况下,以端到端的方式训练得到的神经网络。通过将使用CNN提取的图片的图像特征向量,与使用第一RNN提取的问题的编码特征向量进行拼接,得到联合特征向量,并使用解码神经网络对该联合特征向量进行解码,生成与图片相关的问题的答案,根据本公开实施例的图片问答方法可以得到与图片有关的问题的答案,且各步骤采用的CNN、第一RNN和解码神经网络是在三者作为一个整体的情况下,进行端到端的训练得到的,消除了累计误差,提高了问答的准确率。下面以终端设备为例对本公开实施例的图片问答方法进行说明。终端设备接收的图片可以为任意大小的图片,本文档来自技高网...
图片问答方法及装置

【技术保护点】
一种图片问答方法,其特征在于,包括:接收图片和与所述图片相关的问题;通过卷积神经网络CNN提取所述图片的图像特征向量;通过第一循环神经网络RNN提取所述问题的编码特征向量;将所述图像特征向量和所述编码特征向量进行拼接,得到联合特征向量;通过解码神经网络对所述联合特征向量进行解码,生成所述问题的答案;其中,所述CNN、第一RNN和解码神经网络是在三者作为整体网络的情况下,以端到端的方式训练得到的神经网络。

【技术特征摘要】
1.一种图片问答方法,其特征在于,包括:接收图片和与所述图片相关的问题;通过卷积神经网络CNN提取所述图片的图像特征向量;通过第一循环神经网络RNN提取所述问题的编码特征向量;将所述图像特征向量和所述编码特征向量进行拼接,得到联合特征向量;通过解码神经网络对所述联合特征向量进行解码,生成所述问题的答案;其中,所述CNN、第一RNN和解码神经网络是在三者作为整体网络的情况下,以端到端的方式训练得到的神经网络。2.根据权利要求1所述的图片问答方法,其特征在于,通过CNN提取所述图片的图像特征向量,包括:将接收到的图片缩放到固定尺寸,得到标准图像;将所述标准图像输入CNN中;将所述CNN的输出结果,确定为所述图片的图像特征向量。3.根据权利要求1所述的图片问题方法,其特征在于,通过第一RNN提取所述问题的编码特征向量,包括:将所述问题进行分词,得到所述问题对应的词嵌入序列;将所述词嵌入序列输入所述第一RNN中;将所述第一RNN的输出结果,确定为所述问题的编码特征向量。4.根据权利要求1所述的图片问答方法,其特征在于,所述解码神经网络为多层神经网络MLP,通过解码神经网络对所述联合特征向量进行解码,生成所述问题的答案,包括:将所述联合特征向量输入MLP网络,得到特征集;使用分类器对所述特征集进行分类,得到所述特征集的类别;将所述特征集的类别,确定为所述问题的答案。5.根据权利要求1所述的图片问答方法,其特征在于,所述解码神经网络为RNN网络,通过解码神经网络对所述联合特征向量进行解码,生成所述问题的答案,包括:将所述联合特征向量输入第二RNN中;将所述第二RNN的输出结果确定为所述问题的答案。6.一种图片问答装置,其特征在于,包括:接收模块,用于接收图片和与所述图片相关的问题;第一提取模块,用于通过卷积神经网络CNN提取所述图片的图像特征向量;第二提取模块,用于通过第一循环神经网络R...

【专利技术属性】
技术研发人员:杨松
申请(专利权)人:北京小米移动软件有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1