The present disclosure is about a method and device for a question and answer of a picture, including receiving pictures and problems related to the picture; extracting the image feature vector of the picture by CNN; extracting the encoding feature vector of the problem by the first RNN; splicing the image feature vector with the code feature vector to get the union. The characteristic vector is decoded by decoding the neural network to generate the answers to the problem; the CNN, the first RNN and the decoded neural network are the neural networks trained by the end to end in the case of the three as a whole network. The picture question answering method and device according to the present disclosure can generate an answer to the problem related to the picture, and the CNN, the first RNN and the decoded neural network adopted by each step are obtained under the end to end training under the condition of the three as a whole, eliminating the error of the tired meter and improving the accuracy of the question and answer.
【技术实现步骤摘要】
图片问答方法及装置
本公开涉及信息处理
,尤其涉及图片问答方法及装置。
技术介绍
随着信息处理技术的发展,智能问答技术受到越来越多的关注,智能问答系统可以以一问一答的形式自动回答用户提出的问题。例如,针对图片的问答系统,就是向该问答系统提供一个图片和针对该图片的问题,智能问答系统可以自动的回答该问题。这样可以帮助视觉障碍者了解世界。相关技术中,智能问答系统提供的答案的准确率较低。
技术实现思路
为克服相关技术中存在的问题,本公开提供一种图片问答方法及装置,能够针对图片的问题,提供较为准确的答案。根据本公开实施例的第一方面,提供一种图片问答方法,包括:接收图片和与所述图片相关的问题;通过CNN提取所述图片的图像特征向量;通过第一循RNN提取所述问题的编码特征向量;将所述图像特征向量和所述编码特征向量进行拼接,得到联合特征向量;通过解码神经网络对所述联合特征向量进行解码,生成所述问题的答案;其中,所述CNN、第一RNN和解码神经网络是在三者作为整体网络的情况下,以端到端的方式训练得到的神经网络。在一种可能的实现方式中,通过CNN提取所述图片的图像特征向量包括:将接收到的图片缩放到固定尺寸,得到标准图像;将所述标准图像输入CNN中;将所述CNN的输出结果,确定为所述图片的图像特征向量。在一种可能的实现方式中,通过第一RNN提取所述问题的编码特征向量包括:将所述问题进行分词,得到所述问题对应的词嵌入序列;将所述词嵌入序列输入所述第一RNN中;将所述第一RNN的输出结果,确定为所述问题的编码特征向量。在一种可能的实现方式中,所述解码神经网络为多层神经网络MLP,通 ...
【技术保护点】
一种图片问答方法,其特征在于,包括:接收图片和与所述图片相关的问题;通过卷积神经网络CNN提取所述图片的图像特征向量;通过第一循环神经网络RNN提取所述问题的编码特征向量;将所述图像特征向量和所述编码特征向量进行拼接,得到联合特征向量;通过解码神经网络对所述联合特征向量进行解码,生成所述问题的答案;其中,所述CNN、第一RNN和解码神经网络是在三者作为整体网络的情况下,以端到端的方式训练得到的神经网络。
【技术特征摘要】
1.一种图片问答方法,其特征在于,包括:接收图片和与所述图片相关的问题;通过卷积神经网络CNN提取所述图片的图像特征向量;通过第一循环神经网络RNN提取所述问题的编码特征向量;将所述图像特征向量和所述编码特征向量进行拼接,得到联合特征向量;通过解码神经网络对所述联合特征向量进行解码,生成所述问题的答案;其中,所述CNN、第一RNN和解码神经网络是在三者作为整体网络的情况下,以端到端的方式训练得到的神经网络。2.根据权利要求1所述的图片问答方法,其特征在于,通过CNN提取所述图片的图像特征向量,包括:将接收到的图片缩放到固定尺寸,得到标准图像;将所述标准图像输入CNN中;将所述CNN的输出结果,确定为所述图片的图像特征向量。3.根据权利要求1所述的图片问题方法,其特征在于,通过第一RNN提取所述问题的编码特征向量,包括:将所述问题进行分词,得到所述问题对应的词嵌入序列;将所述词嵌入序列输入所述第一RNN中;将所述第一RNN的输出结果,确定为所述问题的编码特征向量。4.根据权利要求1所述的图片问答方法,其特征在于,所述解码神经网络为多层神经网络MLP,通过解码神经网络对所述联合特征向量进行解码,生成所述问题的答案,包括:将所述联合特征向量输入MLP网络,得到特征集;使用分类器对所述特征集进行分类,得到所述特征集的类别;将所述特征集的类别,确定为所述问题的答案。5.根据权利要求1所述的图片问答方法,其特征在于,所述解码神经网络为RNN网络,通过解码神经网络对所述联合特征向量进行解码,生成所述问题的答案,包括:将所述联合特征向量输入第二RNN中;将所述第二RNN的输出结果确定为所述问题的答案。6.一种图片问答装置,其特征在于,包括:接收模块,用于接收图片和与所述图片相关的问题;第一提取模块,用于通过卷积神经网络CNN提取所述图片的图像特征向量;第二提取模块,用于通过第一循环神经网络R...
【专利技术属性】
技术研发人员:杨松,
申请(专利权)人:北京小米移动软件有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。