【技术实现步骤摘要】
一种基于知识图谱和疑问词驱动的问题生成系统
[0001]本专利技术属于自然语言处理研究的
,尤其是一种基于知识图谱和疑问词驱动的问题生成系统,基于知识图谱和疑问词驱动的问题生成模型可以让系统对输入文本的语义和对应的疑问词有着更为准确的预测。
技术介绍
[0002]近年来,随着计算机硬件算力的巨幅提升和深度学习研究的深入推进,自然语言生成技术取得了极大的进展。问题生成技术作为自然语言生成(Natural Language Generation,NLG)最为重要的环节之一,也取得了一定的成果,诞生了众多数据驱动的深度学习模型。随着人工智能应用的普及,人们对于人机问答的渴望越来越强烈,问题生成系统是人工智能,尤其是自然语言处理中最为复杂和和极具挑战性的一环。一方面,生成的问题必须能够抓住问答的主题和相关事实,另一方面,模型生成的问题必须具有高度的丰富性和多样性以确保高质量的用户体验。
[0003]知识图谱已被证明可以大幅提升自然语言处理(Natural Language Processing,NLP)模型的性能。在日常的聊天或者对话过程中,提问题是一种非常常见的场景。因此,生成一个恰当、有意义的问题,对于自动问答技术来说至关重要。问题生成,在问答任务中扮演着极为重要的角色,旨在根据给定的输入文本,生成与该段文本相关的问题,其在问答系统、对话系统、聊天机器人等领域有着广泛的应用。在日常闲聊中,抛出一个问题,往往能够确定聊天的主题,以便更好地进行后续的对话;在搜索引擎中,人们往往会输入一个问题,期待得到相关的答案 ...
【技术保护点】
【技术特征摘要】
1.一种基于知识图谱和疑问词驱动的问题生成系统,其特征在于,包括:文本预处理模块,用于对文本进行预处理;一跳知识图谱构造模块,用于基于预处理后的文本,构造一跳知识图谱;注意力向量计算模块,用于计算基于一跳知识图谱的静态图注意力向量;特征增强的编码器,通过首先将一跳知识图谱转化为一维静态词嵌入向量,接着将一维静态词嵌入向量与输入文本的词嵌入向量、输入文本的答案位置信息向量以及词汇特征信息向量拼接起来作为编码器的净输入,以增强编码器获取上下文语义信息的能力;门控自注意力机制模块,用于以存储编码器部分额外的上下文语义信息,进一步扩充输入文本的上下文语义;解码器,用于对编码器编码后的中间态一维向量进行解码,以输出最终的单词概率分布;知识匹配模块;以生成语义更为相关的问题;语义搜索空间匹配模块,用以计算问题和回答的语义相似度;疑问词预测模块,用以预测输入文本对应的疑问词。2.一种基于知识图谱和疑问词驱动的问题生成方法,其特征在于,包括以下步骤:步骤(1)、对文本进行预处理;步骤(2)、基于预处理后的文本,构造一跳知识图谱;步骤(3)、计算基于一跳知识图谱的静态图注意力向量;步骤(4)、构造特征增强的编码器,首先将一跳知识图谱转化为一维静态词嵌入向量,接着将一维静态词嵌入向量与输入文本的词嵌入向量、输入文本的答案位置信息向量以及词汇特征信息向量拼接起来作为编码器的净输入,以增强编码器获取上下文语义信息的能力;步骤(5)、构造门控自注意力机制模块,以存储编码器部分额外的上下文语义信息,进一步扩充输入文本的上下文语义;步骤(6)、构造解码器,用于对编码器编码后的中间态一维向量进行解码,以输出最终的单词概率分布;步骤(7)、构造知识匹配模块;以生成语义更为相关的问题;步骤(8)、构造语义搜索空间匹配模块,以计算问题和回答的语义相似度;步骤(9)、构造疑问词预测模块,以预测输入文本对应的疑问词。3.根据权利要求2所述的一种基于知识图谱和疑问词驱动的问题生成方法,其特征在于,所述步骤(1)、对文本进行预处理,具体步骤如下:对文本格式进行统一的处理,首先将所有文本进行处理,删除前后和中间多余的空格,并剔除非英文字母符号;采用Global Vectors for Word Representation(GloVe)编码,将每个单词编码成一个多维度的词嵌入形式,GloVe的词表大小选取为N
G
,未登录词表示为<UNK>。4.根据权利要求2所述的一种基于知识图谱和疑问词驱动的问题生成方法,其特征在于,所述步骤(2)、构造一跳知识图谱,具体步骤如下:选用ConceptNet大规模常识图谱作为知识库,对于输入的文本,针对每一个单词,搜索其在常识图谱中的一跳节点,节点数量固定为60,采用一个兜底的三元组NOT_A_FACT去表
示没有匹配到任何实体的三元组,得到由三元组构成的一跳知识图谱,同时,保留一跳知识图谱的副本。5.根据权利要求2所述的一种基于知识图谱和疑问词驱动的问题生成方法,其特征在于,所述步骤(3)、计算基于一跳知识图谱的静态图注意力向量,将输入语句中的每个单词匹配其对应的多跳图,并将多跳图转化为对应的静态图注意力向量以输入到编码器结构中,令K={k1,...,k
|K|
}为知识图谱中抽取出的知识集合,构成知识图谱的三元组向量表示为k
i
=(h
i
,r
i
,t
i
),其中,|K|表示集合K中三元组的个数,h
i
、r
i
和t
i
分别为三元组k
i
对应的首部、关系和尾部向量,i∈[1,|K|];为了得到一跳知识图谱对应的图嵌入向量,首先得到一跳知识图谱集合其中,x为输入序列;|x|为输入序列的长度;one表示一跳知识图谱的相关符号,t时刻一跳知识图谱对应的三元组集合为其中,为集合中包含元素的个数;有有和分别t时刻第j个三元组包含的首部、关系和尾部向量;通过下式计算t时刻最终的一跳静态图注意力向量g
t
::其中,g
t
表示t时刻输入对应的一跳静态图注意力向量;α
ti
为t时刻输入的0跳实体与其第i个一跳实体的注意力分数;exp(
·
)为以自然常数e为底数的指数函数;τ(
·
)为双线性注意力函数;[;]为向量的拼接符号。6.根据权利要求2所述的一种基于知识图谱和疑问词驱动的问题生成方法,其特征在于,所述步骤(4)、构造特征增强的编码器,编码器采用一个双向Long Short
‑
Term Memory(LSTM)进行编码,计算如下:计算如下:计算如下:其中,和分别表示t时刻双向LSTM的正方向解码和逆方向解码的隐藏层向量;enc为编码器的标志,下同;为拼接后的输入向量;x
t
、g
t
、m
t
和l
t
分别表示t时刻的词嵌入向量、对应的一跳静态图注意力向量、答案位置信息向量以及词汇特征信息向量。7.根据权利要求2所述的一种基于知识图谱和疑问词驱动的问题生成方法,其特征在于,所述步骤(5)、构造门控自注意力机制模块,首先,获取编码器隐藏层向量矩阵其中,其中,表示二维实数域集合,维度为|x|
×
2d;d为LSTM隐藏层状态的维度;|x|为输入序列x的长度;有[;]为向量拼接符;接着,由自注意力算法得到自注意力矩阵最后,通过一个门控单元控制
最终生成的自注意力矩阵最终生成的自注意力矩阵最终生成的自注意力矩阵最终生成的自注意力矩阵最终生成的自注意力矩阵其中,和分别表示自注意力算法求得的矩阵、融合原始矩阵和自注意力算法后求得的矩阵以及最终通过门控机制求得的矩阵,且|x|为输入序列x的长度;Q、K和V均为计算自注意力分数的状态参数矩阵;Softmax(
·
)、tanh(
·
)、MLP(
·
)和σ(
·
)分别表示Softmax函数、tanh函数、多层感知机函数以及Sigmoid函数;表示矩阵的连接符号;
⊙
表示矩阵对应位置相乘的符号;J为全1矩阵,矩阵维度与H保持一致。8.根据权利要求2所述的一种基于知识图谱和疑问词驱动的问题生成方法,其特征在于,所述步骤(6)、构造解码器部分,解码器由另外一个LSTM构成,如下所示:如下所示:如下所示:其中,为t时刻解码器的隐藏层向量;dec为表示解码器的相关符号;y
t
‑1表示t
‑
1时刻解码器的输出向量;表示t时刻的注意力向量;β
tj
表示解码器t时刻的隐藏层向量与编码器第j个输入序列之间的注意力分数;为编码器j时刻的门控自注意力向量;Softmax(
·
)和τ(
·
)分别为Softmax函数和双线性注意力函数;[;]为向量连接符;在解码阶段引入拷贝机制,以避免解码器忽略一些重...
【专利技术属性】
技术研发人员:荣文戈,周世杰,欧阳元新,熊璋,
申请(专利权)人:北京航空航天大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。