【技术实现步骤摘要】
基于历史信息追踪的知识图谱多轮问答方法及系统
[0001]本专利技术涉及数据挖掘
,具体的,涉及基于历史信息追踪的知识图谱多轮问答方法及系统。
技术介绍
[0002]知识图谱是一种描述真实世界客观存在的实体、概念及它们之间的关联关系的语义网络,用于以符号形式描述物理世界中的概念及其相互关系。其基本构成单位是<头实体,关系,尾实体>组成的三元组,大量实体间通过关系相互联结,构成网状的知识结构。知识图谱旨在通过建立数据之间的语义关联链接,将碎片化的数据有机组织起来,让数据更加容易被人和机器理解和处理,为许多下游智能应用提供了数据支持,如网络搜索和人机交互等等。
[0003]人机交互系统(例如智能语音助手)可基于知识图谱的智能问答方式(也可称为知识图谱问答)与用户交互:给定自然语言问题,基于知识图谱对问题进行理解,并根据问题理解的结果从知识图谱中查找或推理出问题对应的答案。知识图谱问答相较于基于无结构文本的问答,在数据关联度、数据精度、检索效率等方面具有优势。因此,知识图谱问答一直是学术界和工业界广泛关注的话题。
[0004]在实际的应用场景中,用户的问题常常是一连串的(也即会有多轮问答),当用户问出下一个问题时,往往会省略历史问答中提到过的关键信息,在这种情况下准确度就会大幅度下降。
技术实现思路
[0005]本专利技术提出基于历史信息追踪的知识图谱多轮问答方法及系统,解决了相关技术中基于知识图谱的多轮问答方法准确度低的问题。
[0006]本专利技 ...
【技术保护点】
【技术特征摘要】
1.基于历史信息追踪的知识图谱多轮问答方法,其特征在于,包括:根据当前轮次的问题向量对上一轮次的历史问答信息向量进行更新,得到当前轮次的历史问答信息向量;所述当前轮次的问题向量通过将当前轮次的问题中所有单词映射为对应的词向量得到;根据当前轮次的历史问答信息向量更新上一轮次的实体转移图,得到当前轮次对应的实体转移图;计算当前轮次的实体转移图中每个实体的实体分数;当前轮次的实体转移图包括历史问答中的实体;根据各个历史问题向量更新当前轮次的问题向量,得到包含历史问题信息的问题向量;所述各个历史问题向量包括当前轮次之前每一轮次的问题向量;任一轮次的问题向量通过将该轮次的问题中所有单词映射为对应的词向量得到;将当前轮次的问题作为当前问题q
i
,选出与当前问题q
i
相关的多个实体作为实体集合U
q
,计算实体集合U
q
中每一实体u与当前问题q
i
的相关分数,选出相关分数最高的K个实体作为新的实体集合;以实体集合中的每一实体u为起点,将知识图谱中两跳以内的所有查询路径作为查询路径集合C
q
;根据实体转移图中每个实体的实体分数、以及所述包含历史问题信息的问题向量,计算路径集合C
q
中每一路径的概率值;选择概率值最高的路径,所对应的答案作为当前轮次的预测答案;根据当前轮次的答案向量再次更新历史问答信息向量,用于下一轮的答案预测。2.根据权利要求1所述的基于历史信息追踪的知识图谱多轮问答方法,其特征在于,根据各个历史问题向量更新当前轮次的问题向量,得到包含历史问题信息的问题向量,具体包括:将当前问题向量和当前轮次之前的所有问题向量横向连接,得到问题矩阵;通过自注意力机制将当前问题向量映射为Query向量,将问题矩阵映射为Key 向量和Value向量,将Query向量与key向量进行内积运算得到所有向量的相关度;利用相关度作为权值对Value向量加权平均,得到包含历史问题信息的问题向量。3.根据权利要求1所述的基于历史信息追踪的知识图谱多轮问答方法,其特征在于,所述选出与当前问题q
i
相关的多个实体作为实体集合U
q
,具体包括:构建倒排索引,将知识图谱所有实体描述中大于设定长度的n
‑
gram映射到对应的实体,得到第一实体集合;通过命名实体识别方法从第一实体集合中筛选出当前问题q
i
中出现的实体,作为第二实体集合;通过倒排索引从当前问题q
i
中筛选所有大于设定长度的n
‑
gram对应的实体,输入第二实体集合,所述第二实体集合作为实体集合U
q
。4.根据权利要求3所述的基于历史信息追踪的知识图谱多轮问答方法,其特征在于,所述设定长度为4。5.根据权利要求1
‑
4任一项所述的基于历史信息追踪的知识图谱多轮问答方法,其特征在于,U
q
中任一实体u由知识图谱中描述它的句子来表示, ,w表示句子中单词对应的词向量,上标d表示向量维度,下标|u|表示向量长度;当前问题q
i 由知识图谱
中描述它的句子来表示,
ꢀꢀ
,下标|q|表示向量长度;所述计算实体集合U
q
中每一实体u与当前问题q
i
的相关分数,具体包括:通过注意力机制计算u与q
i
之间各词向量间的词相关度,其中,实体u中任一词向量表示为 ,当前问题q
i
中任一词向量表示为,与间的词相关度为:;d表示维度;表示连接;表示第一线性变换;将 归一化,得到归一化的词相关度;对于实体u中每一个,使用归一化的词相关度对当前问题q
i 中的词向量进行加权求和,得到与词向量对应的、经过注意力机制处理后的问题特征向量:将实体u中各词向量与对应的问题特征向量相连接并求和,经过线性变换后得到表示实体u与当前问题q
i
关系的向量 :根据向量计算实体u的特征向量f
u
:其中,表示实体u中字母在当前问题q
i
中出现百分比的1维向量;是一个2维one
‑
hot向量,如果该实体是通过命名实体识别方法找到的,则赋值为[1 0],如果是通过倒排索引找到的,则赋值为[0 1]; 是表示命名实体识别方法对实体打分的1维向量,如果该实体是通过命名实体方法识别找到的,则赋值为1,如果是通过倒排索引找到的,则赋值为0;表示第二线性变换;根据特征向量f
u
,计算每个实体u与当前问题q
i
的相关分数:其中, 表示第三线性变换,b1为第一偏置参数。6.根据权利要求1
‑
4任一项所述的基于历史信息追踪的知识图谱多轮问答方法,其特征在于,所述根据实体转移图中每个实体的...
【专利技术属性】
技术研发人员:程祥,王若鉴,何召锋,杨文林,匡明,
申请(专利权)人:杭州康晟健康管理咨询有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。