【技术实现步骤摘要】
本专利技术涉及信息检索
,尤其涉及一种问答对检索方法及社区问答检索系统。
技术介绍
近年来,社区问答系统已逐渐成为一种非常流行而实用的互联网应用,与传统问答系统不同的是,在社区问答系统中,用户不但可以提问和回答任何领域、任何类型的问题,而且还可以对其他用户的回答做出评价和投票,甚至还可以直接搜索系统所积累的历史问题答案库中的相似问题,极大地丰富和满足了用户的信息需求。当用户想要利用社区问答系统检索与自己提出问题相同或相似的问题及其答案时,由于用户输入的是采用自然语言描述的问句,其复杂的结构和冗长的句式,使得从问句中提取重要关键词项会比较困难。因无法准确获取问句中的核心关键词,导致检索结果不够准确。
技术实现思路
有鉴于此,本专利技术实施例的主要目的在于提供一种问答对检索方法及社区问答检索系统,以实现提高问答对检索结果的准确性的目的。为实现上述目的,本专利技术实施例提供了一种问答对检索方法,包括:从问句中提取至少一个关键词,并获取每个关键词的扩展词以及每个扩展词与对应关键词的最终相似度;分析所述问句中具有语法关联的每两个词项之间的依存关系;根据预先为所述依存关系设定的重要度权重,确定反映所述问句中每两个词项之间紧密程度的距离权重;根据所述距离权重确定所述问句中每两个词项之间的关联度;根据所述关联度确定所述问句中每个词项的词项权重,并根据所述问句中每个词项的词项权重检索与所述 ...
【技术保护点】
一种问答对检索方法,其特征在于,包括:从问句中提取至少一个关键词,并获取每个关键词的扩展词以及每个扩展词与对应关键词的最终相似度;分析所述问句中具有语法关联的每两个词项之间的依存关系;根据预先为所述依存关系设定的重要度权重,确定反映所述问句中每两个词项之间紧密程度的距离权重;根据所述距离权重确定所述问句中每两个词项之间的关联度;根据所述关联度确定所述问句中每个词项的词项权重,并根据所述问句中每个词项的词项权重检索与所述问句相关的问答对;根据所述扩展词与对应关键词的最终相似度计算所述扩展词的词项权重,并根据所述扩展词的词项权重检索与所述问句相关的问答对;将检索出的所有问答对按照预设规则进行排序显示。
【技术特征摘要】
1.一种问答对检索方法,其特征在于,包括:
从问句中提取至少一个关键词,并获取每个关键词的扩展词以及每个扩展词与对应关
键词的最终相似度;
分析所述问句中具有语法关联的每两个词项之间的依存关系;
根据预先为所述依存关系设定的重要度权重,确定反映所述问句中每两个词项之间紧
密程度的距离权重;
根据所述距离权重确定所述问句中每两个词项之间的关联度;
根据所述关联度确定所述问句中每个词项的词项权重,并根据所述问句中每个词项的
词项权重检索与所述问句相关的问答对;
根据所述扩展词与对应关键词的最终相似度计算所述扩展词的词项权重,并根据所述
扩展词的词项权重检索与所述问句相关的问答对;
将检索出的所有问答对按照预设规则进行排序显示。
2.根据权利要求1所述的方法,其特征在于,所述获取每个关键词的扩展词以及每个扩
展词与对应关键词的最终相似度,包括:
利用知网HowNet分别获取每个关键词的至少一个扩展词,并定义每个扩展词与对应关
键词的初始相似度均为1;
利用同义词词林分别获取每个关键词的至少一个扩展词,并定义每个扩展词与对应关
键词的初始相似度均为1;
利用经训练后的文本深度表示模型word2vec,分别获取每个关键词的至少一个扩展词
以及每个扩展词与对应关键词的初始相似度;
合并获取到的相同扩展词,分别计算合并后的每个扩展词与对应关键词的最终相似度
SR,其中,SR=Ssum/3,Ssum为所述扩展词对应的所有初始相似度之和。
3.根据权利要求1所述的方法,其特征在于,所述根据预先为所述依存关系设定的重要
度权重,确定反映所述问句中每两个词项之间紧密程度的距离权重,包括:
分别计算第一词项与每个第二词项之间的距离权重D,所述第一词项为所述问句中的
任意一个词项,所述第二词项为与所述第一词项存在所述依存关系的词项;
其中,y为预先为所述第一词项与所述第二词项之间的依存关系设置的重要
度权重,α为基准值;
分别计算所述第一词项与每个第三词项之间的距离权重Dis,所述第三词项为所述问
句中除所述第一词语外的任意一个词项,Dis为所述第一词项与所述第三词项之间存在的
至少一种依存关系对应的至少一种距离权重D之和。
4.根据权利要求3所述的方法,其特征在于,所述根据所述距离权重确定所述问句中每
两个词项之间的关联度,包括:
按照下述公式计算所述问句中词项ti和词项tj之间的关联度wrel(i,j):
wrel(i,j)=λDep(ti,tj)+(1-λ)Closepmi(ti,tj);
其中, Dep ( t i , t j ) = 1 b D i s ( t i , t j ) , Close p m i ( t i , t j ) = log p ( t i , t j ) p ( t i ) p ( t j ) ; ]]>ti表示所述问句中的第i个词项,tj表示所述问句中的第j个词项,
i=1,2……n,j=1,2……n,n为所述问句中的词项总数;
λ为调节因子;
b为一个大于1的常数;
Dis(ti,tj)为词项ti和词项tj之间的距离权重;
为问句集中词项ti和词项tj共同出现的概率,Nd(ti,tj)为问句集中
词项ti和词项tj同时出现的问句的个数,ND为问句集中的问句总数;
和分别表示词项ti和词项tj各自在问句集中出现的概率,
Nd(ti)为问句集中包含词项ti的问句的总数,Nd(tj)为问句集中包含词项tj的问句总数,ND为问句集中的问句总数。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述根据所述关联度确定所述
问句中每个词项的词项权重,包括:
按照下述公式计算所述问句中各词项最终权重组成的权重矩阵 W q * = ( 1 - α ) ( 1 - α E ) - 1 W q 0 ; ]]>其中,α为给定常数;
E为将关联矩阵M进行正交变换后的随机矩阵,所述关联矩阵M为所述问句中每两个词
项之间的关联度形成的对称矩阵;
为所述问句中各词项原始权重组成的权重矩阵。
6.根据权利要求1所述的方法,其特征在于,所述根据所述扩展词与对应关键词的最终
相似度计算所述扩展词的词项权重,包括:
获取所述扩展词对应的关键词的原始权重;
将所述原始权重和所述扩展词与对应关键词的最终相似度的乘积,作为所述扩展词的
词项权重。
7.一种社区问答检索系统,其特征在于,包括:
关键词提取单元,用于从问句中提取至少一个关键词;
关键词扩展单元,用于获取所述关键词提取单元获取的每个关键词的扩展词以及每个
扩展词与对应关键词的最终相似度;
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。