【技术实现步骤摘要】
本专利技术涉及一种计算机信息检索系统,尤其涉及使用自然语言方式提问进行信息检索的计算机系统。
技术介绍
计算机信息检索系统帮助我们在浩瀚的信息海洋中查找想要的信息资料,目前检索信息的工具如查询软件,搜索引擎如google等,采用的主要是关键词匹配,网页链接分析等技术。但是人们很难通过简单的关键词组合来准确定义自己的搜索意图,而且关键词匹配的搜索过程没有处理词意组合,语句内部的语义关系等语义因素。所以人们经常不得不花大量时间对数目巨大的结果网页列表再作人工辨识来寻找理想的答案。信息查询用户希望使用更自然,更准确的方式定义自己的查询要求,希望能够得到在语义,知识层面上准确地符合查询意图的答案,而不仅是匹配到关键词的答案列表。本专利技术利用自然语言处理技术,允许用户以自然语言提问的方式向系统提出查询要求,系统通过对疑问句的语句分析,对目标答案的语句模式和语义关系结构的抽取和识别,从而能够识别出在语义的各个层次上与目标答案最接近的答案内容,并返回给用户较高准确度的回答。
技术实现思路
本专利技术的目的在于建立一个高效,统一的知识处理的模型,生成一种建立自然语言知识库的计算机系统。一种基于自然语言理解的计算机信息检索系统,由用户输入的疑问句启动检索,系统输出按照语义相关程度排序的答案;包括HNC句类分析模块、以及句类模式匹配模块和排序模块;所述HNC句类分析模块对来自互联网或其他内容源的文章和内容进行分析构成具有标注的待选答案句的知识库,还对启动检索的疑问句进行句类结构分析得到目标句类模式,生成等语义目标句模式序列;再由所述句类模式匹配模块与所述知识库中的待选答案句 ...
【技术保护点】
一种基于自然语言理解的计算机信息检索系统,由用户输入的疑问句启动检索,系统输出按照语义相关程度排序的答案;其特征在于,包括HNC句类分析模块、以及句类模式匹配模块和排序模块;所述HNC句类分析模块对来自互联网或其他内容源的文章和内容进行分析构成具有标注的待选答案句的知识库,还对启动检索的疑问句进行句类结构分析得到目标句类模式,生成等语义目标句模式序列;再由所述句类模式匹配模块与所述知识库中的待选答案句匹配,匹配结果由所述排序模块排序。
【技术特征摘要】
1.一种基于自然语言理解的计算机信息检索系统,由用户输入的疑问句启动检索,系统输出按照语义相关程度排序的答案;其特征在于,包括HNC句类分析模块、以及句类模式匹配模块和排序模块;所述HNC句类分析模块对来自互联网或其他内容源的文章和内容进行分析构成具有标注的待选答案句的知识库,还对启动检索的疑问句进行句类结构分析得到目标句类模式,生成等语义目标句模式序列;再由所述句类模式匹配模块与所述知识库中的待选答案句匹配,匹配结果由所述排序模块排序。2.根据权利要求l所述的基于自然语言理解的计算机信息检索系统,其特征在于,所述目标句类模式对于所述知识库中具有相同或者相近句类模式的待选答案句,系统通过计算目标句与待选句的各个相对应语义块的概念之间相似度来得到待选句相对于目标答案的准确程度simConcept(t,b)=simCat(t,b)βcat+∑simFiv(t,b)βfiv+simSynt(t,b)βsyn 式中各符号含义simConcept待选概念b相对于目标概念t的概念相似度;simCat概念类别相似度simFiv五元组符号序列的概念相似度;simSyn语法符号的相似度;simNou本体层概念相似度;simRe挂靠层概念相似度;simHigh高层概念相似度;simMid中层概念相似度;simLow底层概念相似度;β对应概念符号部分的计算权重参数。3.根据权利要求1所述的基于自然语言理解的计算机信息检索系统,其特征在于,所述目标句类模式通过等语义的句类格式变换得到一个目标句类模式序列,将目标句类模式与所述待选答案句模式各个部分进行匹配比较判断二者的语义相似度,以及待选答案句包含目标答案的程度,待选句语义块相对于对应的目标句语义块的语义块相似度计算方法为simChunk(Chunkt,Chunkb)=(∑simConcept(Mti,Mbi)βm+∑simConcept(Kti,Kbf)βk)/Tt模式匹配法的答案准确度计算方法correctness(St,Sb)=Σi=1nsimChunk(Chunkti,Chunkbi)+answFitness(St,Sb).]]>4.根据权利要求1所述的基于自然语言理解的计算机信息检索系统,其特征在于,还包括假设—校验机制模块,所述目标句的语义关系矩阵通过假设—校验机制模块分析对待选答案句针对目标答案语义关系矩阵的识别;所述假设—校验机制模块,利用系统的语言学知识来校验计算所述知识库待选句中含有某个目标语义关系的置信度,以此发现不同的语言表达形式下所隐含的深层语义,语义关系识别的答案准确度计算方法correctness(St,Sb)=Σi=1nsimSynR(Rti,Rbi)confid(confidRti,confidRbi)βi+answFitness(St,Sb)]]>各符号含义n目标句中语义矩阵中的语义元素(或语义元素组合)的语义关系数目;simSynR语义关系相似度;R目标句(待选句)的语义关系;confid由两个语义关系的置信度所得的对于二者相似度的置信度;confidR语义关系的置信度;βi语义关系i的计算权重参数。5.根据权利要求1所述的基于自然语言理解的计算机信息检索系统,其特征在于,所述语义关系结构抽取模块对目标句中的各个概念元素(或者概念元素的组合)之间相互交叉的语义关系矩阵作分析和抽取,分别得到基于概念搭配的语义关系、基于句类...
【专利技术属性】
技术研发人员:梁威,
申请(专利权)人:北京大学深圳研究生院,
类型:发明
国别省市:94[中国|深圳]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。