基于自然语言理解的计算机信息检索系统及其检索方法技术方案

技术编号:2851984 阅读:269 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种基于自然语言理解的计算机信息检索系统及其检索方法,由用户输入的疑问句启动检索,系统输出按照语义相关程度排序的答案;首先来自互联网的文章和内容数据库中的数据经过HNC句类分析模块的处理,获得具有标注的待选答案句知识库;其次所述用户输入的疑问句首先调用HNC句类分析模块处理获得疑问句的HNC句类结构,进入疑问句分析模块进行分析,然后进入疑问中心分析模块中处理,并在此基础上抽取目标答案句模式,生成等语义目标句模式序列;然后知识库中已经标注的待选答案句与目标答案句模式(序列)经过句类模式匹配模块对词语,语义块进行概念相似度计算,对待选句与目标句进行比较,获得句类模式匹配结果、语义关系结构识别匹配结果、和答案准确度得分;按照答案正确度排序,并返回结果。

【技术实现步骤摘要】

本专利技术涉及一种计算机信息检索系统,尤其涉及使用自然语言方式提问进行信息检索的计算机系统。
技术介绍
计算机信息检索系统帮助我们在浩瀚的信息海洋中查找想要的信息资料,目前检索信息的工具如查询软件,搜索引擎如google等,采用的主要是关键词匹配,网页链接分析等技术。但是人们很难通过简单的关键词组合来准确定义自己的搜索意图,而且关键词匹配的搜索过程没有处理词意组合,语句内部的语义关系等语义因素。所以人们经常不得不花大量时间对数目巨大的结果网页列表再作人工辨识来寻找理想的答案。信息查询用户希望使用更自然,更准确的方式定义自己的查询要求,希望能够得到在语义,知识层面上准确地符合查询意图的答案,而不仅是匹配到关键词的答案列表。本专利技术利用自然语言处理技术,允许用户以自然语言提问的方式向系统提出查询要求,系统通过对疑问句的语句分析,对目标答案的语句模式和语义关系结构的抽取和识别,从而能够识别出在语义的各个层次上与目标答案最接近的答案内容,并返回给用户较高准确度的回答。
技术实现思路
本专利技术的目的在于建立一个高效,统一的知识处理的模型,生成一种建立自然语言知识库的计算机系统。一种基于自然语言理解的计算机信息检索系统,由用户输入的疑问句启动检索,系统输出按照语义相关程度排序的答案;包括HNC句类分析模块、以及句类模式匹配模块和排序模块;所述HNC句类分析模块对来自互联网或其他内容源的文章和内容进行分析构成具有标注的待选答案句的知识库,还对启动检索的疑问句进行句类结构分析得到目标句类模式,生成等语义目标句模式序列;再由所述句类模式匹配模块与所述知识库中的待选答案句匹配,匹配结果由所述排序模块排序。一种基于自然语言理解的计算机信息检索方法,由用户输入的疑问句启动检索,系统输出按照语义相关程度排序的答案;包括如下处理步骤第一步,来自互联网的文章和内容数据库中的数据经过HNC句类分析模块的处理,获得具有标注的待选答案句知识库;第二步,所述用户输入的疑问句首先调用HNC句类分析模块处理获得疑问句的HNC句类结构,进入疑问句分析模块进行分析,然后进入疑问中心分析模块中处理,并在此基础上抽取目标答案句模式,生成等语义目标句模式序列;第三步,知识库中已经标注的待选答案句与目标答案句模式(序列)经过句类模式匹配模块对词语,语义块进行概念相似度计算,对待选句与目标句进行比较,获得句类模式匹配结果、语义关系结构识别匹配结果、和答案准确度得分;第四步按照答案正确度排序,并返回结果。所述第三步中,对于难以适用句类模式匹配的情况,在HNC句类分析的语义关系结构抽取目标句中的各个概念元素(或者概念元素的组合)之间相互交叉的语义关系矩阵。通过假设-校验机制模块,利用系统的语言学知识来校验计算知识库待选句中含有某个目标语义关系的置信度,以此发现不同的语言表达形式下所隐含的深层语义的相似度。与以往相类似技术相比,本专利技术采用HNC自然语言理解技术对疑问句和待选句做了深层的语义模式识别和语义关系抽取,不仅突破了以往信息查询技术中查询词之间没有语义关联的弊病,而且能够通过模式匹配法匹配用户所提出的疑问句与待选句之间的语义异同;通过语义关系识别法抽取疑问句在词义概念,语义块内部词义搭配的语义关系,语义块之间,语句的各个不同粒度的组成部分之间的语义关系,并识别待选句是否具有相对应的语义或语义关系,所以能够提供给用户合乎语义并且准确度较高的答案。由于系统接受用户以自然语言提问的查询请求,使得用户可以方便而且精确地定义自己的查询意图;由于系统对查询的问句做问句分析,能够识别问句的语义关系和目标答案的要求。附图说明本专利技术包括如下附图图1是HNC概念相似度计算过程流程图;图2是模式匹配法的目标答案句模式序列生成过程;图3模式匹配算法过程方框图;图4是语义关系识别法处理步骤流程图;图5是系统组成结构和运行原理。具体实施方法下面结合附图对本专利技术做进一步详细说明。本专利技术是一种使用自然语言理解技术进行信息检索的技术,系统接受用户以自然语言方式提问的查询请求,通过对待选语句进行面向目标答案的自然语言分析后,返回给用户最准确的答案。本专利技术采用HNC自然语言处理技术对从互联网或其他内容源获取的自然语言格式的语句篇章进行句类分析,将句类分析结果语句以HNC句类标注,并作为待选答案句保存在知识库(KB)中。系统接受用户以自然语言提问的查询请求后,系统先对疑问句进行疑问词,疑问中心分析,然后通过两种方式来寻求最佳的目标答案。1.模式匹配法系统通过HNC句类分析得到疑问句的句类模式(目标句类模式)。对于具有相同(相近)句类模式的待选句(待选句可以是不同句类格式的简单句,混合句类,复合句的形式),系统通过计算目标句与待选句的各个相对应语义块之间的概念相似度来得到待选句相对于目标答案的准确程度。2.语义关系识别法对于句类差别比较大的待选句不能使用模式匹配法,而只能使用语义关系识别法来寻求目标答案。系统对疑问句的各个由字,词,语义块,语句等语义元素或语义元素的组合之间的语义关系进行发现识别,并由此构建目标语义关系矩阵,然后尝试在待选句中发现对应的语义关系,系统通过一个假设-评价机制来计算待选句中存在某个目标语义关系的置信度,最后通过各个关系的置信度与其权重的综合计算结果来得到待选句相对于目标答案的答案准确度。本专利技术采用HNC自然语言理解技术对疑问句和待选句做了深层的语义模式识别和语义关系抽取,不仅突破了以往信息查询技术中查询词之间没有语义关联的弊病,而且能够通过模式匹配法匹配用户所提出的疑问句与待选句之间的语义异同;通过语义关系识别法抽取疑问句在词义概念,语义块内部词义搭配的语义关系,语义块之间,语句的各个不同粒度的组成部分之间的语义关系,并识别待选句是否具有相对应的语义或语义关系,所以能够提供给用户合乎语义并且准确度较高的答案。什么是疑问句特性分析呢?不同的疑问词所引导的疑问句结构对目标答案具有不同的要求,为了便于针对分析,系统定义了两个概念疑问中心,疑问中心词。疑问中心词疑问句中疑问词所引导,修饰的词语。疑问中心疑问词和疑问中心词所组成的结构。系统通过对疑问中心和疑问中心词的分析来得到目标答案的概念和所要求的语义结构,并以此与待选句的对应结构匹配比较,作为计算待选句答案准确度的一个重要因素。从HNC角度对疑问词,疑问中心的分析,获得的统计结果如下表所示,其中得代码如J111,JK等是HNC所定义的描述语言语义的概念符号,其意义在CN98101921.8号专利中定义。 目标答案的求解策略通过使用HNC理论对疑问句和待选句的分析,本文提出寻求疑问句目标答案的两种求解策略模式匹配法,语义关系识别法。在HNC理论体系中,HNC概念符号是表达自然语言形式化语义的基本元素,所以在讨论两种求解策略之前先讨论HNC概念符号的相似度比较方法。HNC概念相似度比较对于词语的多义模糊性,通过HNC句类分析可以多选一地得到该词语在句中的特定语义概念。两个词语概念之间的相似程度可以通过对于二者的HNC概念符号比较得到。HNC概念符号的结构[1]((类别符号串)(层次符号串)(组合结构符号)(类别符号串)(层次符号串))HNC概念相似度计算过程如图1所示首先比较疑问句和目标句的概念类别,判断其概念类别本文档来自技高网...

【技术保护点】
一种基于自然语言理解的计算机信息检索系统,由用户输入的疑问句启动检索,系统输出按照语义相关程度排序的答案;其特征在于,包括HNC句类分析模块、以及句类模式匹配模块和排序模块;所述HNC句类分析模块对来自互联网或其他内容源的文章和内容进行分析构成具有标注的待选答案句的知识库,还对启动检索的疑问句进行句类结构分析得到目标句类模式,生成等语义目标句模式序列;再由所述句类模式匹配模块与所述知识库中的待选答案句匹配,匹配结果由所述排序模块排序。

【技术特征摘要】
1.一种基于自然语言理解的计算机信息检索系统,由用户输入的疑问句启动检索,系统输出按照语义相关程度排序的答案;其特征在于,包括HNC句类分析模块、以及句类模式匹配模块和排序模块;所述HNC句类分析模块对来自互联网或其他内容源的文章和内容进行分析构成具有标注的待选答案句的知识库,还对启动检索的疑问句进行句类结构分析得到目标句类模式,生成等语义目标句模式序列;再由所述句类模式匹配模块与所述知识库中的待选答案句匹配,匹配结果由所述排序模块排序。2.根据权利要求l所述的基于自然语言理解的计算机信息检索系统,其特征在于,所述目标句类模式对于所述知识库中具有相同或者相近句类模式的待选答案句,系统通过计算目标句与待选句的各个相对应语义块的概念之间相似度来得到待选句相对于目标答案的准确程度simConcept(t,b)=simCat(t,b)βcat+∑simFiv(t,b)βfiv+simSynt(t,b)βsyn 式中各符号含义simConcept待选概念b相对于目标概念t的概念相似度;simCat概念类别相似度simFiv五元组符号序列的概念相似度;simSyn语法符号的相似度;simNou本体层概念相似度;simRe挂靠层概念相似度;simHigh高层概念相似度;simMid中层概念相似度;simLow底层概念相似度;β对应概念符号部分的计算权重参数。3.根据权利要求1所述的基于自然语言理解的计算机信息检索系统,其特征在于,所述目标句类模式通过等语义的句类格式变换得到一个目标句类模式序列,将目标句类模式与所述待选答案句模式各个部分进行匹配比较判断二者的语义相似度,以及待选答案句包含目标答案的程度,待选句语义块相对于对应的目标句语义块的语义块相似度计算方法为simChunk(Chunkt,Chunkb)=(∑simConcept(Mti,Mbi)βm+∑simConcept(Kti,Kbf)βk)/Tt模式匹配法的答案准确度计算方法correctness(St,Sb)=Σi=1nsimChunk(Chunkti,Chunkbi)+answFitness(St,Sb).]]>4.根据权利要求1所述的基于自然语言理解的计算机信息检索系统,其特征在于,还包括假设—校验机制模块,所述目标句的语义关系矩阵通过假设—校验机制模块分析对待选答案句针对目标答案语义关系矩阵的识别;所述假设—校验机制模块,利用系统的语言学知识来校验计算所述知识库待选句中含有某个目标语义关系的置信度,以此发现不同的语言表达形式下所隐含的深层语义,语义关系识别的答案准确度计算方法correctness(St,Sb)=Σi=1nsimSynR(Rti,Rbi)confid(confidRti,confidRbi)βi+answFitness(St,Sb)]]>各符号含义n目标句中语义矩阵中的语义元素(或语义元素组合)的语义关系数目;simSynR语义关系相似度;R目标句(待选句)的语义关系;confid由两个语义关系的置信度所得的对于二者相似度的置信度;confidR语义关系的置信度;βi语义关系i的计算权重参数。5.根据权利要求1所述的基于自然语言理解的计算机信息检索系统,其特征在于,所述语义关系结构抽取模块对目标句中的各个概念元素(或者概念元素的组合)之间相互交叉的语义关系矩阵作分析和抽取,分别得到基于概念搭配的语义关系、基于句类...

【专利技术属性】
技术研发人员:梁威
申请(专利权)人:北京大学深圳研究生院
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1