公开了一种满足结构化信息源对检索精确性的要求、满足广大普通互联网用户日益增长的信息获取方面的需求的回答自然语言问题的方法,包括以下步骤:(1)生成实体-属性模型,进行实体-属性对集合的收集及特征提取;(2)执行用户查询分析,当用户输入查询内容时,将该查询内容映射到它对应的用户需求的实体-属性对,其中查询内容即自然语言问题。还提供了一种回答自然语言问题的装置。
【技术实现步骤摘要】
本专利技术涉及搜索引擎的
,具体地涉及一种回答自然语言问题的方法,该提供了使用该方法的装置。
技术介绍
伴随互联网上的信息资源的多样化趋势,网络上不断涌现出大量的具有一定组织结构的信息资源载体。当前主要基于关键字匹配的搜索引擎技术虽然在文档检索中有着较好的搜索效果,然而却并不能满足结构化信息源对检索精确性的要求。另一方面,虽然现有的数据库检索技术能够实现精确检索,然而由于它完全基于特定的数据库查询语言,因此无法实现面向广大普通用户的商用服务。
技术实现思路
为克服现有技术的缺陷,本专利技术要解决的技术问题是提供了一种满足结构化信息源对检索精确性的要求、满足广大普通互联网用户日益增长的信息获取方面的需求的回答自然语言问题的方法。本专利技术的技术方案是这种回答自然语言问题的方法,包括以下步骤(I)生成实体-属性模型,进行实体-属性对集合的收集及特征提取;(2)执行用户查询分析,当用户输入查询内容时,将该查询内容映射到它对应的用户需求的实体-属性对,其中查询内容即自然语言问题。还提供了一种回答自然语言问题的装置,包括(I)实体-属性模型,其进行实体-属性对集合的收集及特征提取;(2)用户查询分析模型,当用户输入查询内容时,利用用户查询分析模型将该查询内容映射到它对应的用户需求的实体-属性对,其中查询内容即自然语言问题。由于采用了实体-属性对的模式对用户查询的需求进行建模,经过建模,每一个用户查询将对应于一个实体-属性对,而该实体-属性对可以对大部分现有的结构化或半结构化信息资源进行索引,所以满足结构化信息源对检索精确性的要求、满足广大普通互联网用户日益增长的信息获取方面的需求。附图说明图I是根据本专利技术的回答自然语言问题的方法的流程图;图2是步骤(I)的流程图;图3是步骤(I. 3)的流程图;图4是步骤⑵的流程图;图5是步骤(2. 4)的流程图;图6是步骤(2. 4. 2)的流程图。具体实施例方式下面对本专利技术的技术方案做进一步的详细描述。如图I所示,这种回答自然语言问题的方法,包括以下步骤(1)生成实体-属性模型,进行实体-属性对集合的收集及特征提取;(2)执行用户查询分析,当用户输入查询内容时,将该查询内容映射到它对应的用户需求的实体-属性对,其中查询内容即自然语言问题。由于采用了实体-属性对的模式对用户查询的需求进行建模,经过建模,每一个用户查询将对应于一个实体-属性对,而该实体-属性对可以对大部分现有的结构化或半结构化信息资源进行索引,所以满足结构化信息源对检索精确性的要求、满足广大普通互联网用户日益增长的信息获取方面的需求。优选地,如图2所示,步骤(1)包括以下分步骤(1. 1)实体抽取从在线的开放百科档案中获取实体名;(1. 2)属性抽取从用户的查询内容中抽取出每一类实体的属性名;(1. 3)属性特征生成从用户的查询内容中抽取每一属性相关的问题的最佳答案文本作为该属性的特征;(I. 4)实体-属性对模型生成将每一个实体名和该实体所具有的属性名组成实体-属性对,并结合该实体-属性对的属性特征生成实体-属性模型。更进一步地,如图3所示,步骤(1. 3)包括以下分步骤(1. 3. I)检索出问题文本中包含该属性名的所有问答数据;(1.3.2)过滤掉问题文本中不包含与用户关注的实体名同类的实体名的问答数据;(1. 3. 3)以BM25算法对检索出的问题依据它与属性名的相似程度排序;(1.3.4)将排序结果中的前k个问题的最佳答案的文本集合作为该属性的特征,k为正整数。优选地,如图4所示,步骤(2)包括以下分步骤(2. 1)查询预处理检测并回退无法从结构化或半结构化信息源中检索出答案的用户的查询;(2.2)用户查询分析将用户的查询内容分拆为实体相关和属性相关两部分内容;(2. 3)用户查询所关注的实体的提取使用关键词匹配技术从实体相关的查询内容中提取出用户关注的实体名;(2. 4)用户查询所关注的属性的提取使用基于语言模型和作者-话题模型的混合模型根据属性相关的查询内容预测用户关注的属性名;(2. 5)分析结果后处理将所提取的用户关注的实体名和属性名组合成实体-属性对,输出该实体-属性对。更进一步地,如图5所示,步骤(2. 4)包括以下分步骤(2.4. 1)生成候选属性名列表根据已经提取出的实体名,得到它所具有的全部属性作为候选属性;(2. 4. 2)属性相关的查询内容的特征生成从问答数据中抽取该内容文本相关的问题的最佳答案文本作为该查询内容的特征;(2. 4. 3)计算属性相关的查询内容的特征与各候选属性特征的语义关联使用如下公式计算该语义关联的数值rel(phr,att) = μ · relsim(phr, att) + (l~u ) · relint (phr, att)其中,phr表示查询内容,att表示候选属性,且有,relsim (phr, att) = sim(F , Fatt) = K:I Fphr Il Ku I reIint (phr, att) = p (a = att | Fphr)其中,F*表示提取出的特征文档,sim(·,·)为文档间的相似度计算,在实际应用中可以采用余弦距离(如上式)或其他具体的度量方法;p(a = · I ·)表示作者-话题模型中的作者对给定文本的后验概率;(2.4.4)结果输出选择与查询的语义关联数值最大的一个或多个属性名,输出该一个或多个属性名。更进一步地,如图6所示,步骤(2. 4. 2)包括以下分步骤(2. 4. 2. I)检索出问题文本中匹配该内容文本的所有问答数据;(2. 4. 2. 2)过滤掉问题文本中不包含与用户关注的实体名同类的实体名的问答数据;(2. 4. 2. 3)以BM25算法对检索出的问题依据它与属性名的相似程度排序;(2.4.2.4)将排序结果中的前k个问题的最佳答案的文本集合作为该属性的特征,k为正整数。还提供了一种回答自然语言问题的装置,包括(I)实体-属性模型,其进行实体-属性对集合的收集及特征提取;(2)用户查询分析模型,当用户输入查询内容时,利用用户查询分析模型将该查询内容映射到它对应的用户需求的实体-属性对,其中查询内容即自然语言问题。以上所述,仅是本专利技术的较佳实施例,并非对本专利技术作任何形式上的限制,凡是依据本专利技术的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本专利技术技术方案的保护范围。本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种回答自然语言问题的方法,其特征在于包括以下步骤 (1)生成实体-属性模型,进行实体-属性对集合的收集及特征提取; (2)执行用户查询分析,当用户输入查询内容时,将该查询内容映射到它对应的用户需求的实体-属性对,其中查询内容即自然语言问题。2.根据权利要求I所述的回答自然语言问题的方法,其特征在于步骤(I)包括以下分步骤 (I. D实体抽取从在线的开放百科档案中获取实体名; (1.2)属性抽取从用户的查询内容中抽取出每一类实体的属性名; (1.3)属性特征生成从用户的查询内容中抽取每一属性相关的问题的最佳答案文本作为该属性的特征; (1. 4)实体-属性对模型生成将每一个实体名和该实体所具有的属性名组成实体-属性对,并结合该实体-属性对的属性特征生成实体-属性模型。3.根据权利要求2所述的回答自然语言问题的方法,其特征在于步骤(1.3)包括以下分步骤 (I. 3. I)检索出问题文本中包含该属性名的所有问答数据; (1.3. 2)过滤掉问题文本中不包含与用户关注的实体名同类的实体名的问答数据; (I. 3. 3)以BM25算法对检索出的问题依据它与属性名的相似程度排序; (1.3. 4)将排序结果中的前k个问题的最佳答案的文本集合作为该属性的特征,k为正整数。4.根据权利要求I所述的回答自然语言问题的方法,其特征在于步骤(2)包括以下分步骤 (2. I)查询预处理检测并回退无法从结构化或半结构化信息源中检索出答案的用户的查询; (2. 2)用户查询分析将用户的查询内容分拆为实体相关和属性相关两部分内容; (2. 3)用户查询所关注的实体的提取使用关键词匹配技术从实体相关的查询内容中提取出用户关注的实体名; (2. 4)用户查询...
【专利技术属性】
技术研发人员:郝宇,黄民烈,朱小燕,
申请(专利权)人:清华大学,
类型:发明
国别省市: