一种回答自然语言问题的方法与装置制造方法及图纸

技术编号：7630203 阅读：207 留言：1更新日期：2012-08-03 11:52

公开了一种满足结构化信息源对检索精确性的要求、满足广大普通互联网用户日益增长的信息获取方面的需求的回答自然语言问题的方法，包括以下步骤：(1)生成实体-属性模型，进行实体-属性对集合的收集及特征提取；(2)执行用户查询分析，当用户输入查询内容时，将该查询内容映射到它对应的用户需求的实体-属性对，其中查询内容即自然语言问题。还提供了一种回答自然语言问题的装置。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及搜索引擎的
，具体地涉及一种回答自然语言问题的方法，该提供了使用该方法的装置。
技术介绍
伴随互联网上的信息资源的多样化趋势，网络上不断涌现出大量的具有一定组织结构的信息资源载体。当前主要基于关键字匹配的搜索引擎技术虽然在文档检索中有着较好的搜索效果，然而却并不能满足结构化信息源对检索精确性的要求。另一方面，虽然现有的数据库检索技术能够实现精确检索，然而由于它完全基于特定的数据库查询语言，因此无法实现面向广大普通用户的商用服务。
技术实现思路
为克服现有技术的缺陷，本专利技术要解决的技术问题是提供了一种满足结构化信息源对检索精确性的要求、满足广大普通互联网用户日益增长的信息获取方面的需求的回答自然语言问题的方法。本专利技术的技术方案是这种回答自然语言问题的方法，包括以下步骤(I)生成实体-属性模型，进行实体-属性对集合的收集及特征提取；(2)执行用户查询分析，当用户输入查询内容时，将该查询内容映射到它对应的用户需求的实体-属性对，其中查询内容即自然语言问题。还提供了一种回答自然语言问题的装置，包括(I)实体-属性模型，其进行实体-属性对集合的收集及特征提取；(2)用户查询分析模型，当用户输入查询内容时，利用用户查询分析模型将该查询内容映射到它对应的用户需求的实体-属性对，其中查询内容即自然语言问题。由于采用了实体-属性对的模式对用户查询的需求进行建模，经过建模，每一个用户查询将对应于一个实体-属性对,而该实体-属性对可以对大部分现有的结构化或半结构化信息资源进行索引，所以满足结构化信息源对检索精确性的要求、满足广大普通互联网用户日益增长的...

【技术保护点】

【技术特征摘要】
1.一种回答自然语言问题的方法，其特征在于包括以下步骤 (1)生成实体-属性模型，进行实体-属性对集合的收集及特征提取； (2)执行用户查询分析，当用户输入查询内容时，将该查询内容映射到它对应的用户需求的实体-属性对，其中查询内容即自然语言问题。2.根据权利要求I所述的回答自然语言问题的方法，其特征在于步骤(I)包括以下分步骤 (I. D实体抽取从在线的开放百科档案中获取实体名； (1.2)属性抽取从用户的查询内容中抽取出每一类实体的属性名； (1.3)属性特征生成从用户的查询内容中抽取每一属性相关的问题的最佳答案文本作为该属性的特征； (1. 4)实体-属性对模型生成将每一个实体名和该实体所具有的属性名组成实体-属性对，并结合该实体-属性对的属性特征生成实体-属性模型。3.根据权利要求2所述的回答自然语言问题的方法，其特征在于步骤(1.3)包括以下分步骤 (I. 3. I)检索出问题文本中包含该属性名的所有问答数据； (1.3. 2)过滤掉问题文本中不包含与用户关注的实体名同类的实体名的问答数据； (I. 3. 3)以BM25算法对检索出的问题依据它与属性名的相似程度排序； (1.3. 4)将排序结果中的前k个问题的最佳答案的文本集合作为该属性的特征，k为正整数。4.根据权利要求I所述的回答自然语言问题的方法，其特征在于步骤(2)包括以下分步骤 (2. I)查询预处理检测并回退无法从结构化或半结构化信息源中检索出答案的用户的查询； (2. 2)用户查询分析将用户的查询内容分拆为实体相关和属性相关两部分内容； (2. 3)用户查询所关注的实体的提取使用关键词匹配技术从实体相关的查询内容中提取出用户关注的实体名； (2. 4)用户查询...

【专利技术属性】
技术研发人员：郝宇，黄民烈，朱小燕，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人