一种迭代式概念属性名称自动获取方法和系统技术方案

技术编号:7682533 阅读:237 留言:0更新日期:2012-08-16 05:52
本发明专利技术公开一种迭代式概念属性名称自动获取方法和系统,其特征在于,所述方法包括如下步骤:步骤1,将需要获取的概念名称,建立属性空间,所述属性空间包含以属性构成的概念名称;步骤2,从属性空间中选择的属性前缀和/或属性后缀,从网页中提取候选属性;步骤3,采用基于相似性的验证模型对候选属性进行验证,通过迭代方式扩充属性集合。

【技术实现步骤摘要】

本专利技术涉及人工智能计算机领域中的大规模知识获取领域,尤其涉及一种迭代式的概念属性名称自动获取方法和系统。
技术介绍
任何概念词都有一定的语义。但是概念词仅是一个特殊的术语,其直接表达语义的能力非常弱,因此我们必须借助其他类型的知识进一 步表达或者刻画概念词所蕴涵的语义。概念的属性就是一种此类的知识。一般认为,属性是一种概念内涵的载体。一个属性描述了概念的一个特征或性质;通过属性,我们可以区分不同的概念,发现它们之间的差异。因此,属性具备描述概念和鉴别概念的功能。每个概念都有一组用于鉴别和修饰的属性,这些属性在文本中表现为不同的属性名称。属性名称是表示属性的专有名词,大多数属性名称都能起到见名知义的作用。我们可以通过获取较常用的概念-属性名称的搭配,给出概念的关键属性集合。有了这个集合,我们就具备描述概念和鉴别概念的能力。另外,属性名称获取也是属性值获取的前一步工作。为方便理解属性的含义,下面我们给出一个例子对地域类的概念“中国”,它有一些属性名称“人口总数”、“人口数量”、“国土面积”、“GDP”等等。其中“人口总数”和“人口数量”具有相同的语义,它们所表达的那个特定的语义就是“人口总数”和“人口数量”所对应的属性,而“人口总数”和“人口数量”则是那个属性的具体的载体——属性名称。通过给出的这些具体的属性名称,我们就能从属性这个角度去认识概念“中国”,同时也能在这个角度上将“中国”和其他类型的概念(比如植物类的概念“苹果”)区分开来。另外,对“中国”的“国土面积”这个属性名称而言,它有一个属性值960万平方公里,属性值获取也是一类重要的知识获取,而获取属性值的前提工作是获取概念的属性名称。在不致混淆的情况下,本专利技术的下文中,为了简化陈述,我们都直接使用属性来简称属性名称。中文属性主要包括数量型、定性型、角色型三种类型。目前的属性获取除了耗时耗力地手工获取外,在计算机自动或半自动获取方面,依据语料数据的来源,主要包括基于结构化数据源的提取,如Web查询日志;基于半结构化的Web网页的提取,如从网页表格或表单中提取,从Wikipedia Articles中提取;以及基于多数据源的提取。基于结构化和半结构化数据源的方法因其语料结构规整简短,具有一定的规律性,针对性强,主要采用弱文法和统计的方式进行提取,具有较高的准确率,但由于数据源的规模有限,因此召回率普遍不高。基于多数据源的方法主要是将结构化与非结构数据交叉迭代起来获取,首先从结构化数据中获取准确率较高的结果作为种子属性,然后使用种子属性从非结构化文本中迭代获取更多的属性。这种方法相比单一语料来源,综合考虑了准确率和召回率,但获取方法相对更加复杂,且结果属性的好坏和属性类型过多依赖于种子。现有技术方法的结果数量一般都在100以内,且偏重用Top N结果的准确率,而忽略了真实属性集合的庞大和多样性。实际上,每种类型的概念,其真实的属性集合一般远远超过了他们获取得到的数量,且属性类型丰富多样,其中很多属性尽管不是很常见,但在某个领域却很重要(比如,对类型“国家”来说,“货币供应量增长率”,“淡水人均拥有量”就是不常见但是分别在经济和环境领域却很重要的属性),而他们的方法一般无法获取到这种不常见的属性,也就无法满足构建大型知识库的需求。因此,迫切需要一种概念属性的大规模自动获取方法和系统,从而提高目前属性获取的效率和效果。
技术实现思路
为解决上述问题,本专利技术的目的是公开一种迭代式的概念属性名称自动获取方法 和系统,是解决上述现有技术的无法迭代获取,召回率不高和类型覆盖不全面的问题,提出了一种从非结构化Web网页中基于前后缀迭代的属性获取方法及系统。现有技术的获取方法只能得到为数不多的属性,而对于每个概念来说,其实际的属性数量却远远超越了他们能获取到的数量,我们的方法能获取到庞大的属性数量,相比现有技术的结果,我们的结果更接近于真实的属性数量;现有技术的方法侧重于属性的获取,而对于获取结果的验证,却不甚重视,我们的方法不仅重视获取,也更重视结果的验证,因此本方法不仅具有较高的召回率,也具有很高的准确率。非结构化数据源由于结构复杂多样,获取较其他数据源更困难,但它却具有语料开放丰富等优点。本专利技术公开一种迭代式概念属性名称自动获取方法,包括如下步骤步骤1,将需要获取的概念名称,建立属性空间,所述属性空间包含以属性构成的概念名称;步骤2,从属性空间中选择属性前缀和/或属性后缀,从网页中提取候选属性;步骤3,采用基于相似性的验证模型对候选属性进行验证,通过迭代方式扩充属性前缀和/或属性后缀。所述的迭代式概念属性名称自动获取方法,其特征在于,步骤I还包括如下步骤步骤21,属性空间由属性构成;每个概念有一组属性,这些属性构成了此概念的属性空间,表达属性本质的属性元为中心属性元,修饰其它属性元的属性元为修饰性属性元;中心属性元不修饰任何属性元;在一个属性中,除中心属性元以外的属性元都是修饰性属性元;步骤22,出现在结尾的中心属性元,定义为属性后缀,出现在开头的修饰性属性元,定义为属性前缀。所述的迭代式概念属性名称自动获取方法,步骤3之后还包括步骤4,从候选属性进行验证后,得到正确属性;步骤5,对正确属性提取新的属性前缀、属性后缀,然后继续从步骤2开始执行。所述的迭代式概念属性名称自动获取方法,步骤3中扩充属性前缀、属性后缀还包括如下步骤步骤31,将得到的正确属性作为种子,加入到集合Seeds中;步骤32,从Seeds中训练新的后缀,加入到新生广的属性后缀集合SUFnew中;步骤33,从Seeds中训练新的前缀,加入到新生产的属性前缀集合PREnew中;步骤34,如果SUFnew为空,且PREnew为 空,则获取结束;否则执行步骤35 ;步骤35,使用SUFnew从网页中获取概念的候选属性,并赋值给As',其中As'表示候选属性的集合;步骤36,验证As ^,得到的正确属性赋值给As,并将As加入到属性空间中,其中As表示经过验证后的正确属性的集合;步骤37,从As中训练新的前缀,加入到PREnew中;步骤38,使用PREnew从网页中获取概念的候选属性,并赋值给As';步骤,39,验证As',得到的正确属性赋值给As,并将As加入到属性空间属性空间中;步骤310,清空 PREnew ;步骤311,从As中训练新的后缀,加入到SUFnew中;转步骤34。所述的迭代式概念属性名称自动获取方法,步骤32、步骤311还包括如下步骤步骤41,清空 SUFnew ;步骤42,从输入参数的第I个属性起,顺序地取出下一个属性;如果输入参数中的属性都取完,则转步骤46 ;否则,标记取到的属性为A,执行步骤43 ;步骤43,得到A的结尾词,标记为属性元AE ;步骤44,如果AE已经被当做后缀使用过,则转步骤42 ;否则执行步骤45 ;步骤45 :如果AE在后缀词典中,则将AE加入到SUFnew ;否则如果AE在输入参数中作为结尾词的频率大于等于阈值s,也将AE加入到SUFnew ;转步骤42 ;步骤46 :返回 SUFnew。所述的迭代式概念属性名称自动获取方法,步骤33、步骤37还包括如下步骤步骤51,清空 PREnew ;步骤52,从输入参数Input的第I个属性起,顺序地取出本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:曹存根汪平仄
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1