用于自动建立网络上信息对象之间层次结构的方法和系统技术方案

技术编号:3540890 阅读:196 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了用于自动建立特定领域中的对象类别之间的层次结构的系统和方法。所述方法包括:获取与预定领域相关的一组URL;检索得到与所述URL组中的各个URL相对应的网站的集合;针对所述网站集合中的每个网站提取出一个层次结构,所述层次结构上的每个节点代表所述网站中涉及的所述预定领域的一个对象类别;以及集成提取出的所有所述层次结构以生成集成层次结构。在一个实施例中,本发明专利技术还包括提取出对象实例,以及将不带有类别信息的实例映射到集成层次结构上的相应节点的方法。根据本发明专利技术的系统和方法可以更有效地建立对象类别之间的层次结构。

【技术实现步骤摘要】

本专利技术涉及信息层次结构(hierarchy)的自动建立以及Web上的领域 (domain)知识收集以及层次结构建立/生成,更具体而言,本专利技术涉及用 于自动建立网络上针对特定领域中的信息对象之间的层次结构的方法和系
技术介绍
计算机已经成为现代生活必不可少的工具,它可以帮助用户找到感兴 趣的信息,这在当今大量信息在Web上不断积累的因特网时代尤其明显。 虽然计算机在进行诸如计算、存储或搜索之类的信息处理时速度很快,但 其无法理解信息,这成为智能信息处理的主要障碍。为了解决这个问题, 最近用于智能信息处理的语义相关研究变得非常流行。例如,在T. Berners-Lee 、 J. Hendler禾口 0. Lassila的题为"The Semantic Web " (Scientific American, 2001年5月,第28-37页)、Nigel Shabolt、 Tim Bemers-Lee和Wendy Hall的题为"The Semantic Web Revisited" (IEEE Intelligent Systems 21(3),第96-101页,2006年5月、6月)以及E. Hyvonen (编者)的题为"Semantic Web Kick-Off in Finland — Vision, Technologies, Research, and Applications" (HIIT Publications, 2002-001, Helsinki Institute for Information Technology (HIIT), Helsinki, Finland,第304 页)中所描述的技术,这些文档通过引用被整体上结合于此以用于所有目 的。它们的主要用途是帮助计算机理解信息的格式和技术。基于某些算术 逻辑,例如描述逻辑和框架逻辑,根据人工智能(AI)传统规律的知识表 示以及现在流行的Web信息处理技术,诸如万维网联盟(W3C)之类的 标准制订组织正在积极制订XML (可扩展标记语言)、RDF (资源描述 框架)和OWL (Web本体语言)等标准并且正在推广语义技术采用的规则语言,例如Web规则语言和规则标记语言。而且,很多研发商、企业和相关从业者也已经开始建立和采用相关工具集、产品,甚至实际应用来使 得基于语义的智能信息利用成为可能。但是,为了使用计算机的强大计算能力和语义相关标准向Web用户提 供不同的智能信息利用服务,领域知识在其中扮演非常关键的角色。因 此,领域知识的建立成为一个急需解决的重要问题。当前,主要存在两种领域信息,即本体(ontology)和层次结构。本体是一种文档或文件,其对特定领域中的知识进行抽象,以描述其 中的概念和概念之间的关系。用于Web的最典型本体具有分类系统 (taxonomy)和一组推理规则(inference rule)。其中分类系统定义了对 象类以及它们之间的关系。层次结构包含节点和连接节点的边,有时在节点处附接有实例 (instance)。与本体相比,层次结构是一种更简单的形式。本体中的很多 元素(例如类、属性、定义和关系)在层次机构中可被忽略。但是,这些 元素也可以通过某些方式从层次结构中推导出来。因此,层次结构可被视 为一种伪本体,其具有明确但不正式的规范。在现有技术中的本体建立(OB)方法主要分为两类。即基于原始素材 (raw material)的本体建立和基于某些已有本体的本体建立。在基于原始 素材的本体建立方法中,例如可以根据词的共同发生关系(co-occurrence)、 语言学规律、字典等来建立本体。在基于某些己有本体的本体建立方法 中,通过对比概念的文本、上下文等,将若干已有本体集成在一起以得到 一种最终本体。虽然本体对于语义Web和相关服务是非常重要的,但是要想自动建立 正式本体会遇到很多困难,这是因为本体通常包含很多内容,例如类、类 定义、类关系、属性等等,而即使通过人为干预,也难以填满所有这些内 容。因此,显而易见,本体的复杂格式阻碍了其在Web服务,特别是某些 实时服务中的大规模应用。此外,本体集成通常是通过人为交互来进行 的,它不像层次结构的集成那样易于自动实现。鉴于此,本专利技术将主要针 对特定领域中对象(产品)之间的层次结构的建立方法进行描述。在现有技术中,存在多种层次结构建立(Hierarchy Building, HB)的 方法。例如,在日本专利JP5-233416中描述了一种用于帮助人们设计层 次结构的HB方法(下称第一 HB方法)。具体而言,当用户需要向层次 结构添加新部件时,该HB方法检查层次结构上的现有部件并通知用户该 新部件是否会与某些现有部件产生冲突。此外,在日本专利JP2001-306377中也公开了一种用于HB的方法和系统(下称第二HB方法), 其允许多个用户一起编辑同一层次结构并最终将他们各自的结果集成。再 有,在日本专利JP2001-34635中公开了另一种基于Web的HB方法(下称第三HB方法)。具体而言,该方法从每个网页提取出一个节点, 然后基于网页之间的链接建立层次结构关系。但是该方法没有建立所有网 页之间的关系,而是仅仅对同种网页进行操作。例如,两个产品网页之间 的链接会被保存,但是一个产品网页和一个广告网页之间的链接将被忽 略。这里,以上专利通常引用被整体上结合于此以用于所有目的。但是,现有技术中的HB方法具有缺陷。例如,第一 HB方法只涉及 层次结构的编辑,而没有关注层次结构的取得、提取和集成,并且该方法 需要依赖于人为干预来解决冲突而无法实现自动操作。对于第二 HB方 法,它是基于数据库而非Web站点来进行层次结构的编辑。但是,数据库 通常无法获得,它不像Web站点那样具有一般性。对于第三HB方法,它 只能考虑到一个或两个层次结构,而无法处理更多层次结构。
技术实现思路
鉴于上述现有技术的HB方法所具有的缺陷,作出了本专利技术,其用于 有效地建立特定领域的对象(产品)之间的层次结构。根据本专利技术的一个方面,提供了一种用于自动建立对象类别之间的层 次结构的方法,其包括获取与预定领域相关的一组URL;检索得到与所 述URL组中的各个URL相对应的网站的集合;针对所述网站集合中的每 个网站提取出一个层次结构,所述层次结构上的每个节点代表所述网站中 涉及的所述预定领域的一个对象类别;以及集成所述网站集合中的所有网 站的层次结构以生成集成层次结构。根据本专利技术另一方面,提供了一种用于自动集成层次结构的方法,包 括获取与预定领域相关的第一 URL和第二 URL;检索得到与所述第一URL和所述第二 URL相对应的第一网站和第二网站;提取出分别对应于所述第一网站和第二网站的第一层次结构和第二层次结构,所述第一和第 二层次结构中的任意一个上的每个节点代表相应网站中涉及的所述预定领域的一个对象类别;以及通过执行操作来集成所述第一和第二层次结构以 生成集成层次结构。其中所述集成第一和第二层次结构的操作包括以下步 骤计算所述第一层次结构上的节点与所述第二层次结构上的节点之间的 关系;存储计算出的所有所述关系;根据存储的各个所述关系来确定应该 对相应节点执行的操作;以及对所述第一和第二层次结构上本文档来自技高网
...

【技术保护点】
一种用于自动建立网络上信息对象之间的层次结构的方法,包括: 获取与预定领域相关的一组URL; 检索得到与所述URL组中的各个URL相对应的网站的集合; 针对所述网站集合中的每个网站提取出一个层次结构,所述层次结构上的每个节 点代表所述网站中涉及的所述预定领域的一个信息对象类别;以及 集成提取出的所有所述层次结构以生成对应于所述预定领域的集成层次结构。

【技术特征摘要】

【专利技术属性】
技术研发人员:李建强赵彧赵凯福岛俊一
申请(专利权)人:日电中国有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1