信息处理装置和方法以及信息定位装置制造方法及图纸

技术编号:15574277 阅读:122 留言:0更新日期:2017-06-12 02:53
本公开提供了信息处理装置和方法以及信息定位装置。信息处理装置包括:搜索单元,用于搜索与关注对象有关的结构化的网页信息;语义特征获取单元,用于获取能够对搜索到的网页信息进行表征的语义特征,所述语义特征表示所搜索到的网页信息中的、与所述关注对象相关联的内容;以及样式特征获取单元,用于获取能够对搜索到的网页信息进行表征的样式特征,所述样式特征表示所搜索到的网页信息的结构,其中,所述样式特征获取单元被配置为计算搜索到的网页信息的DOM树中的、与给定节点有关的标签名、标识和类名的出现频率,并得到以所述出现频率为权重的样式向量,以作为所述样式特征。

【技术实现步骤摘要】
信息处理装置和方法以及信息定位装置
本公开总体上涉及信息处理领域,具体而言,涉及对网页信息进行处理的信息处理装置和方法以及利用该信息处理装置或方法的信息定位装置。
技术介绍
目前,面对如互联网等包括海量信息的信息源,如何得到用户感兴趣的信息正受到越来越多的关注。为了提高信息处理的效果,如果能够得到用户期望的与关注对象有关的网页信息的特性,则可以利于过滤掉用户不想要的内容以及提取用户期望内容等。因此,期望能够得到诸如互联网的信息源中与关注对象有关的网页信息的特性,以便利于利用该特性进行后续处理。
技术实现思路
在下文中给出了关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理解。应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的关键或重要部分,也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。鉴于现有技术的上述缺陷,本专利技术的目的之一是提供一种能够获得与关注对象有关的网页信息的特性的信息处理方法和装置,以至少克服现有的问题。根据本公开的一个方面,提供了一种信息处理装置,包括:搜索单元,用于搜索与关注对象有关的结构化的网页信息;语义特征获取单元,用于获取能够对搜索到的网页信息进行表征的语义特征,所述语义特征表示所搜索到的网页信息中的、与所述关注对象相关联的内容;以及样式特征获取单元,用于获取能够对搜索到的网页信息进行表征的样式特征,所述样式特征表示所搜索到的网页信息的结构,其中,所述样式特征获取单元被配置为计算搜索到的网页信息的DOM树中的、与给定节点有关的标签名、标识和类名的出现频率,并得到以所述出现频率为权重的样式向量,以作为所述样式特征。根据本公开的另一方面,提供了一种信息定位装置,其利用上述信息处理装置在与所述关注对象有关的网站中定位与所述关注对象有关的结构化的网页信息,所述信息定位装置包括:网站语义特征获取单元,用于获取所述网站的目标部分的语义特征,该语义特征表示所述目标部分中的、与所述关注对象相关联的内容;网站样式特征获取单元,用于获取所述网站的目标部分的样式特征,该样式特征表示所述目标部分的结构;相关度计算单元,用于计算所述目标部分的语义特征与所述信息处理装置所获取的语义特征之间的语义相关度、以及所述目标部分的样式特征与所述信息处理装置所获取的样式特征之间的样式相关度;以及确定单元,用于基于所计算的语义相关度和样式相关度,确定所述目标部分是否为所述结构化的网页信息,其中,所述网站样式特征获取单元被配置为:计算所述网站的目标部分的DOM树中的、与符合预定条件的节点有关的标签名、标识和类名的出现频率,并得到以所述出现频率为权重的网站样式向量,以作为所述目标部分的样式特征。根据本公开的又一方面,提供了一种信息处理方法,包括:搜索与关注对象有关的结构化网页信息;获取能够对搜索到的网页信息进行表征的语义特征,所述语义特征表示所搜索到的网页信息中的、与所述关注对象相关联的内容;以及获取能够对搜索到的网页信息进行表征的样式特征,所述样式特征表示所搜索到的网页信息的结构,其中,获取所述样式特征包括:计算搜索到的网页信息的DOM树中的、与给定节点有关的标签名、标识和类名的出现频率,并得到以所述出现频率为权重的样式向量,以作为所述样式特征。依据本公开的其它方面,还提供了一种使得计算机用作如上所述的信息处理装置的程序。依据本公开的又一方面,还提供了相应的计算机可读存储介质,该计算机可读存储介质上存储有能够由计算设备执行的计算机程序,该计算机程序在执行时能够使计算设备执行上述信息处理方法。上述根据本公开实施例的各个方面,至少能够获得以下益处:利用本公开所提供的信息处理方法和装置,能够针对与关注对象有关的结构化的网页信息获得这些网页信息的语义特征和样式特征,并且所得到的语义特征反映了与关注对象相关联的内容,所得到的样式特征反映了网页信息的DOM树中的样式信息,即相当于获得了与关注对象有关的特性信息。此外,利用本公开所提供的信息定位装置,能够利用所得到的语义特征和样式特征,在与关注对象有关的网站中定位与关注对象有关的结构化的网页信息。通过以下结合附图对本公开的最佳实施例的详细说明,本公开的这些以及其他优点将更加明显。附图说明本公开可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中:图1是示意性地示出根据本公开实施例的信息处理装置的示例结构的框图。图2A至图2C是用于说明根据本公开实施例的信息处理装置的样式特征获取单元所进行的示例处理的说明图。图3是示意性地示出根据本公开实施例的信息定位装置的示例结构的框图。图4是示意性地示出根据本公开实施例的信息定位装置的另一示例结构的框图。图5是示意性地示出根据本公开实施例的信息处理方法的示例流程的流程图。图6是示出了可用来实现根据本公开实施例的信息处理装置和方法的一种可能的硬件配置的结构简图。具体实施方式在下文中将结合附图对本专利技术的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本专利技术,在附图中仅仅示出了与根据本专利技术的方案密切相关的装置结构和/或处理步骤,而省略了与本专利技术关系不大的其他细节。在面对诸如互联网的涉及大量信息的信息源时,期望能够得到与关注对象有关的网页信息的特性,以便利于利用该特性进行后续处理。基于此,本公开提出了一种信息处理方法和信息处理装置,其能够针对与关注对象有关的结构化的网页信息获得这些网页信息的语义特征和样式特征,并且所得到的语义特征反映了与关注对象相关联的内容,所得到的样式特征反映了网页信息的DOM树中的样式信息。根据本公开的一个方面,提供了一种信息处理装置。图1是示意性地示出根据本公开实施例的信息处理装置的示例结构的框图。如图1所示,信息处理装置100包括:搜索单元101,用于搜索与关注对象有关的结构化的网页信息;语义特征获取单元102,用于获取能够对搜索到的网页信息进行表征的语义特征,所述语义特征表示所搜索到的网页信息中的、与所述关注对象相关联的内容;以及样式特征获取单元103,用于获取能够对搜索到的网页信息进行表征的样式特征,所述样式特征表示所搜索到的网页信息的结构,其中,所述样式特征获取单元103被配置为计算搜索到的网页信息的DOM树中的、与给定节点有关的标签名、标识和类名的出现频率,并得到以所述出现频率为权重的样式向量,以作为所述样式特征。利用上述信息处理装置100,能够针对与关注对象有关的结构化的网页信息获得本文档来自技高网...
信息处理装置和方法以及信息定位装置

【技术保护点】
一种信息处理装置,包括:搜索单元,用于搜索与关注对象有关的结构化的网页信息;语义特征获取单元,用于获取能够对搜索到的网页信息进行表征的语义特征,所述语义特征表示所搜索到的网页信息中的、与所述关注对象相关联的内容;以及样式特征获取单元,用于获取能够对搜索到的网页信息进行表征的样式特征,所述样式特征表示所搜索到的网页信息的结构,其中,所述样式特征获取单元被配置为计算搜索到的网页信息的DOM树中的、与给定节点有关的标签名、标识和类名的出现频率,并得到以所述出现频率为权重的样式向量,以作为所述样式特征。

【技术特征摘要】
1.一种信息处理装置,包括:搜索单元,用于搜索与关注对象有关的结构化的网页信息;语义特征获取单元,用于获取能够对搜索到的网页信息进行表征的语义特征,所述语义特征表示所搜索到的网页信息中的、与所述关注对象相关联的内容;以及样式特征获取单元,用于获取能够对搜索到的网页信息进行表征的样式特征,所述样式特征表示所搜索到的网页信息的结构,其中,所述样式特征获取单元被配置为计算搜索到的网页信息的DOM树中的、与给定节点有关的标签名、标识和类名的出现频率,并得到以所述出现频率为权重的样式向量,以作为所述样式特征。2.如权利要求1所述的信息处理装置,其中,所述语义特征获取单元被配置为:计算搜索到的网页信息当中的、与所述关注对象的互信息高于第一阈值的词语的出现频率,并得到以所述出现频率为权重的语义向量,以作为所述语义特征。3.如权利要求2所述的信息处理装置,其中,所述语义特征获取单元进一步被配置为:将搜索到的网页信息当中的、与所述关注对象的互信息高于第二阈值的词语作为关键词,并得到搜索到的网页信息当中的、与所述关键词的互信息高于所述第一阈值且与所述关注对象的互信息不高于所述第一阈值的词语,其中所述第二阈值高于所述第一阈值;以及计算所得到的词语在搜索到的网页信息当中的出现频率,并将该出现频率作为新的权重加入所述语义向量中。4.如权利要求1所述的信息处理装置,其中,所述与给定节点有关的标签名、标识和类名包括从所述DOM树的根节点到所述给定节点的路径中所包括的节点的标签名、标识和类名。5.如权利要求1所述的信息处理装置,其中,所述与关注对象有关的结构化的网页信息为与关注对象有关的新闻类型的网页信息。6.如权利要求5所述的信息处理装置,其中,所述给定节点包括时间节点、标题节点和正文节点。7.一种信息定位装置,其利用如权利要求1-6中任一项所述的信息处理装置在与所述关注对象有关的网站中定位与所述关注对象有关的结构化的网页信息,所述信息定位装置包括:网站语义特征获取单元,用于获取所述网站的目标部分的语...

【专利技术属性】
技术研发人员:张波孟遥孙俊
申请(专利权)人:富士通株式会社
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1