用于获取网页信息的方法和装置制造方法及图纸

技术编号:18083940 阅读:54 留言:0更新日期:2018-05-31 12:27
本申请公开了用于获取网页信息的方法和装置。所述方法的一具体实施方式包括:解析目标网站中的网页,生成所述网页的结构树,从所述结构树的节点中提取至少一个网页元素,生成网页元素集合;对所述网页元素集合中的每个网页元素,确定该网页元素包含预设关键词库中的关键词的数量;根据各个网页元素包含的关键词的数量,在所述网页元素集合中选取出网页元素作为待提取网页元素,并由所选取的待提取网页元素生成信息提取模板;利用所述信息提取模板将所述目标网站中的网页的网页内容转换为结构化数据,从所述结构化数据中获取所述网页的信息。该实施方法实现了自动提取网页的信息。

【技术实现步骤摘要】
用于获取网页信息的方法和装置
本申请涉及计算机
,具体涉及互联网
,尤其涉及一种用于获取网页信息的方法和装置
技术介绍
随着网络技术的发展,互联网中存在着大量的网页数据,如何快速、有效的从大量的网页数据中,取得有用的知识,或从互联网上提取出特定领域的知识,成为网络信息获取的关键的问题。目前,从互联网上的网页中提取出特定领域的知识(如,各个上市公司的主营产品是什么)时,一般先找出此类信息比较集中的大网站,然后人工观察网站、网页的规律,配置抽取模板,利用模板从网站中获取知识。上述方法对于同类型的网页数据,特别是相同网站的网页数据来说,由于网页上存在着很多相同或相似的网页数据内容,在信息抽取时,针对具体网页类型配置模板即可实现。但是,网站中处在大量的不同类型的网页数据,需要配置不同的模板才能从不同类型的网页把数据中获取到网页的信息。
技术实现思路
本申请的目的在于提出一种改进的用于获取网页信息的方法和装置,来解决以上
技术介绍
部分提到的技术问题。第一方面,本申请提供了一种用于获取网页信息的方法,所述方法包括:解析目标网站中的网页,生成所述网页的结构树,从所述结构树的节点中提取至少一个网页元素,生成网页元素集合;对所述网页元素集合中的每个网页元素,确定该网页元素包含预设关键词库中的关键词的数量;根据各个网页元素包含的关键词的数量,在所述网页元素集合中选取出网页元素作为待提取网页元素,并由所选取的待提取网页元素生成信息提取模板;利用所述信息提取模板将所述目标网站中的网页的网页内容转换为结构化数据,从所述结构化数据中获取所述网页的信息。在一些实施例中,所述解析目标网站中的网页,生成所述网页的结构树,包括:从所述目标网站的网页中解析出所述网页的页面代码;根据所述页面代码生成所述网页的结构树。在一些实施例中,所述对所述网页元素集合中的每个网页元素,确定该网页元素包含预设关键词库中的关键词的数量,包括:对所述网页元素集合中的每个网页元素,将该网页元素包含的内容转换为文本信息,统计确定该文本信息中包含所述预设关键词库中关键词的数量。在一些实施例中,所述根据各个网页元素包含的关键词的数量,在所述网页元素集合中选取出网页元素作为待提取网页元素,并由所选取的待提取网页元素生成信息提取模板,包括:按照包含关键词数据量从多到少的顺序从所述网页元素集合中选取第一预定数目个网页元素作为目标网页元素集合;根据所述目标网页元素集合中各个目标网页元素在所述目标网站的网页内容中出现的次数,从所述目标元素集合中选出待提取网页元素;由所述待提取网页元素生成信息题模板。在一些实施例中,所述根据所述目标网页元素在所述目标网站的网页内容中出现的次数,从所述目标网页元素中选出待提取网页元素,包括:统计所述目标网页元素在所述目标网站的网页内容中出现的次数;对所述目标网页元素集合中的每个目标网页元素,为该目标网页元素包含关键词的数量赋第一权重,为该目标网页元素在所述目标网站的网页内容中出现的次数赋第二权重;对所述目标网页元素集合中的每个目标网页元素,根据该目标网页元素的第一权重和所述目标网页元素包含关键词数量以及第二权重和所述目标网页元素在所述目标网站的网页内容中出现的次数计算该目标网页元素的总权重;在所述目标网页元素集合中选取总权重最大的目标网页元素作为待提取网页元素。在一些实施例中,所述利用所述信息提取模板将所述目标网站中的网页的网页内容转换为结构化数据,从所述结构化数据中获取所述网页的信息,包括:获取所述待提取网页元素的统一资源定位符URL表达式和网页元素表达式作为提取所述结构化数据的路径;根据所述路径所指定的位置,利用所述信息提取模板从所述目标网站的网页内容中提取所述网页的结构化数据,将所述数结构化数据转换为文本信息;将所述文本信息作为所述网页的信息。在一些实施例中,所述方法还包括:从所述网页的信息中提取至少一个关键词;统计所述至少一个关键词中每个关键词的词频;从所述至少一个关键词中按照关键词的词频由高到低的顺序选取第二预定数目个关键词添加到所述预设关键词库中。第二方面,本申请提供了一种用于获取网页信息的装置,所述装置包括:解析单元,配置用于解析目标网站中的网页,生成所述网页的结构树,从所述结构树的节点中提取至少一个网页元素,生成网页元素集合;确定单元,配置用于对所述网页元素集合中的每个网页元素,确定该网页元素包含预设关键词库中的关键词的数量;模板生成单元,配置用于根据各个网页元素包含的关键词的数量,在所述网页元素集合中选取出网页元素作为待提取网页元素,并由所选取的待提取网页元素生成信息提取模板;获取单元,配置用于利用所述信息提取模板将所述目标网站中的网页的网页内容转换为结构化数据,从所述结构化数据中获取所述网页的信息。在一些实施例中,所述解析单元进一步配置用于:从所述目标网站的网页中解析出所述网页的页面代码;根据所述页面代码生成所述网页的结构树。在一些实施例中,所述确定单元进一步配置用于:对所述网页元素集合中的每个网页元素,将该网页元素包含的内容转换为文本信息,统计确定该文本信息中包含所述预设关键词库中关键词的数量。在一些实施例中,所述模板生成单元包括:排序模块,配置用于按照包含关键词数据量从多到少的顺序从所述网页元素集合中选取第一预定数目个网页元素作为目标网页元素集合;选取模块,配置用于根据所述目标网页元素集合中各个目标网页元素在所述目标网站的网页内容中出现的次数,从所述目标元素集合中选出待提取网页元素;生成模块,配置用于由所述待提取网页元素生成信息题模板。在一些实施例中,所述选取模块进一步配置用于:统计所述目标网页元素在所述目标网站的网页内容中出现的次数;对所述目标网页元素集合中的每个目标网页元素,为该目标网页元素包含关键词的数量赋第一权重,为该目标网页元素在所述目标网站的网页内容中出现的次数赋第二权重;对所述目标网页元素集合中的每个目标网页元素,根据该目标网页元素的第一权重和所述目标网页元素包含关键词数量以及第二权重和所述目标网页元素在所述目标网站的网页内容中出现的次数计算该目标网页元素的总权重;在所述目标网页元素集合中选取总权重最大的目标网页元素作为待提取网页元素。在一些实施例中,所述获取单元进一步配置用于:获取所述待提取网页元素的统一资源定位符URL表达式和网页元素表达式作为提取所述结构化数据的路径;根据所述路径所指定的位置,利用所述信息提取模板从所述目标网站的网页内容中提取所述网页的结构化数据,将所述数结构化数据转换为文本信息;将所述文本信息作为所述网页的信息。在一些实施例中,所述装置还包括关键词库更新单元,所述关键词库更新单元配置用于:从所述网页的信息中提取至少一个关键词;统计所述至少一个关键词中每个关键词的词频;从所述至少一个关键词中按照关键词的词频由高到低的顺序选取第二预定数目个关键词添加到所述预设关键词库中。本申请提供的用于获取网页信息的方法和装置,通过解析目标网站的网页内容,提取出网页元素,根据网页元素包含的关键词的数量生成信息提取模板,利用信息提取模板从目标网站的网页中获取网页的信息。从而可以有效利用关键词库中的关键词生成不同的信息提取模板,实现从不同的网站中自动获取网页的信息。附图说明通过阅读参照以下附本文档来自技高网...
用于获取网页信息的方法和装置

【技术保护点】
一种用于获取网页信息的方法,其特征在于,所述方法包括:解析目标网站中的网页,生成所述网页的结构树,从所述结构树的节点中提取至少一个网页元素,生成网页元素集合;对所述网页元素集合中的每个网页元素,确定该网页元素包含预设关键词库中的关键词的数量;根据各个网页元素包含的关键词的数量,在所述网页元素集合中选取出网页元素作为待提取网页元素,并由所选取的待提取网页元素生成信息提取模板;利用所述信息提取模板将所述目标网站中的网页的网页内容转换为结构化数据,从所述结构化数据中获取所述网页的信息。

【技术特征摘要】
1.一种用于获取网页信息的方法,其特征在于,所述方法包括:解析目标网站中的网页,生成所述网页的结构树,从所述结构树的节点中提取至少一个网页元素,生成网页元素集合;对所述网页元素集合中的每个网页元素,确定该网页元素包含预设关键词库中的关键词的数量;根据各个网页元素包含的关键词的数量,在所述网页元素集合中选取出网页元素作为待提取网页元素,并由所选取的待提取网页元素生成信息提取模板;利用所述信息提取模板将所述目标网站中的网页的网页内容转换为结构化数据,从所述结构化数据中获取所述网页的信息。2.根据权利要求1所述的用于获取网页信息的方法,其特征在于,所述解析目标网站中的网页,生成所述网页的结构树,包括:从所述目标网站的网页中解析出所述网页的页面代码;根据所述页面代码生成所述网页的结构树。3.根据权利要求1所述的用于获取网页信息的方法,其特征在于,所述对所述网页元素集合中的每个网页元素,确定该网页元素包含预设关键词库中的关键词的数量,包括:对所述网页元素集合中的每个网页元素,将该网页元素包含的内容转换为文本信息,统计确定该文本信息中包含所述预设关键词库中关键词的数量。4.根据权利要求3所述的用于获取网页信息的方法,其特征在于,所述根据各个网页元素包含的关键词的数量,在所述网页元素集合中选取出网页元素作为待提取网页元素,并由所选取的待提取网页元素生成信息提取模板,包括:按照包含关键词数据量从多到少的顺序从所述网页元素集合中选取第一预定数目个网页元素作为目标网页元素集合;根据所述目标网页元素集合中各个目标网页元素在所述目标网站的网页内容中出现的次数,从所述目标元素集合中选出待提取网页元素;由所述待提取网页元素生成信息题模板。5.根据权利要求4所述的用于获取网页信息的方法,其特征在于,所述根据所述目标网页元素在所述目标网站的网页内容中出现的次数,从所述目标网页元素中选出待提取网页元素,包括:统计所述目标网页元素在所述目标网站的网页内容中出现的次数;对所述目标网页元素集合中的每个目标网页元素,为该目标网页元素包含关键词的数量赋第一权重,为该目标网页元素在所述目标网站的网页内容中出现的次数赋第二权重;对所述目标网页元素集合中的每个目标网页元素,根据该目标网页元素的第一权重和所述目标网页元素包含关键词数量以及第二权重和所述目标网页元素在所述目标网站的网页内容中出现的次数计算该目标网页元素的总权重;在所述目标网页元素集合中选取总权重最大的目标网页元素作为待提取网页元素。6.根据权利要求1所述的用于获取网页信息的方法,其特征在于,所述利用所述信息提取模板将所述目标网站中的网页的网页内容转换为结构化数据,从所述结构化数据中获取所述网页的信息,包括:获取所述待提取网页元素的统一资源定位符URL表达式和网页元素表达式作为提取所述结构化数据的路径;根据所述路径所指定的位置,利用所述信息提取模板从所述目标网站的网页内容中提取所述网页的结构化数据,将所述数结构化数据转换为文本信息;将所述文本信息作为所述网页的信息。7.根据权利要求6所述的用于获取网页信息的方法,其特征在于,所述方法还包括:从所述网页的信息中提取至少一个关键词;统计所述至少一个关键词中每个关键词的词频...

【专利技术属性】
技术研发人员:陈鑫高建忠杨琳琳雷成军吴冬雪
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1