一种网页内容抽取的方法及装置制造方法及图纸

技术编号:8626045 阅读:193 留言:0更新日期:2013-04-25 23:09
本发明专利技术公开一种网页内容抽取的方法及装置,涉及信息技术领域,可以在进行网页内容抽取时,准确抽取网页标题以及网页中各个元素。本发明专利技术通过将HTML源码转换为对应的文档树结构,并根据文档树结构的TITLE标签,确定网页标题;根据网页标题,确定网页中的网页元素,网页元素至少包括网站LOGO、页面导航、新闻发布时间、新闻来源;根据网页标题,以及文档树结构的文本块的密度和文字数,确定各个文本块的属性;抽取所述网页标题、所述网页元素以及所述网页内容为正文的正文文本块,获取网页全文。本发明专利技术提供的方案适于进行网页内容抽取时采用。

【技术实现步骤摘要】

本专利技术涉及信息
,尤其涉及一种网页内容抽取的方法及装置
技术介绍
通过SAX解析器将网页源码中表示文本区域的〈P〉标签、<Hn>标签、<a>标签、<DIV>标签等标签中的内容解析为多个文本块,并计算各个文本块中的预设指标,判断此文本块的内容是否可以作为正文,其中,预设指标可以包括单词数、超链接密度等指标。例如,当前文本块的链接密度小于等于O. 333333,并且前一文本块的链接密度小于等于O. 555556,并且当前文本块的单词数小于等于16,并且下一文本块的单词数小于等于14,并且前一文本块的单词数大于4时,当前文本块能作为正文;前面条件不变,最后一个条件为前一文本块的单词数小于等于4时,当前文本块不能作为正文。然而,当采用现有技术进行网页内容抽取时,网页标题抽取不准确,网页各个元素抽取不全面等问题,导致网页正文抽取不准确。
技术实现思路
本专利技术的实施例提供一种网页内容抽取的方法及装置,可以在进行网页内容抽取时,准确抽取网页标题以及网页中各个元素。第一方面,本专利技术提供一种网页内容抽取的方法,包括将HTML源码转换为对应的文档树结构,并根据所述文档树结构的TITLE标签,确定网页标题;根据所述网页标题,确定网页中的网页元素,所述网页元素至少包括网站LOGO、页面导航、新闻发布时间、新闻来源;根据所述网页标题,以及所述文档树结构的文本块的密度和文字数,确定各个文本块的属性,所述文本块的属性包括所述文本块的网页内容为正文,或者所述文本块的网页内容非正文;抽取所述网页标题、所述网页元素以及所述网页内容为正文的正文文本块,获取网页全文。第二方面,本专利技术提供一种网页内容抽取的装置,包括转换单元,用于将HTML源码转换为对应的文档树结构;网页标题确定单元,用于将HTML源码转换为对应的文档树结构,并根据所述文档树结构的TITLE标签,确定网页标题;网页元素确定单元,用于根据所述网页标题,确定网页中的网页元素,所述网页元素至少包括网站LOGO、页面导航、新闻发布时间、新闻来源;文本块属性确定单元,用于根据所述网页标题,以及所述文档树结构的文本块的密度和文字数,确定各个文本块的属性,所述文本块的属性包括所述文本块的网页内容为正文,或者所述文本块的网页内容非正文;网页全文获取单元,用于抽取所述网页标题、所述网页元素以及所述网页内容为正文的正文文本块,获取网页全文。本专利技术实施例提供一种网页内容抽取的方法及装置,通过将HTML源码转换为对应的文档树结构,并根据所述文档树结构的TITLE标签,确定网页标题;根据所述网页标题,确定网页中的网页元素,所述网页元素至少包括网站LOGO、页面导航、新闻发布时间、新闻来源;根据所述网页标题,以及所述文档树结构的文本块的密度和文字数,确定各个文本块的属性,所述文本块的属性包括所述文本块的网页内容为正文,或者所述文本块的网页内容非正文;抽取所述网页标题、所述网页元素以及所述网页内容为正文的正文文本块,获取网页全文。与现有技术中进行网页内容抽取时,网页标题抽取不准确,网页各个元素抽取不全面等问题,导致网页正文抽取不准确相比,本专利技术实施例通过TITLE标签,确定网页标题,再根据网页标题确定网页其他元素,例如网站LOGO、页面导航、新闻发布时间、新闻来源等,使得在进行网页内容抽取时,准确抽取网页标题以及网页中各个元素。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例1提供的一种网页内容抽取的方法的流程图;图2为本专利技术实施例1提供的另一种网页内容抽取的方法的流程图;图3为本专利技术实施例1提供的一种确定当前文本块的网页内容为正文或者非正文的方法的流程图;图4为本专利技术实施例2提供的一种网页内容抽取的装置的框图;图5为本专利技术实施例2提供的另一种网页内容抽取的装置的框图;图6为本专利技术实施例2提供的第一确定模块的框图;图7为本专利技术实施例2提供的第三确定模块的框图。具体实施例方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例1本专利技术实施例提供一种网页内容抽取的方法,如图1所示,该方法包括步骤101,将HTML源码转换为对应的文档树结构,并根据所述文档树结构的TITLE标签,确定网页标题。通过对网页的超文本标记语言(Hyper Text Mark-up Language,HTML)源码解析,可以获得文档对象模型(Document Object Model,DOM),其也可以称为文档树结构。文档树结构中包含许多可以用于分析和模式匹配的有效信息。通过对文档树结构源码采用SAX解析,可以获得文本块。例如,在DIV布局的网页中,文档树结构由多个DIV块组成,DIV块即为DIV标签标记的文本块。DIV块作为一个容器,可以用来存放页面的文字和图片信息,网页正文页存在于DIV块之中。当然在本专利技术中,文档树结构中不仅包括DIV块,还可以包括由P标签标记的文本块、Hn标签标记的文本块等等。可选的,根据文档树结构的TITLE标签,确定网页标题包括根据文档树结构的TITLE标签,和/或,所述文档树结构属性“name”的值为“description”的META标签,获得第一网页标题信息;根据第一网页标题信息,以及预设的划分原则,提取第二网页标题信息,其中划分原则可以为根据“ I ”进行划分的原则,第二网页标题信息在第一网页标题信息中第一“ I ”之前的信息;根据所述第二网页标题信息,遍历所述文档树结构中的body标签中包括的所有文本块,当确定第二文本块中的网页内容与所述第二网页标题信息相匹配时,则将所述第二文本块的网页内容标记为网页标题,所述第二文本块为网页标题所在的文本块。步骤102,根据所述网页标题,确定网页中的网页元素,所述网页元素至少包括网站LOGO、页面导航、新闻发布时间、新闻来源。可选的,在一个网页全文中,网页标题很重要,但是网站LOGO、页面导航、新闻发布时间、新闻来源等可以使得网页信息更加全面,因此本专利技术支持网页全文中显示网页元素,使得网页全文显示的信息更加全面,更加详细。可选的,根据所述网页标题,确定网页中的网页元素包括在所述网页标题所在的文本块之前,根据页面导航正则表达式确定页面导航;在所述页面导航所在的文本块之前,根据所述文档树结构的包含LOGO关键字的IMG标签,确定网站LOGO ;在所述网页标题所在的文本块之后,根据日期正则表达式,确定新闻发布时间;在所述新闻发布时间所在的文本块之后,根据“来源”关键字,或者所述新闻发布时间所在的文本块之后的第一个文字串,确定新闻来源。步骤103,根据所述网页标题,以及所述文档树结构的文本块的密度和文字数,确定各个文本块的属性,所述文本块的属性包括所述文本块的网页内容为正文,本文档来自技高网...

【技术保护点】
一种网页内容抽取的方法,其特征在于,包括:将超文本标记语言HTML源码转换为对应的文档树结构,并根据所述文档树结构的标题TITLE标签,确定网页标题;根据所述网页标题,确定网页中的网页元素,所述网页元素至少包括网站商标LOGO、页面导航、新闻发布时间、新闻来源;根据所述网页标题,以及所述文档树结构的文本块的密度和文字数,确定各个文本块的属性,所述文本块的属性包括所述文本块的网页内容为正文,或者所述文本块的网页内容非正文;抽取所述网页标题、所述网页元素以及所述网页内容为正文的正文文本块,获取网页全文。

【技术特征摘要】
1.一种网页内容抽取的方法,其特征在于,包括 将超文本标记语言HTML源码转换为对应的文档树结构,并根据所述文档树结构的标题TITLE标签,确定网页标题; 根据所述网页标题,确定网页中的网页元素,所述网页元素至少包括网站商标LOGO、页面导航、新闻发布时间、新闻来源; 根据所述网页标题,以及所述文档树结构的文本块的密度和文字数,确定各个文本块的属性,所述文本块的属性包括所述文本块的网页内容为正文,或者所述文本块的网页内容非正文; 抽取所述网页标题、所述网页元素以及所述网页内容为正文的正文文本块,获取网页全文。2.根据权利要求1所述网页内容抽取的方法,其特征在于,文本块的密度包括文字密度和链接密度; 所述根据所述网页标题,以及所述文档树结构的文本块的密度和文字数,确定各个文本块的属性包括 根据所述文档树结构的文本块的文字密度、链接密度和文字数,确定当前文本块的网页内容为正文或者非正文; 根据所述网页标题,确定所述网页标题之前的网页内容为非正文; 根据所述文档树结构的文本块中包含的网页正文结束特征词,确定包含所述特征词的文本块之后的网页内容为非正文。3.根据权利要求2所述网页内容抽取的方法,其特征在于,所述根据所述文档树结构的文本块的文字密度、链接密度和文字数,确定当前文本块的网页内容为正文或者非正文包括 判断所述当前文本块的文字密度是否大于等于文字密度下限值; 当所述当前文本块的文字密度大于等于汉字密度下限值时,判断所述当前文本块的链接文字密度是否小于第一链接文字密度上限值; 当所述当前文本块的链接文字密度小于所述第一链接文字密度上限值时,判断前一个文本块中链接文字密度是否小于第二链接文字密度上限值; 当所述前一个文本块中连接文字密度小于所述第二链接文字密度上限值时,判断所述当前文本块的文字数是否小于第一文字数下限值; 当所述当前文本块的文字数小于所述第一文字数下限值时,判断后一个文本块的文字数是否小于第二文字数下限值; 当所述后一个文本块的文字数小于所述第二文字数下限值时,判断所述前一个文本块的文字数是否小于第三文字数下限值; 当所述前一个文本块的文字数小于所述第三文字数下限值时,确定所述当前文本块的网页内容为非正文; 当所述前一个文本块的文字数大于等于所述第三文字数下限值时,确定所述当前文本块的网页内容为正文。4.根据权利要求3所述网页内容抽取的方法,其特征在于, 当所述当前文本块的文字密度小于汉字密度下限值时,确定所述当前文本块的网页内容为非正文。5.根据权利要求3所述网页内容抽取的方法,其特征在于, 当所述当前文本块的链接文字密度大于等于所述第一链接文字密度上限值时,并且当所述前一个文本块的网页内容为正文时,判断所述当前文本块中链接的文字数的平均值是否小于文字数上限值; 当所述当前文本块中链接的文字数的平均值小于文字数上限值时,确定所述当前文本块的网页内容为正文; 当所述当前文本块中链接的文字数的平均值大于等于文字数上限值时,确定所述当前文本块的网页内容为非正文。6.根据权利要求3所述网页内容抽取的方法,其特征在于, 当所述当前文本块的链接文字密度大于等于所述第一链接文字密度上限值时,判断所述当前文本块的文字数是否小于等于第四文字数下限值; 当所述当前文本块的文字数大于所述第四文字数下限值时,确定所述当前文本块的网页内容为正文; 当所述当前文本块的文字数小于等于所述第四文字数下限值时,判断所述前一个文本块或者所述后一个文本块的文字数是否小于等于第五文字数下限值; 当所述前一个文本块或者后一个文本块的文字数小于等于所述第五文字数下限值时,确定所述当前文本块的网页内容为非正文; 当所述前一个文本块或者后一个文本块的文字数大于所述第五文字数下限值时,确定所述当前文本块的网页内容为正文。7.根据权利要求3所述网页内容抽取的方法,其特征在于, 当所述当前文本块的文字数大于等于所述第一文字数下限值时,确定所述当前文本块的网页内容为正文。8.根据权利要求3所述网页内容抽取的方法,其特征在于, 当所述后一个文本块的文字数大于等于所述第二文字数下限值时,判断所述前一个文本块的网页内容是否为正文; 当所述前一个文本块的网页内容为正文时,确定所述当前文本块的网页内容为正文; 当所述前一个文本块的网页内容为非正文时,确定所述当前文本块的网页内容为非正文。9.根据权利要求2所述网页内容抽取的方法,其特征在于,所述根据所述文档树结构的文本块中包含的网页正文结束特征词,确定包含所述特征词的文本块之后的网页内容为非正文包括 统计网页正文结束的特征词,生成语料库; 判断所述文档树结构的各个文本块的网页内容中是否包含所述语料库中的特征词; 当所述文档树结构的第一文本块的网页内容中包含所述语料库中的特征词时,确定所述第一文本块为网页正文结束文本块,并确定所述网页正文结束文本块之后的网页内容为非正文。10.根据权利要求1所述网页内容抽取的方法,其特征在于,在所述根据所述文档树结构的TITLE标签,确定网页标题之前,还包括将所述文档树结构的转义字符进行编码,获得转义字符普通文本形式; 当需要抽取图片时,将所述文档树结构的IMG标签进行编码,获得IMG标签普通文本形式。11.根据权利要求10所述网页内容抽取的方法,其特征在于,在将所述文档树结构的转义字符进行编码,获得转义字符普通文本形式之前,还包括 根据所述文档树结构中的Head部属性“http-equiv”的值为“Content-Type”的META标签,获取网页编码信息; 根据所述网页编码信息,执行所述网页内容抽取,获取所述网页全文。12.根据权利要求1所述网页内容抽取的方法,其特征在于,所述根据所述文档树结构的TITLE标签,确定网页标题包括 根据所述文档树结构的TITLE标签,和/或,根据所述文档树结构属性“name”的值为“description”的META标签,获得第一网页标题信息; 根据所述第一网页标题信息,提取第二网页标题信息; 根据所述第二网页标题信息,遍历所述文档树结构中的body标签中包括的所有文本块,当确定第二文本块中的网页内容与所述第二网页标题信息相匹配时,则将所述第二文本块的网页内容标记为网页标题,所述第二文本块为网页标题所在的文本块。13.根据权利要求1所述网页内容抽取的方法,其特征在于,所述根据所述网页标题,确定网页中的网页元素,所述网页元素至少包括网站LOGO、页面导航、新闻发布时间、新闻来源包括 在所述网页标题所在的文本块之前,根据页面导航正则表达式确定页面导航; 在所述页面导航所在的文本块之前,根据所述文档树结构的包含LOGO关键字的IMG标签,确定网站LOGO; 在所述网页标题所在的文本块之后,根据日期正则表达式,确定新闻发布时间; 在所述新闻发布时间所在的文本块之后,根据“来源”关键字,或者所述新闻发布时间所在的文本块之后的第一个文字串,确定新闻来源。14.根据权利要求10所述网页内容抽取的方法,其特征在于,在所述抽取所述网页标题、所述网页元素以及所述网页内容为正文的正文文本块,获取网页全文之前,还包括 将含有图片的文本块与紧邻所述含有图片的文本块之后的网页内容为正文的文本块合并为一个正文文本块。15.根据权利要求10所述网页内容抽取的方法,在所述抽取所述网页标题、所述网页元素以及所述网页内容为正文的正文文本块,获取网页全文之前,还包括 删除网页内容为非正文的文本块; 还原所述正文文本块的HTML标签,获得格式化后的网页正文; 将所述网页正文中的转义字符普通文本形式进行解码,恢复转义字符的功能; 将所述网页正文中的頂G标签普通文本形式进行解码,恢复MG标签的功能; 将所述网页正文中的链接添加转码应用的前缀。16.根据权利要求1-15中任一项所述网页内容抽取的方法,所述抽取所述网页标题、所述网页元素以及所述网页内容为正文的正文文本块,获取网页全文包括 根据所述网页标题、所述网页元素以及所述网页正文,获取网页全文,并以独立接口的形式显示所述网页全文。17.—种网页内容抽取的装置,其特征在于,包括 转换单元,用于将HTML源码转换为对应的文档树结构; 网页标题确...

【专利技术属性】
技术研发人员:兰晶徐慎昆
申请(专利权)人:盘古文化传播有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1