一种网页内容抽取的方法及装置制造方法及图纸

技术编号：8626045 阅读：200 留言：0更新日期：2013-04-25 23:09

本发明专利技术公开一种网页内容抽取的方法及装置，涉及信息技术领域，可以在进行网页内容抽取时，准确抽取网页标题以及网页中各个元素。本发明专利技术通过将HTML源码转换为对应的文档树结构，并根据文档树结构的TITLE标签，确定网页标题；根据网页标题，确定网页中的网页元素，网页元素至少包括网站LOGO、页面导航、新闻发布时间、新闻来源；根据网页标题，以及文档树结构的文本块的密度和文字数，确定各个文本块的属性；抽取所述网页标题、所述网页元素以及所述网页内容为正文的正文文本块，获取网页全文。本发明专利技术提供的方案适于进行网页内容抽取时采用。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息
，尤其涉及一种网页内容抽取的方法及装置。
技术介绍
通过SAX解析器将网页源码中表示文本区域的〈P〉标签、<Hn>标签、<a>标签、<DIV>标签等标签中的内容解析为多个文本块，并计算各个文本块中的预设指标，判断此文本块的内容是否可以作为正文，其中，预设指标可以包括单词数、超链接密度等指标。例如，当前文本块的链接密度小于等于O. 333333，并且前一文本块的链接密度小于等于O. 555556,并且当前文本块的单词数小于等于16,并且下一文本块的单词数小于等于14,并且前一文本块的单词数大于4时，当前文本块能作为正文；前面条件不变，最后一个条件为前一文本块的单词数小于等于4时，当前文本块不能作为正文。然而，当采用现有技术进行网页内容抽取时，网页标题抽取不准确，网页各个元素抽取不全面等问题，导致网页正文抽取不准确。
技术实现思路
本专利技术的实施例提供一种网页内容抽取的方法及装置，可以在进行网页内容抽取时，准确抽取网页标题以及网页中各个元素。第一方面，本专利技术提供一种网页内容抽取的方法，包括将HTML源码转换为对应的文档树结构，并根据所述文档树结构的TITLE标签，确定网页标题；根据所述网页标题,确定网页中的网页元素,所述网页元素至少包括网站LOGO、页面导航、新闻发布时间、新闻来源；根据所述网页标题，以及所述文档树结构的文本块的密度和文字数，确定各个文本块的属性，所述文本块的属性包括所述文本块的网页内容为正文，或者所述文本块的网页内容非正文；抽取所述网页标题、所述网页元素以及所述网页内容为正文的...

【技术保护点】
一种网页内容抽取的方法，其特征在于，包括：将超文本标记语言HTML源码转换为对应的文档树结构，并根据所述文档树结构的标题TITLE标签，确定网页标题；根据所述网页标题，确定网页中的网页元素，所述网页元素至少包括网站商标LOGO、页面导航、新闻发布时间、新闻来源；根据所述网页标题，以及所述文档树结构的文本块的密度和文字数，确定各个文本块的属性，所述文本块的属性包括所述文本块的网页内容为正文，或者所述文本块的网页内容非正文；抽取所述网页标题、所述网页元素以及所述网页内容为正文的正文文本块，获取网页全文。

【技术特征摘要】
1.一种网页内容抽取的方法，其特征在于，包括将超文本标记语言HTML源码转换为对应的文档树结构，并根据所述文档树结构的标题TITLE标签，确定网页标题；根据所述网页标题,确定网页中的网页元素,所述网页元素至少包括网站商标LOGO、页面导航、新闻发布时间、新闻来源；根据所述网页标题，以及所述文档树结构的文本块的密度和文字数，确定各个文本块的属性，所述文本块的属性包括所述文本块的网页内容为正文，或者所述文本块的网页内容非正文；抽取所述网页标题、所述网页元素以及所述网页内容为正文的正文文本块，获取网页全文。2.根据权利要求1所述网页内容抽取的方法，其特征在于，文本块的密度包括文字密度和链接密度；所述根据所述网页标题，以及所述文档树结构的文本块的密度和文字数，确定各个文本块的属性包括根据所述文档树结构的文本块的文字密度、链接密度和文字数，确定当前文本块的网页内容为正文或者非正文；根据所述网页标题，确定所述网页标题之前的网页内容为非正文；根据所述文档树结构的文本块中包含的网页正文结束特征词，确定包含所述特征词的文本块之后的网页内容为非正文。3.根据权利要求2所述网页内容抽取的方法，其特征在于，所述根据所述文档树结构的文本块的文字密度、链接密度和文字数，确定当前文本块的网页内容为正文或者非正文包括判断所述当前文本块的文字密度是否大于等于文字密度下限值；当所述当前文本块的文字密度大于等于汉字密度下限值时，判断所述当前文本块的链接文字密度是否小于第一链接文字密度上限值；当所述当前文本块的链接文字密度小于所述第一链接文字密度上限值时，判断前一个文本块中链接文字密度是否小于第二链接文字密度上限值；当所述前一个文本块中连接文字密度小于所述第二链接文字密度上限值时，判断所述当前文本块的文字数是否小于第一文字数下限值；当所述当前文本块的文字数小于所述第一文字数下限值时，判断后一个文本块的文字数是否小于第二文字数下限值；当所述后一个文本块的文字数小于所述第二文字数下限值时，判断所述前一个文本块的文字数是否小于第三文字数下限值；当所述前一个文本块的文字数小于所述第三文字数下限值时，确定所述当前文本块的网页内容为非正文；当所述前一个文本块的文字数大于等于所述第三文字数下限值时，确定所述当前文本块的网页内容为正文。4.根据权利要求3所述网页内容抽取的方法，其特征在于，当所述当前文本块的文字密度小于汉字密度下限值时，确定所述当前文本块的网页内容为非正文。5.根据权利要求3所述网页内容抽取的方法，其特征在于，当所述当前文本块的链接文字密度大于等于所述第一链接文字密度上限值时，并且当所述前一个文本块的网页内容为正文时，判断所述当前文本块中链接的文字数的平均值是否小于文字数上限值；当所述当前文本块中链接的文字数的平均值小于文字数上限值时，确定所述当前文本块的网页内容为正文；当所述当前文本块中链接的文字数的平均值大于等于文字数上限值时，确定所述当前文本块的网页内容为非正文。6.根据权利要求3所述网页内容抽取的方法，其特征在于，当所述当前文本块的链接文字密度大于等于所述第一链接文字密度上限值时，判断所述当前文本块的文字数是否小于等于第四文字数下限值；当所述当前文本块的文字数大于所述第四文字数下限值时，确定所述当前文本块的网页内容为正文；当所述当前文本块的文字数小于等于所述第四文字数下限值时，判断所述前一个文本块或者所述后一个文本块的文字数是否小于等于第五文字数下限值；当所述前一个文本块或者后一个文本块的文字数小于等于所述第五文字数下限值时，确定所述当前文本块的网页内容为非正文；当所述前一个文本块或者后一个文本块的文字数大于所述第五文字数下限值时，确定所述当前文本块的网页内容为正文。7.根据权利要求3所述网页内容抽取的方法，其特征在于，当所述当前文本块的文字数大于等于所述第一文字数下限值时，确定所述当前文本块的网页内容为正文。8.根据权利要求3所述网页内容抽取的方法，其特征在于，当所述后一个文本块的文字数大于等于所述第二文字数下限值时，判断所述前一个文本块的网页内容是否为正文；当所述前一个文本块的网页内容为正文时，确定所述当前文本块的网页内容为正文；当所述前一个文本块的网页内容为非正文时，确定所述当前文本块的网页内容为非正文。9.根据权利要求2所述网页内容抽取的方法，其特征在于，所述根据所述文档树结构的文本块中包含的网页正文结束特征词，确定包含所述特征词的文本块之后的网页内容为非正文包括统计网页正文结束的特征词，生成语料库；判断所述文档树结构的各个文本块的网页内容中是否包含所述语料库中的特征词；当所述文档树结构的第一文本块的网页内容中包含所述语料库中的特征词时，确定所述第一文本块为网页正文结束文本块，并确定所述网页正文结束文本块之后的网页内容为非正文。10.根据权利要求1所述网页内容抽取的方法，其特征在于，在所述根据所述文档树结构的TITLE标签,确定网页标题之前,还包括将所述文档树结构的转义字符进行编码，获得转义字符普通文本形式；当需要抽取图片时，将所述文档树结构的IMG标签进行编码，获得IMG标签普通文本形式。11.根据权利要求10所述网页内容抽取的方法，其特征在于，在将所述文档树结构的转义字符进行编码，获得转义字符普通文本形式之前，还包括根据所述文档树结构中的Head部属性“http-equiv”的值为“Content-Type”的META标签，获取网页编码信息；根据所述网页编码信息，执行所述网页内容抽取，获取所述网页全文。12.根据权利要求1所述网页内容抽取的方法，其特征在于，所述根据所述文档树结构的TITLE标签，确定网页标题包括根据所述文档树结构的TITLE标签，和/或，根据所述文档树结构属性“name”的值为“description”的META标签,获得第一网页标题信息；根据所述第一网页标题信息，提取第二网页标题信息；根据所述第二网页标题信息，遍历所述文档树结构中的body标签中包括的所有文本块，当确定第二文本块中的网页内容与所述第二网页标题信息相匹配时，则将所述第二文本块的网页内容标记为网页标题，所述第二文本块为网页标题所在的文本块。13.根据权利要求1所述网页内容抽取的方法，其特征在于，所述根据所述网页标题，确定网页中的网页元素，所述网页元素至少包括网站LOGO、页面导航、新闻发布时间、新闻来源包括在所述网页标题所在的文本块之前，根据页面导航正则表达式确定页面导航；在所述页面导航所在的文本块之前，根据所述文档树结构的包含LOGO关键字的IMG标签，确定网站LOGO; 在所述网页标题所在的文本块之后，根据日期正则表达式，确定新闻发布时间；在所述新闻发布时间所在的文本块之后，根据“来源”关键字，或者所述新闻发布时间所在的文本块之后的第一个文字串，确定新闻来源。14.根据权利要求10所述网页内容抽取的方法，其特征在于，在所述抽取所述网页标题、所述网页元素以及所述网页内容为正文的正文文本块，获取网页全文之前，还包括将含有图片的文本块与紧邻所述含有图片的文本块之后的网页内容为正文的文本块合并为一个正文文本块。15.根据权利要求10所述网页内容抽取的方法，在所述抽取所述网页标题、所述网页元素以及所述网页内容为正文的正文文本块，获取网页全文之前，还包括删除网页内容为非正文的文本块；还原所述正文文本块的HTML标签，获得格式化后的网页正文；将所述网页正文中的转义字符普通文本形式进行解码，恢复转义字符的功能；将所述网页正文中的頂G标签普通文本形式进行解码，恢复MG标签的功能；将所述网页正文中的链接添加转码应用的前缀。16.根据权利要求1-15中任一项所述网页内容抽取的方法，所述抽取所述网页标题、所述网页元素以及所述网页内容为正文的正文文本块，获取网页全文包括根据所述网页标题、所述网页元素以及所述网页正文，获取网页全文，并以独立接口的形式显示所述网页全文。17.—种网页内容抽取的装置，其特征在于，包括转换单元，用于将HTML源码转换为对应的文档树结构；网页标题确...

【专利技术属性】
技术研发人员：兰晶，徐慎昆，
申请(专利权)人：盘古文化传播有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人