一种提取网页正文内容的方法及系统技术方案

技术编号:12293076 阅读:105 留言:0更新日期:2015-11-08 00:53
本发明专利技术公开了一种提取网页正文内容的方法及系统,该方法包括:S1、加载待分析网页的HTML源码,同时加载预设对比网页的HTML源码;S2、按行比较待分析网页和预设对比网页的HTML源码的相同性;S3、根据相同性对比结果,判断待分析网页是否为列表导航网页类型,若是,则结束,反之,执行步骤S4;S4、对待分析网页的HTML源码进行正文内容抽取。本发明专利技术通过对HTML源码逐行比较相同性,从而确定网页的噪音信息行和正文信息行,最后抽取获得网页正文内容,实现方式简单、快速,而且可以取得较高的准确率和完整性,能有效地抽取网页正文信息,可广泛应用于网页正文内容抽取领域中。

【技术实现步骤摘要】

本专利技术涉及计算机应用和信息抽取领域,特别是一种提取网页正文内容的方法及系统
技术介绍
名词解释: HTML:Hyper Text Markup Language,超文本标记语言; PHP:Hypertext Preprocessor,超文本预处理语言; SSI:Server Side Include,服务器端嵌入; SHTML:使用SSI的HTML文件扩展名; JS脚本:全称为javascript,是一种由Netscape的LiveScript发展而来的脚本语言,主要目的是为了解决服务器终端语言遗留的速度问题; CSS样式:层叠样式表,一种用来表现HTML (标准通用标记语言的一个应用)或XML (标准通用标记语言的一个子集)等文件样式的计算机语言; meta标签:在网页的HTML源代码中,位于头部,用来描述一个HTML网页文档的属性,例如作者、日期、关键词、网页描述等。UL/L1:UL、LI是使用CSS布局页面时常用的元素。随着互联网及其技术的迅猛发展,网络上的信息呈爆炸式增长。网络已经成为人类有史以来最为庞大的数据库,而网页已经成为Internet上最重要的信息资源。很多基于互联网的信息处理工作例如信息搜索、数据挖掘、机器翻译等,是以纯文本格式的信息内容为基础数据开展的而一般做舆情分析、文本挖掘,都会涉及到网页正文内容提取。对于分析、挖掘而言,有价值的信息是正文部分,大多数情况下,为了便于分析,需要将网页中和正文不相关的部分剔除。但是,在目前的互联网环境下,HTML是当前WEB上数据存在的主要格式,而HTML着重于数据的表现,HTML标签不带有语义,缺乏对数据的描述。将一个HTML形式的信息转换成有利用价值的文本格式信息,方便后续的信息处理,是极为关键的技术问题。一个web网页中的内容除了包括与主题有关的正文信息以外,还存在一些与主题无关的导航链接、广告链接和版权声明等噪音信息,这些噪音增加了正文内容的自动抽取难度。目前,关于网页正文提取从大方向上主要可分为基于包装器的方法、网页视觉特征分块的方法两类。一、基于包装器的方法:利用包装器提取网页正文是一种提出较早,也较为流行的方法,例如网页模板抽取方法。它的原理是通过构建包装器或网页模板规则,将符合规则的信息从网页信息源中提取出来。但是该方法只能针对某一类特定格式信息源,而构建它所需的信息模式识别知识的获取是一个费时费力的工作,在目前的互联网网页越来越多样化和可定制化的趋势下,使用模板解析网页正文往往不能适应新网页的正文抽取,需要人工干预,工作量大,代价很高,这种方法不通用。二、网页视觉特征分块方法:在视觉上,一个HTML网页的页面可以划分为若干个区域,同一个区域内包含相近的内容,我们把一个区域称为一个内容块,然后对内容块进行取舍抽取正文内容。这些内容块中,有的包含了正文内容,而有的则包含着噪音内容,例如广告等。但是这种方法,由于视觉特征的复杂性,很难有一个通用的规则集。除此之外,该算法还需要保存大量的视觉信息,其处理性能随着页面的复杂度急剧下降,面对日益复杂的页面,处理效果往往不能令人满意。总的来说,现有的方法要么算法流程过于简单,只能针对特定标签的网页风格进行内容提取,工作量大,效率不高;要么算法复杂度过高,对复杂多变的网页,处理效果不理雄V QjN O
技术实现思路
为了解决上述的技术问题,本专利技术的目的是提供一种提取网页正文内容的方法,本专利技术的目的是提供一种提取网页正文内容的系统。本专利技术解决其技术问题所采用的技术方案是: 一种提取网页正文内容的方法,包括: 51、加载待分析网页的HTML源码,同时加载预设对比网页的HTML源码; 52、按行比较待分析网页和预设对比网页的HTML源码的相同性; 53、根据相同性对比结果,判断待分析网页是否为列表导航网页类型,若是,则结束,反之,执行步骤S4 ; 54、对待分析网页的HTML源码进行正文内容抽取。进一步,所述步骤S2,包括: 521、分别去除待分析网页和预设对比网页的HTML源码中与正文无关的信息; 522、依次对比待分析网页和预设对比网页的HTML源码的每一行,并标记每行的对比结果属性为相同或不同; 523、根据每行的对比结果属性,对待分析网页的HTML源码进行遍历,形成包含对比结果属性的数组。进一步,所述步骤S21中所述与正文无关的信息包括JS脚本、CSS样式、meta标签、注释以及列表型标签。进一步,所述步骤S23,其具体为: 以待分析网页的HTML源码的行数为基准,根据每行的对比结果属性,对待分析网页的HTML源码进行遍历,先遍历每一个不同行,再遍历每一个相同行,进而形成包含对比结果属性的数组。进一步,所述步骤S3所述根据相同性对比结果,判断待分析网页是否为列表导航网页类型的步骤,其具体为: 获取待分析网页的HTML源码的不同行的遍历内容并去除其中的超链接标签后,判断剩余内容中的中文字数是否大于预设的最大中文字数阈值,若是,则判断待分析网页为内容类型页面,反之,判断待分析网页为列表导航网页类型。进一步,所述步骤S4,包括: 541、根据相同性对比结果,依序分别将待分析网页的HTML源码中的连续不同行生成文本信息块,获得文本信息块数组; 542、分别对每个文本信息块进行分析并抽取内容信息块; 543、依序合并内容信息块,并添加段落标记,形成正文内容。进一步,所述步骤S42,其具体为: 对每个文本信息块,判断是否存在某一行的标点符号的数量大于1,或者含有段落标签、表格标签或图像标签,且该行与其下一行的标点符号的总数量大于3、中文总字数大于10或其下一行含有段落标签或图像标签,则将该行到文本信息块的尾部的内容作为内容信息块。本专利技术解决其技术问题所采用的另一技术方案是: 一种提取网页正文内容的系统,包括: 加载模块,用于加载待分析网页的HTML源码,同时加载预设对比网页的HTML源码; 行对比模块,用于按行比较待分析网页和预设对比网页的HTML源码的相同性; 判断模块,用于根据相同性对比结果,判断待分析网页是否为列表导航网页类型,若是,则结束,反之,执行抽取模块; 抽取模块,用于对待分析网页的HTML源码进行正文内容抽取。进一步,所述行对比模块,包括: 第一子模块,用于分别去除待分析网页和预设对比网页的HTML源码中与正文无关的信息; 第二子模块,用于依次对比待分析网页和预设对比网页的HTML源码的每一行,并标记每行的对比结果属性为相同或不同; 第三子模块,用于根据每行的对比结果属性,对待分析网页的HTML源码进行遍历,形成包含对比结果属性的数组。进一步,所述抽取模块,包括: 第四子模块,用于根据相同性对比结果,依序分别将待分析网页的HTML源码中的连续不同行生成文本信息块,获得文本信息块数组; 第五子模块,用于分别对每个文本信息块进行分析并抽取内容信息块; 第六子模块,用于依序合并内容信息块,并添加段落标记,形成正文内容。本专利技术的有益效果是:本专利技术的一种提取网页正文内容的方法,包括:S1、加载待分析网页的HTML源码,同时加载预设对比网页的HTML源码;S2、按行比较待分析网页和预设对比网页的HTML源本文档来自技高网
...
一种提取网页正文内容的方法及系统

【技术保护点】
一种提取网页正文内容的方法,其特征在于,包括:S1、加载待分析网页的HTML源码,同时加载预设对比网页的HTML源码;S2、按行比较待分析网页和预设对比网页的HTML源码的相同性;S3、根据相同性对比结果,判断待分析网页是否为列表导航网页类型,若是,则结束,反之,执行步骤S4;S4、对待分析网页的HTML源码进行正文内容抽取。

【技术特征摘要】

【专利技术属性】
技术研发人员:吴远辉
申请(专利权)人:广州市万隆证券咨询顾问有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1