一种提取网页正文内容的方法及系统技术方案

技术编号：12293076 阅读：118 留言：0更新日期：2015-11-08 00:53

本发明专利技术公开了一种提取网页正文内容的方法及系统，该方法包括：S1、加载待分析网页的HTML源码，同时加载预设对比网页的HTML源码；S2、按行比较待分析网页和预设对比网页的HTML源码的相同性；S3、根据相同性对比结果，判断待分析网页是否为列表导航网页类型，若是，则结束，反之，执行步骤S4；S4、对待分析网页的HTML源码进行正文内容抽取。本发明专利技术通过对HTML源码逐行比较相同性，从而确定网页的噪音信息行和正文信息行，最后抽取获得网页正文内容，实现方式简单、快速，而且可以取得较高的准确率和完整性，能有效地抽取网页正文信息，可广泛应用于网页正文内容抽取领域中。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机应用和信息抽取领域，特别是一种提取网页正文内容的方法及系统。
技术介绍
名词解释: HTML:Hyper Text Markup Language，超文本标记语言； PHP:Hypertext Preprocessor，超文本预处理语言； SSI:Server Side Include，服务器端嵌入; SHTML:使用SSI的HTML文件扩展名； JS脚本:全称为javascript，是一种由Netscape的LiveScript发展而来的脚本语言，主要目的是为了解决服务器终端语言遗留的速度问题； CSS样式:层叠样式表，一种用来表现HTML (标准通用标记语言的一个应用)或XML (标准通用标记语言的一个子集)等文件样式的计算机语言； meta标签:在网页的HTML源代码中，位于头部，用来描述一个HTML网页文档的属性，例如作者、日期、关键词、网页描述等。UL/L1:UL、LI是使用CSS布局页面时常用的元素。随着互联网及其技术的迅猛发展，网络上的信息呈爆炸式增长。网络已经成为人类有史以来最为庞大的数据库，而网页已经成为Internet上最重要的信息资源。很多基于互联网的信息处理工作例如信息搜索、数据挖掘、机器翻译等，是以纯文本格式的信息内容为基础数据开展的而一般做舆情分析、文本挖掘，都会涉及到网页正文内容提取。对于分析、挖掘而言，有价值的信息是正文部分，大多数情况下，为了便于分析，需要将网页中和正文不相关的部分剔除。但是，在目前的互联网环境下，HTML是当前WEB上数据存在的主要格式，而HTML着重于数...
一种提取网页正文内容的方法及系统

【技术保护点】
一种提取网页正文内容的方法，其特征在于，包括：S1、加载待分析网页的HTML源码，同时加载预设对比网页的HTML源码；S2、按行比较待分析网页和预设对比网页的HTML源码的相同性；S3、根据相同性对比结果，判断待分析网页是否为列表导航网页类型，若是，则结束，反之，执行步骤S4；S4、对待分析网页的HTML源码进行正文内容抽取。

【技术特征摘要】

【专利技术属性】
技术研发人员：吴远辉，
申请(专利权)人：广州市万隆证券咨询顾问有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人