一种网页信息提取方法及系统、电子设备技术方案

技术编号：26418788 阅读：18 留言：0更新日期：2020-11-20 14:14

本发明专利技术公开一种网页信息提取方法及系统、电子设备，该方法通过前置预处理过程对目标网页进行处理，获得处理后的目标网页及相应的字段提取规则，生成字段提取规则库，再进一步基于所述字段提取规则库从目标网页中提取对应的字段信息。本发明专利技术还公开一种网页信息提取系统，基于本发明专利技术公开的方法和系统解决了传统人工定制字段提取规则的效率低下的缺陷，也解决了利用现有开源工具包提取网页信息的正确率低稳定性差等问题，在降低人力成本和资源成本的同时,提高了字段信息提取的准确率和稳定性，因此具有明显的技术优势和技术效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种网页信息提取方法及系统、电子设备
本专利技术涉及数据分析领域，特别涉及一种网页信息提取方法及系统、电子设备。
技术介绍
在大数据时代，网络爬虫是从互联网上采集数据的有利工具，网络爬虫需要爬取相关的上百上千个站点网页以获得与主题有关的信息，比如标题、时间、来源、内容、作者等内容，而鉴于网页开发技术和样式设计的多样化，传统的解决方案是对每一个站点都要定制化提取代码和提取规则。这种解决方案的优势是字段提取的正确率非常高，但明显的缺点是由于网页样式的多样化，同时该方案严重依赖网页结构的稳定性，网页结构的调整就会导致其提取代码和规则也要做相应调整，因此采用该解决方案不具有通用性，开发成本高且持续性和稳定性较差。为了提高效率，另一种现有的技术方案是利用第三方开源的爬虫开发包，例如newspaper，newspaper是一个开源的Python类库，可用于网站内容的提取。利用类似newspaper这样的第三方开源类库进行网页内容的提取，虽然能提高效率，但是由于第三方开源库的框架不够稳定，爬取过程中会有各种bug，且正确率偏低，例如获取不到关键的url、字段信息等，因此难以直接商用，另外第三方开源库的默认的功能复杂，不适用于通用的需求，直接使用会有耗费更多的时间，资源占用过高等缺陷。
技术实现思路
本专利技术的目的在于克服现有技术中存在的上述不足，提供一种网页信息提取方法及系统，用于解决现有网页信息提取过程中，利用定制提取规则出现的人力成本消耗过大、或者利用第三方开源库出现的提取结果不稳定、系统资源占用...

【技术保护点】
1.一种网页信息提取方法，其特征是，通过前置预处理过程对目标网页进行处理，获得处理后的目标网页及相应的字段提取规则，生成字段提取规则库，再进一步基于所述字段提取规则库从目标网页中提取对应的字段信息。/n

【技术特征摘要】
1.一种网页信息提取方法，其特征是，通过前置预处理过程对目标网页进行处理，获得处理后的目标网页及相应的字段提取规则，生成字段提取规则库，再进一步基于所述字段提取规则库从目标网页中提取对应的字段信息。

2.如权利要求1中所述的网页信息提取方法，其特征是，包括以下步骤：
步骤S1：接收目标网页，对所述目标网页原文进行前置预处理，获取处理后的目标网页和字段提取规则，进一步生成字段提取规则库；
步骤S2：基于所述字段提取规则库，读入处理后的目标网页，获得对应的字段信息；
步骤S3：对获取的字段信息进行正确性验证。

3.如权利要求2中所述的网页信息提取方法，其特征是，步骤S1中所述的前置预处理具体包括以下实现步骤：
步骤S1-1:对所述目标网页原文进行清洗，去除干扰信息，获得清洗后的目标网页；
步骤S1-2：基于清洗后的目标网页建立网页样本，学习所述网页样本，获得字段提取规则。

4.如权利要求2中所述的网页信息提取方法，其特征是，所述字段提取规则的格式为正则表达式。

5.如权利要求3中所述的网页信息提取方法，其特征是，所述的干扰信息包括注释、脚本代码、预定义的文本。

6.如权利要求3中所述的网页信息提取方法，其特征是，所述步骤S1-2中获得字段提取规则的步骤具体包含以下实现步骤：
从所述目标网页中随机选取部分网页作为网页样本，根据所述网页样本获取字段信息，验证获得的字段信息的正确性；
如果字段信息出错，则获取对应的字段提取规则，并提交修改所述字段提取规则的请求；
接收并替换修改后的字段提取规则。

7.如权利要求3中所述的网页信息提取方法，其特征是，所述的步骤S2中，具体包括以下实现步骤：
步骤S2-1：读入目标网页，解析出所述目标网页的头部分和正文部分；
步骤S2-2：从所述目标网页的头部分中获取meta标签中的元信息；
步骤S2-3：从所述目标网...

【专利技术属性】
技术研发人员：何莹瑜，丁明会，许杰，吴桐，
申请(专利权)人：成都数联铭品科技有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人