网页内容获取方法和系统技术方案

技术编号:15219438 阅读:103 留言:0更新日期:2017-04-26 16:41
本发明专利技术公开了一种网页内容获取方法和系统。其中的方法包括:获取目标网址;根据目标网址获取对应的目标网页;将目标网页展示的内容处理成图片格式,得到目标图片;识别目标图片中的文字信息。本发明专利技术通过将目标网页转换为图片,再对图片进行内容识别的方式,即可以获取目标网页的内容,而无需获取源代码,通用性较强。

Method and system for acquiring webpage content

The invention discloses a method and a system for acquiring web page contents. The method includes: acquiring the target URL; according to the corresponding target. The target of \; will handle target page to display the contents of the image format, get the target image; identifying the target text in the image information. The method of the invention can convert the target web page into a picture, and then the contents of the image can be identified, and the content of the target web page can be obtained without obtaining the source code.

【技术实现步骤摘要】

本专利技术涉及互联网领域,尤其是一种网页内容获取方法和系统。
技术介绍
传统爬虫从一个或若干个初始URL(统一资源定位符)开始,获得初始URL对应的网页上的URL以及其他内容,同时也将当前页面上获得的新的URL放入队列继续抓取,直到满足系统的一定停止条件。所有被爬虫抓取的内容将会被存储,按照关键字、文本、图片、音视频等进行分类、分析、过滤,并建立索引,以便之后的查询和检索。现有的爬虫系统在获取目标网址后,获取目标网页的内容流程如图1所示,包括:步骤S102,获取目标网页中的网页源代码。步骤S104,解析源代码中的目标信息。步骤S106,将解析后的结果保存到数据库中。然而,有些网站采取了反爬虫措施,阻止爬虫获取网页源代码,从而爬虫无法完成对目标网页信息的获取。
技术实现思路
本专利技术实施例所要解决的一个技术问题是:如何在不获取网页源代码的情况下获取目标网页的内容信息。根据本专利技术实施例的第一个方面,提供了一种网页内容获取方法,包括:获取目标网址;根据目标网址获取对应的目标网页;将目标网页展示的内容处理成图片格式,得到目标图片;识别目标图片中的文字信息。在一个实施例中,方法还包括:利用网络爬虫技术获取目标网址;利用浏览器根据目标网址获取对应的目标网页。在一个实施例中,方法还包括:对目标图片进行裁剪得到目标图片的识别区域;识别目标图片的识别区域中的文字信息。在一个实施例中,识别目标图片中的文字信息包括:由服务器集群或云计算资源池识别目标图片中的文字信息。在一个实施例中,识别目标图片中的文字信息包括:使用光学字符识别技术识别目标图片中的文字信息。在一个实施例中,方法还包括:对识别出的文字信息进行数据清洗、分类存储和/或建立索引。根据本专利技术实施例的第二个方面,提供一种网页内容获取系统,包括:网址获取模块,用于获取目标网址;网页解析模块,用于根据目标网址获取对应的目标网页;图片获取模块,用于将目标网页展示的内容处理成图片格式,得到目标图片;识别模块,用于识别目标图片中的文字信息。在一个实施例中,系统还包括裁剪模块,用于对目标图片进行裁剪得到目标图片的识别区域,识别模块用于识别目标图片的识别区域中的文字信息。在一个实施例中,识别模块用于采用光学字符识别技术识别目标图片中的文字信息。在一个实施例中,系统还包括:数据清洗模块,用于对识别出的文字信息进行数据清洗,分类存储模块,用于将识别出的文字信息进行分类存储,和/或,索引模块,用于对识别出的文字信息建立索引。在一个实施例中,系统还包括网络爬虫、浏览器,以及服务器集群或云计算资源池;网络爬虫包括网址获取模块,浏览器包括网页解析模块和图片获取模块,服务器集群或云计算资源池包括识别模块。本专利技术至少具有以下优点:通过将目标网页转换为图片,再对图片进行内容识别的方式,即可以获取目标网页的内容,而无需获取源代码,通用性较强。通过以下参照附图对本专利技术的示例性实施例的详细描述,本专利技术的其它特征及其优点将会变得清楚。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1示出现有技术中网页内容获取方法的示意图。图2示出本专利技术网页内容获取方法一个实施例的流程示意图。图3示出本专利技术网页内容获取方法另一个实施例的流程示意图。图4示出本专利技术网页内容获取方法又一个实施例的流程示意图。图5示出本专利技术对网页部分区域进行内容获取的方法的示意图。图6(a)、6(b)示出本专利技术图片区域裁剪的示意图。图7示出本专利技术网页内容获取系统一个实施例的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本专利技术及其应用或使用的任何限制。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。下面参考图2描述本专利技术一个实施例的网页内容获取方法。图2为本专利技术网页内容获取方法的一个实施例的流程图。如图2所示,该实施例的方法包括:步骤S202,获取目标网址。步骤S204,根据目标网址获取对应的目标网页。步骤S206,将目标网页展示的内容处理成图片格式,得到目标图片。步骤S208,识别目标图片中的文字信息。通过将目标网页转换为图片,再对图片进行内容识别的方式,即可以获取目标网页的内容,而无需获取源代码,通用性较强。在步骤S208中,例如可以采用以下方法对目标图片进行识别:使用光学字符识别技术识别目标图片中的文字信息。光学字符识别(OpticalCharacterRecognition,以下简称为OCR)是指电子设备针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。本专利技术中,采用OCR技术进行识别主要由以下几个步骤组成:首先,将目标图片输入识别模块;然后,对目标图片进行预处理,包括二值化、图像降噪和/或倾斜校正,以便提高后续识别的精度;最后,进行文字特征抽取,选择相应的对比数据库进行文字信息的识别。如果对识别的精度要求较高,还可以在识别软件进行识别后进行人工校正,以避免产生较为明显的错误。由于网页中的文字信息大多为标准的印刷体,因此,采用OCR技术能够较好地识别目标图片中的文字信息。OCR工具例如可以采用Tesseract、OCRFeeder等开源工具。当需要批量获取网页内容时,可以使用爬虫技术。下面参考图3描述本专利技术网页内容获取一个实施例的方法。图3为本专利技术网页内容获取方法的另一个实施例的流程图。如图3所示,该实施例的方法包括:步骤S300,利用网络爬虫技术获取目标网址,并发送给浏览器。步骤S302,浏览器获取目标网址。步骤S304,浏览器根据目标网址获取对应的目标网页。然后可以继续执行步骤S206~S208。通过采用爬虫技术获取目标网址的方法,能够批量地获取目标网页所包含的文字信息,适用于大数据领域。在使用爬虫技术时,可以采用开源的技术实现爬虫功能,例如使用Java实现的WebCollector、JSpider、Crawler4j,还可以使用Python提供的urllib2、cookielib、re、threading库来编写爬虫脚本。需要时,可以对其进行进一步的定制,精简爬虫功能,只保留获取和解析URL的部分。大部分浏览器均可以实现上述方法中所需要的功能,如果需要对浏览器的部分功能进行更改,可以选择开源浏览器例如Fifth、Dooscape、Qupzilla等,使浏览器适用于本专利技术方法的执行环境。下面结合图4进一步描述采用爬虫技术进行网页内容获取的一个应用场景。图4为本专利技术网页内容获取方法的又一个实施例的流程图。如图4所示,该实施例的方法包括:步骤S402,爬虫获得爬取的URL对应的网页。步骤S404,本文档来自技高网...

【技术保护点】
一种网页内容获取方法,包括:获取目标网址;根据所述目标网址获取对应的目标网页;将所述目标网页展示的内容处理成图片格式,得到目标图片;识别所述目标图片中的文字信息。

【技术特征摘要】
1.一种网页内容获取方法,包括:获取目标网址;根据所述目标网址获取对应的目标网页;将所述目标网页展示的内容处理成图片格式,得到目标图片;识别所述目标图片中的文字信息。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:利用网络爬虫技术获取目标网址;利用浏览器根据所述目标网址获取对应的目标网页。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:对目标图片进行裁剪得到所述目标图片的识别区域;识别所述目标图片的识别区域中的文字信息。4.根据权利要求1所述的方法,其特征在于,识别所述目标图片中的文字信息包括:由服务器集群或云计算资源池识别所述目标图片中的文字信息。5.根据权利要求1或4所述的方法,其特征在于,识别所述目标图片中的文字信息包括:使用光学字符识别技术识别所述目标图片中的文字信息。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:对识别出的文字信息进行数据清洗、分类存储和/或建立索引。7.一种网页内容获取系统,包括:网址获取模块,用于获取目标网址;...

【专利技术属性】
技术研发人员:庞涛武娟钱锋
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1