网页内容获取方法和系统技术方案

技术编号：15219438 阅读：116 留言：0更新日期：2017-04-26 16:41

本发明专利技术公开了一种网页内容获取方法和系统。其中的方法包括：获取目标网址；根据目标网址获取对应的目标网页；将目标网页展示的内容处理成图片格式，得到目标图片；识别目标图片中的文字信息。本发明专利技术通过将目标网页转换为图片，再对图片进行内容识别的方式，即可以获取目标网页的内容，而无需获取源代码，通用性较强。

Method and system for acquiring webpage content

The invention discloses a method and a system for acquiring web page contents. The method includes: acquiring the target URL; according to the corresponding target. The target of \; will handle target page to display the contents of the image format, get the target image; identifying the target text in the image information. The method of the invention can convert the target web page into a picture, and then the contents of the image can be identified, and the content of the target web page can be obtained without obtaining the source code.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及互联网领域，尤其是一种网页内容获取方法和系统。
技术介绍
传统爬虫从一个或若干个初始URL(统一资源定位符)开始，获得初始URL对应的网页上的URL以及其他内容，同时也将当前页面上获得的新的URL放入队列继续抓取，直到满足系统的一定停止条件。所有被爬虫抓取的内容将会被存储，按照关键字、文本、图片、音视频等进行分类、分析、过滤，并建立索引，以便之后的查询和检索。现有的爬虫系统在获取目标网址后，获取目标网页的内容流程如图1所示，包括：步骤S102，获取目标网页中的网页源代码。步骤S104，解析源代码中的目标信息。步骤S106，将解析后的结果保存到数据库中。然而，有些网站采取了反爬虫措施，阻止爬虫获取网页源代码，从而爬虫无法完成对目标网页信息的获取。
技术实现思路
本专利技术实施例所要解决的一个技术问题是：如何在不获取网页源代码的情况下获取目标网页的内容信息。根据本专利技术实施例的第一个方面，提供了一种网页内容获取方法，包括：获取目标网址；根据目标网址获取对应的目标网页；将目标网页展示的内容处理成图片格式，得到目标图片；识别目标图片中的文字信息。在一个实施例中，方法还包括：利用网络爬虫技术获取目标网址；利用浏览器根据目标网址获取对应的目标网页。在一个实施例中，方法还包括：对目标图片进行裁剪得到目标图片的识别区域；识别目标图片的识别区域中的文字信息。在一个实施例中，识别目标图片中的文字信息包括：由服务器集群或云计算资源池识别目标图片中的文字信息。在一个实施例中，识别目标图片中的文字信息包括：使用光学字符识别技术识别目标图片中的文字信息。...

【技术保护点】
一种网页内容获取方法，包括：获取目标网址；根据所述目标网址获取对应的目标网页；将所述目标网页展示的内容处理成图片格式，得到目标图片；识别所述目标图片中的文字信息。

【技术特征摘要】
1.一种网页内容获取方法，包括：获取目标网址；根据所述目标网址获取对应的目标网页；将所述目标网页展示的内容处理成图片格式，得到目标图片；识别所述目标图片中的文字信息。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：利用网络爬虫技术获取目标网址；利用浏览器根据所述目标网址获取对应的目标网页。3.根据权利要求1所述的方法，其特征在于，所述方法还包括：对目标图片进行裁剪得到所述目标图片的识别区域；识别所述目标图片的识别区域中的文字信息。4.根据权利要求1所述的方法，其特征在于，识别所述目标图片中的文字信息包括：由服务器集群或云计算资源池识别所述目标图片中的文字信息。5.根据权利要求1或4所述的方法，其特征在于，识别所述目标图片中的文字信息包括：使用光学字符识别技术识别所述目标图片中的文字信息。6.根据权利要求1所述的方法，其特征在于，所述方法还包括：对识别出的文字信息进行数据清洗、分类存储和/或建立索引。7.一种网页内容获取系统，包括：网址获取模块，用于获取目标网址；...

【专利技术属性】
技术研发人员：庞涛，武娟，钱锋，
申请(专利权)人：中国电信股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人