一种基于Web动态信息抓取技术的详情页面自动生成方法技术

技术编号:14010790 阅读:77 留言:0更新日期:2016-11-17 11:40
本发明专利技术公开一种基于Web动态信息抓取技术的详情页面自动生成方法,包括以下步骤:1)抓取程序模块启动浏览器;2)模仿人的操作打开商品的详情页;3)抓取页面内的信息,并下载关联的图片;4)人工审核;该基于Web动态信息抓取技术的详情页面自动生成方法效率高。

【技术实现步骤摘要】

本专利技术涉及一种基于Web动态信息抓取技术的详情页面自动生成方法
技术介绍
目前国内主流爬虫都是直接使用http协议,下载指定url的静态html内容,并对内容进行分析和抽取。此方法在搜索引擎、舆情监控、垂直门户网站等领域得到了大规模应用。但在电子商务领域,出于安全性、加载速度、页面静态化等因素的考虑,大部分网站的商品页面中的价格、商品规格、图文详情等都是通过js以及ajax加载的动态html内容。这使得传统的网络爬虫系统,根本无法有效的自动获取商品信息。随着互联网的发展,国内大量线下零售企业均开始建设自有电商平台,如广百百货的广百荟、广州友谊商场的网上商城,以实现商品线上线下一体售卖。但是传统零售企业如果想把自己大量的商品在线上售卖,就需要对每个商品录制详细的商品图文信息,工作量十分巨大。以大家电为例,仅冰箱、洗衣机、彩电、空调四大类商品,常用的型号就有8千到1万,如果按照5个人的录入团队,1个人平均每小时录入4个PC版商品+4个移动版的图文详情介绍,则需要3-4个月的时间,效率低。
技术实现思路
本专利技术要解决的技术问题是提供一种效率高的基于Web动态信息抓取技术的详情页面自动生成方法。为解决上述问题,本专利技术采用如下技术方案:一种基于Web动态信息抓取技术的详情页面自动生成方法,包括以下步骤:1)抓取程序模块启动浏览器;2)模仿人的操作打开商品的详情页;3)抓取页面内的信息,并下载关联的图片;4)人工审核。作为优选,所述抓取程序模块由Selenium测试工具和爬虫程序搭建。作为优选,所述步骤1)的具体步骤包括:1.1)在抓取程序模块上输入商品的基本信息和目标商城;1.2)抓取程序模块基于Selenium测试工具的功能实现模仿人的操作启动浏览器;1.3)登录商城;1.4)通过步骤1.1)预设的关键字,在目标网站进行搜索,找到对应的商品。作为优选,所述步骤2)的具体步骤包括:2.2)打开商品的详情页;2.3)等待浏览器加载完静态和动态内容。作为优选,所述步骤3)的具体步骤包括:3.1)基于爬虫程序的功能实现自动抓取该页面内的商品价格、规格参数和商品详情信息,并下载关联的图片;3.2)将抓取到的图文信息的格式进行转化。作为优选,所述步骤1.4)若找不到对应的商品则重新返回到步骤1.1)重新输入商品的基本信息和目标商城。本专利技术的有益效果为:通过模仿人在浏览器发起鼠标点击、键盘输入等操作,并可监控操作后浏览器内容的变化,再结合网络爬虫的抓取的信息功能,完全模拟一个真实的用户在浏览器的浏览操作,因此抓取的信息和真实用户看到的图文信息是完全一致的。相比于传统的网络爬虫产品兼容性好、速度快、数据抓取准确等特点。具体实施方式一种基于Web动态信息抓取技术的详情页面自动生成方法,包括以下步骤:1)抓取程序模块启动浏览器;2)模仿人的操作打开商品的详情页;3)抓取页面内的信息,并下载关联的图片;4)商城管理人员查看已抓取的商品信息,对存在问题的内容进行快速修改,通过审核后信息开始应用于自己的商城。本专利技术的有益效果为:通过模仿人在浏览器发起鼠标点击、键盘输入等操作,并可监控操作后浏览器内容的变化,再结合网络爬虫的抓取的信息功能,完全模拟一个真实的用户在浏览器的浏览操作,因此抓取的信息和真实用户看到的图文信息是完全一致的。相比于传统的网络爬虫产品兼容性好、速度快、数据抓取准确等特点。实施例2一种基于Web动态信息抓取技术的详情页面自动生成方法,包括以下步骤:1.在抓取程序模块上输入商品的基本信息和目标商城;抓取程序模块基于Selenium测试工具的功能实现模仿人的操作启动浏览器,登录商城;通过预设的关键字,在目标网站进行搜索,找到对应的商品,若找不到对应的商品则重新输入商品的基本信息和目标商城;2)打开商品的详情页,等待浏览器加载完静态和动态内容;3)基于爬虫程序的功能实现自动抓取该页面内的商品价格、规格参数和商品详情信息,并下载关联的图片;然后将抓取到的图文信息转化为我方商城的商品数据格式;4)商城管理人员查看已抓取的商品信息,对存在问题的内容进行快速修改,通过审核后信息开始应用于自己的商城。所述抓取程序模块由Selenium测试工具和爬虫程序搭建,基于Selenium技术和网络爬虫技术实现信息自动抓取程序,具有可以控制浏览器的行为,模仿人在浏览器发起鼠标点击、键盘输入等操作,并可监控操作后浏览器内容的变化,模仿一个商城会员的操作:打开浏览器->登录目标商城->查找目标商品->打开商品详情页面->等待浏览器加载完静态和动态内容,然后再抽取商品名称、价格、图文详情等内容,操作完全模拟一个真实的用户在浏览器的浏览操作,因此抓取的信息和真实用户看到的图文信息是完全一致的。本专利技术的有益效果为:采用Selenium技术和网络爬虫技术通过模仿人在浏览器发起鼠标点击、键盘输入等操作,并可监控操作后浏览器内容的变化,再结合网络爬虫的抓取的信息功能,完全模拟一个真实的用户在浏览器的浏览操作,因此抓取的信息和真实用户看到的图文信息是完全一致的。相比于传统的网络爬虫产品兼容性好、速度快、数据抓取准确等特点。以上所述,仅为本专利技术的具体实施方式,但本专利技术的保护范围并不局限于此,任何不经过创造性劳动想到的变化或替换,都应涵盖在本专利技术的保护范围之内。本文档来自技高网...

【技术保护点】
一种基于Web动态信息抓取技术的详情页面自动生成方法,其特征在于,包括以下步骤:1)抓取程序模块启动浏览器;2)模仿人的操作打开商品的详情页;3)抓取页面内的信息,并下载关联的图片;4)人工审核。

【技术特征摘要】
1.一种基于Web动态信息抓取技术的详情页面自动生成方法,其特征在于,包括以下步骤:1)抓取程序模块启动浏览器;2)模仿人的操作打开商品的详情页;3)抓取页面内的信息,并下载关联的图片;4)人工审核。2.根据权利要求1所述的基于Web动态信息抓取技术的详情页面自动生成方法,其特征在于:所述抓取程序模块由Selenium测试工具和爬虫程序搭建。3.根据权利要求2所述的基于Web动态信息抓取技术的详情页面自动生成方法,其特征在于:所述步骤1)的具体步骤包括:1.1)在抓取程序模块上输入商品的基本信息和目标商城;1.2)抓取程序模块基于Selenium测试工具的功能实现模仿人的操作启动浏览器;1.3)登录商城;1.4)通过步骤1.1)预设的关键字,...

【专利技术属性】
技术研发人员:陈样新毛涌泉罗超
申请(专利权)人:广州市皓轩软件科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1