一种基于Web动态信息抓取技术的详情页面自动生成方法技术

技术编号：14010790 阅读：88 留言：0更新日期：2016-11-17 11:40

本发明专利技术公开一种基于Web动态信息抓取技术的详情页面自动生成方法，包括以下步骤：1)抓取程序模块启动浏览器；2)模仿人的操作打开商品的详情页；3）抓取页面内的信息，并下载关联的图片；4）人工审核；该基于Web动态信息抓取技术的详情页面自动生成方法效率高。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于Web动态信息抓取技术的详情页面自动生成方法。
技术介绍
目前国内主流爬虫都是直接使用http协议，下载指定url的静态html内容，并对内容进行分析和抽取。此方法在搜索引擎、舆情监控、垂直门户网站等领域得到了大规模应用。但在电子商务领域，出于安全性、加载速度、页面静态化等因素的考虑，大部分网站的商品页面中的价格、商品规格、图文详情等都是通过js以及ajax加载的动态html内容。这使得传统的网络爬虫系统，根本无法有效的自动获取商品信息。随着互联网的发展，国内大量线下零售企业均开始建设自有电商平台，如广百百货的广百荟、广州友谊商场的网上商城，以实现商品线上线下一体售卖。但是传统零售企业如果想把自己大量的商品在线上售卖，就需要对每个商品录制详细的商品图文信息，工作量十分巨大。以大家电为例，仅冰箱、洗衣机、彩电、空调四大类商品，常用的型号就有8千到1万，如果按照5个人的录入团队，1个人平均每小时录入4个PC版商品+4个移动版的图文详情介绍，则需要3-4个月的时间，效率低。
技术实现思路
本专利技术要解决的技术问题是提供一种效率高的基于Web动态信息抓取技术的详情页面自动生成方法。为解决上述问题，本专利技术采用如下技术方案：一种基于Web动态信息抓取技术的详情页面自动生成方法，包括以下步骤：1)抓取程序模块启动浏览器；2)模仿人的操作打开商品的详情页；3）抓取页面内的信息，并下载关联的图片；4）人工审核。作为优选，所述抓取程序模块由Selenium测试工具和爬虫程序搭建。作为优选，所述步骤1）的具体步骤包括：1.1）在抓取程序模块上输入商品的...

【技术保护点】
一种基于Web动态信息抓取技术的详情页面自动生成方法，其特征在于，包括以下步骤：1)抓取程序模块启动浏览器；2)模仿人的操作打开商品的详情页；3）抓取页面内的信息，并下载关联的图片；4）人工审核。

【技术特征摘要】
1.一种基于Web动态信息抓取技术的详情页面自动生成方法，其特征在于，包括以下步骤：1)抓取程序模块启动浏览器；2)模仿人的操作打开商品的详情页；3）抓取页面内的信息，并下载关联的图片；4）人工审核。2.根据权利要求1所述的基于Web动态信息抓取技术的详情页面自动生成方法，其特征在于：所述抓取程序模块由Selenium测试工具和爬虫程序搭建。3.根据权利要求2所述的基于Web动态信息抓取技术的详情页面自动生成方法，其特征在于：所述步骤1）的具体步骤包括：1.1）在抓取程序模块上输入商品的基本信息和目标商城；1.2）抓取程序模块基于Selenium测试工具的功能实现模仿人的操作启动浏览器；1.3）登录商城；1.4）通过步骤1.1）预设的关键字，...

【专利技术属性】
技术研发人员：陈样新，毛涌泉，罗超，
申请(专利权)人：广州市皓轩软件科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人