【技术实现步骤摘要】
本专利技术涉及一种基于Web动态信息抓取技术的详情页面自动生成方法。
技术介绍
目前国内主流爬虫都是直接使用http协议,下载指定url的静态html内容,并对内容进行分析和抽取。此方法在搜索引擎、舆情监控、垂直门户网站等领域得到了大规模应用。但在电子商务领域,出于安全性、加载速度、页面静态化等因素的考虑,大部分网站的商品页面中的价格、商品规格、图文详情等都是通过js以及ajax加载的动态html内容。这使得传统的网络爬虫系统,根本无法有效的自动获取商品信息。随着互联网的发展,国内大量线下零售企业均开始建设自有电商平台,如广百百货的广百荟、广州友谊商场的网上商城,以实现商品线上线下一体售卖。但是传统零售企业如果想把自己大量的商品在线上售卖,就需要对每个商品录制详细的商品图文信息,工作量十分巨大。以大家电为例,仅冰箱、洗衣机、彩电、空调四大类商品,常用的型号就有8千到1万,如果按照5个人的录入团队,1个人平均每小时录入4个PC版商品+4个移动版的图文详情介绍,则需要3-4个月的时间,效率低。
技术实现思路
本专利技术要解决的技术问题是提供一种效率高的基于Web动态信息抓取技术的详情页面自动生成方法。为解决上述问题,本专利技术采用如下技术方案:一种基于Web动态信息抓取技术的详情页面自动生成方法,包括以下步骤:1)抓取程序模块启动浏览器;2)模仿人的操作打开商品的详情页;3)抓取页面内的信息,并下载关联的图片;4)人工审核。作为优选,所述抓取程序模块由Selenium测试工具和爬虫程序搭建。作为优选,所述步骤1)的具体步骤包括:1.1)在抓取程序模块上输入商品的 ...
【技术保护点】
一种基于Web动态信息抓取技术的详情页面自动生成方法,其特征在于,包括以下步骤:1)抓取程序模块启动浏览器;2)模仿人的操作打开商品的详情页;3)抓取页面内的信息,并下载关联的图片;4)人工审核。
【技术特征摘要】
1.一种基于Web动态信息抓取技术的详情页面自动生成方法,其特征在于,包括以下步骤:1)抓取程序模块启动浏览器;2)模仿人的操作打开商品的详情页;3)抓取页面内的信息,并下载关联的图片;4)人工审核。2.根据权利要求1所述的基于Web动态信息抓取技术的详情页面自动生成方法,其特征在于:所述抓取程序模块由Selenium测试工具和爬虫程序搭建。3.根据权利要求2所述的基于Web动态信息抓取技术的详情页面自动生成方法,其特征在于:所述步骤1)的具体步骤包括:1.1)在抓取程序模块上输入商品的基本信息和目标商城;1.2)抓取程序模块基于Selenium测试工具的功能实现模仿人的操作启动浏览器;1.3)登录商城;1.4)通过步骤1.1)预设的关键字,...
【专利技术属性】
技术研发人员:陈样新,毛涌泉,罗超,
申请(专利权)人:广州市皓轩软件科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。