寻找热点商品的方法、控制系统、设备、存储介质及终端技术方案

技术编号:36753949 阅读:13 留言:0更新日期:2023-03-04 10:43
本发明专利技术属于爬虫技术领域,公开了一种寻找热点商品的方法、控制系统、设备、存储介质及终端,寻找热点商品的方法包括选取网站;爬取搜索页的列表;爬取详情页面;存储数据;步分析数据,生成图表。本发明专利技术设计一种选取通用的爬虫框架,充分利用多台机器的带宽速度爬取数据,利用多台机器的IP爬取网站数据,有效的提高爬取效率。遍历搜索页中所有选项分类及筛选条件的所有页数URL,获取详情页URL,写入redis数据库中,再通过redis中的详情页面url,爬取详情页面中的具体数据,将数据存储到数据库,另外编写统计分析逻辑,输出统计图表,也可以通过商品产地等坐标生成商品热力分布图。有效的提高爬取效率。高爬取效率。高爬取效率。

【技术实现步骤摘要】
寻找热点商品的方法、控制系统、设备、存储介质及终端


[0001]本专利技术属于爬虫
,尤其涉及一种寻找热点商品的方法、控制系统、设备、存储介质及终端。

技术介绍

[0002]随着互联网的发展,海量的数据出现在了人们的视野,只有学会了快速的采集数据,存储数据,分析数据,才能从海量数据中,统计出人们普遍关注的热点,根据普遍大众的生活习惯,生活需求,才能更好的决策出有利于大众的服务。
[0003]redis是一个key

value存储系统。和Memcached类似,它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)、zset(sorted set
‑‑
有序集合)和hash(哈希类型)。这些数据类型都支持push/pop、add/remove及取交集并集和差集及更丰富的操作,而且这些操作都是原子性的。
[0004]通过上述分析,现有技术存在的问题及缺陷为:
[0005](1)现有技术中对各个行业所关注的热点数据无法进行分析商品市场分布信息,不能为规划店铺信息提供技术支持。
[0006](2)现有技术中爬取以传统的顺序任务进行,爬取效率低。爬取详情页面获取的具体数据不全面,使得信息准确率不高。
[0007]解决上述现有技术问题的难度:
[0008](1)需要将整个寻找热点商品的过程涉及到数据爬取、数据分析、数据统计三个步骤进行解耦,以便提供效率和信息及时性。
[0009]解决上述现有技术问题的意义:
[0010]为了方便掌握各个行业中,人们所关注的热点数据,本专利技术主要解决了众多商家无法合理分析商品市场分布,没法有效规划店铺的问题。同时,本专利技术让数据爬取、数据分析、数据统计可以分别进行,可以灵活提高某一步骤的效能,从而达到提高寻找商品的总体效率和准确性。

技术实现思路

[0011]针对现有技术存在的问题,本专利技术提供了一种寻找热点商品的方法、控制系统、设备、存储介质及终端。本专利技术设计一种爬虫方案,开发者需要根据指定的需要分析的网站,配置调整需要执行的爬取流程,配置需要分析的数据,程序负责去爬取网站数据,分析数据,生成统计图表,生成热力图。
[0012]本专利技术提供一种基于爬虫技术与redis的寻找热点商品的方法,该方法具体包括:
[0013]步骤一,选取网站;
[0014]步骤二,爬取搜索页的列表;
[0015]步骤三,爬取详情页面;
[0016]步骤四,存储数据;
[0017]步骤五,分析数据,生成图表。
[0018]进一步,所述步骤一可根据需求,设置选取想要分析的网站。
[0019]进一步,所述步骤一配置需要爬取的网站为其搜索页。
[0020]进一步,所述步骤二具体包括:
[0021](1)遍历搜索页中所有选项分类及筛选条件的所有页数URL;
[0022](2)获取详情页URL;
[0023](3)解析得到详情页所需的关键参数,如id;
[0024](4)构建完整的详情页url写入redis数据库中;
[0025](5)通过redis数据库得到爬取的详情页URL。
[0026]进一步,所述步骤三详细内容为从详情页中获取商品详情页面中的关键组成参数。
[0027]进一步,所述步骤四详细内容为连接MySQL数据库,对数据进行去重,写入MySQL数据库,分析爬取到的数据也是一个大工程,所以最好把爬取到的数据存储到数据,方便后续按照各个维度分析爬取到的商品数据。
[0028]进一步,所述步骤五详细内容为分别对商品的关键字段进行分析,数据整理,输出统计图表,根据产地生成热力图。
[0029]进一步,所述商品的关键字段为销量,产地,标签,分类等。
[0030]本专利技术另一目的在于提供一种实施寻找热点商品控制系统包括:
[0031]网站获取模块,用于选取网站;
[0032]搜索页爬取模块,用于爬取搜索页的列表;
[0033]详情页面爬取模块,用于爬取详情页面;
[0034]数据存储模块,用于存储数据;
[0035]图表生成模块,用于分析数据,生成图表。
[0036]本专利技术另一目的在于提供一种互联网计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述寻找热点商品的方法。
[0037]本专利技术另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述寻找热点商品的方法。
[0038]本专利技术另一目的在于提供一种信息数据处理终端,所述信息数据处理终端用于实现所述寻找热点商品的方法。
[0039]结合上述的所有技术方案,本专利技术所具备的优点及积极效果为:
[0040]本专利技术设计一种选取通用的爬虫框架,充分利用多台机器的带宽速度爬取数据,利用多台机器的IP爬取网站数据,有效的提高爬取效率。遍历搜索页中所有选项分类及筛选条件的所有页数URL,获取详情页URL,写入redis数据库中,再通过redis中的详情页面url,爬取详情页面中的具体数据,将数据存储到数据库,另外编写统计分析逻辑,输出统计图表,也可以通过商品产地等坐标生成商品热力分布图。在整个寻找热点商品的过程中,数据爬取、数据分析、数据统计由不同的程序执行,可以提高整个资源分配的灵活性,也大大提高了效率和准确性。
附图说明
[0041]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
[0042]图1是本专利技术实施例提供的一种基于爬虫技术与redis的寻找热点商品的方法步骤流程图;
[0043]图2是本专利技术实施例提供的爬取搜索页的列表方法步骤流程图。
具体实施方式
[0044]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0045]针对现有技术存在的问题,本专利技术提供了一种计算机自动化纸件档案数字方法,下面结合附图对本专利技术作详细的描述。
[0046]如图1

图2所示,本专利技术实施例一种寻找热点商品的方法(基于爬虫技术与redis的寻找热点商品的方法),具体包括:
[0047]S101,选取网站;
[0048]S102,爬取搜索页的列表;
[0049]S103,爬取详情页面;
[0050]S104,存储数据;
[0051]S105,分析数据,生成图表。
[0052]所述S101可根据需求,设置选本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种寻找热点商品的方法,其特征在于,所述寻找热点商品的方法包括:步骤一,选取网站:根据所要研究的领域进行数据收集,并分析网站的有效数据,分析方法为在网站可见内容中提取要研究的相关属性;步骤二,爬取搜索页的列表:通过爬虫抓取页面的列表,并通过DOM结构分析或正则方法获取列表关键参数标识;步骤三,爬取详情页面:通过步骤二中分析出的关键参数标识及所爬取网站的详情页规则,组成详情页URL,存储到Redis以便进一步爬取详情页内容提取有效信息;步骤四,存储数据:将爬取的有效数据结构化后存储到MySQL数据库,以便下一步分析;步骤五,分析数据,生成图表:对存储的结构化数据进行分析,不同的场景提取不同的关键属性作为分析结果的维度。2.如权利要求1所述的寻找热点商品的方法,其特征在于,所述步骤一根据实际配置需要选取分析的网站以及爬取的网站,并作为搜索页。3.如权利要求1所述的寻找热点商品的方法,其特征在于,所述步骤二具体包括:(1)遍历搜索页中所有选项分类及筛选条件的所有页数URL;(2)获取详情页URL;(3)通过分析网站的DOM结构或使用正则表达式进行匹配解析得到详情页所需的关键参数id;(4)通过分析网站列表数据进入详情页的方式及(3)中取得的关键参数id构建完整的详情页URL写入redis数据库中;(5)通过redis数据库得到爬取的详情页URL。4.如权利要求1所述的寻找热点商品的方法,其特征在于,所述步骤三爬取详情页面包括:根据既定场景中所要分析的信...

【专利技术属性】
技术研发人员:吴志雄徐春梅蔡剑研黄山德
申请(专利权)人:南威软件股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1