一种采集数据分发的方法以及其装置制造方法及图纸

技术编号:17407196 阅读:38 留言:0更新日期:2018-03-07 04:58
本发明专利技术公开了一种采集数据分发的方法以及其装置,该方法包含几个流程:A、数据采集数据集,B、数据采集,C、数据分发,其中所述的数据集主要包括求购信息、供应信息、回收客户、资讯头条四类信息;其中所述的数据采集主要通过爬虫技术构建采集任务,对数据分析管理,实现对废旧行业数据精准性的抓取,并按照一定规则和筛选标准进行数据归类,形成数据库文件的一个过程。采用该方法,能够将采集到数据,通过分析挖掘获得大量的目标客户和专业数据,同时产生潜在的客户列表,为采购商提供感兴趣的产品信息,根据本发明专利技术实施例提升了客户订单量,使得生意效果很好,并且提高信息排名,帮助客户更好的完成产品交易。

A method of collecting data and its device

The invention discloses a method for collecting data distribution and its device, the method includes several processes: A, data acquisition, data set, B, C, data acquisition, data distribution, wherein the data set includes the purchase information, supply information, customer information, a recovery of four kinds of information including data; the acquisition mainly through the construction of crawler technology acquisition, analysis and management of data, to achieve the precision of the waste industry data capture, and according to certain rules and screening criteria for data classification, the formation of a database file. By this method, can collect data, access to a large number of target customers and professional through the analysis of data mining, and potential customer lists, provide product information to interested buyers, according to an embodiment of the invention improves the customer orders, the business effect is very good, and to improve the information ranking, to help customers better finish products trading.

【技术实现步骤摘要】
一种采集数据分发的方法以及其装置
本专利技术涉及计算机应用
,尤其涉及一种采集数据分发的方法以及其装置。
技术介绍
目前,随着互联网技术的发展和网络海量信息的增长,对信息的获取与分拣成为一种越来越大的需求。通过爬虫技术将海量信息和数据采集后,进行分拣和二次加工,实现采集数据价值与利益更大化、更专业化的目的。爬虫,通过一个到数百个来自任何地方的线程来共同完成采集过程,其中每个线程会按照上所示的流程反复循环,爬虫模块中的线程运行在分布式系统环境下不同节点的不同进程中。在分布式爬取中,使用一个主机划分器(hostsplitter)将通过过滤检测的URL分配到不同的采集节点上去,也就说,要采集的主机对象会被分配到不同节点进行采集。主机划分器的输出结果会输入到分布式系统每个采集节点的重复URL检测模块中去。本专利技术提出一种采集数据分发的方法以及其装置,尽可能抓取互联网上的优质数据,同时解决好调度、时效性,存储各方面问题,将采集到数据,通过分析挖掘迅速获得大量的目标客户和专业数据,同时产生潜在的客户列表,为采购商提供感兴趣的产品信息,对大量数据的采集、分析和深度挖掘,为采购商提供巨大的商机。
技术实现思路
有鉴于此,本专利技术的主要目的在于提供一种采集数据分发的方法以及其装置,致力于引导企业将采集信息电商化,提供质优价低的产品,节约生产成本,使得产品交易更加高效便捷,同时,集中展现优质产品,增加企业知名度,为供应商获得更多订单机会。为达到上述目的,本专利技术的技术方案是这样实现的:一种采集数据分发装置,包括:数据采集数据集模块,主要包括求购信息、供应信息、回收客户、资讯头条四类信息;数据采集模块,通过爬虫技术构建采集任务,对数据分析管理,实现对废旧行业数据精准性的抓取,并按照一定规则和筛选标准进行数据归类,形成数据库文件的一个过程;数据分发模块,通过判定数据信息的分类,如果是文本信息,则进行废旧信息处理,如果是用户数据,还要通过CRM系统进一步判定是否会员。本专利技术还提供了一种采集数据分发的方法,该方法包括:A、数据采集数据集;B、采集池数据;C、数据池;D、判定数据信息分类,如果是文本信息,则执行步骤E,如果是用户数据,则执行步骤F;E、废旧信息处理;F、CRM系统;G、判断用户是否有效,如果无效,则执行步骤H,如果有效,则执行步骤I;H、结束;I、会员。进一步地,步骤D包括:废塑料、破碎料和再生颗粒;进一步地,步骤E主要包括:现货城和普通信息,现货城里只有现货,交易方式是委托交易,而普通信息是用户自主交易,也就是私下交易,不通过平台,并且自主交易不涉及金额,委托交易涉及金额;进一步地,步骤F所述的系统是公司客服人员使用的内部系统,用来维护客户数据,后期给客户打电话推销产品。进一步地,步骤I所述的会员是付费高级会员的一种标志,会员是指网站(比如,再塑宝APP)提供给客户的一种付费产品,也是客户与网站建立合作的一种身份象征并通过实地认证、信用累积、个性化增值服务等功能为客户促成交易,打开电子商务的大门。本专利技术所提供的一种采集数据分发的方法以及其装置,具有以下优点:1)提升了客户的订单量,生意效果很好;2)提高信息排名,帮助客户更好的完成产品交易;3)省去看货成本,降低采购成本,实现差货零风险。附图说明图1为本专利技术一种采集数据分发的方法功能结构示意图;图2为本专利技术一种采集数据分发的方法流程示意图;图3为本专利技术一种采集数据分发的装置应用场景示意图。具体实施方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图及本专利技术的实施例对本专利技术的一种采集数据分发的方法以及其装置作进一步详细的说明。参考图2,该采集数据分发的方法,具体包含以下几个流程:步骤201:数据采集数据集,利用爬虫技术构建采集任务,对数据分析管理,实现对废旧行业数据精准性的抓取,并按照一定规则和筛选标准进行数据归类,形成数据库文件的一个过程;步骤202:采集池数据;步骤203:数据池,将爬虫抓取过来的数据经过分拣和二次加工,去重,过滤后的数据;步骤204:判定数据信息分类,如果是文本信息,则执行步骤205,如果是用户数据,则执行步骤206;步骤205:废旧信息处理;步骤206:CRM系统;步骤207:判断用户是否有效,如果无效,则执行步骤208,如果有效,则执行步骤209;步骤208:结束;步骤209:会员。进一步地,步骤209具体包括:免费会员:免费注册普通会员,现货商城购买商品,名企采购供应商品,发布自主商品信息,查看其他会员发布的自主信息;现货会员:现货商城购买商品,发布自主商品信息,发布现货商城商品信息,可为名企供货;名企会员:现货商城购买商品,发布自主商品信息,发布名企采购意向,可以预约下单,可为名企供货,查看其他会员发布的自主信息。进一步地,会员套餐服务优势有以下三个方面:1)查看联系方式:会员可以无限制查看普通用户和会员的联系方式;2)网站搜索优先排名:网站的搜索信息,会员优先排名,让客户第一时间找到所需要的信息,周期一年起;3)会员级别优先排名:网站的供求信息,会员享有优先排名的权利,优先获得订单。本专利技术为解决一种采集数据分发的方法以及其装置,主要采用了以下技术,下面对这些技术进行简单介绍。1)爬虫技术。爬虫程序读取抓取站点的URL列表,取出一个站点URL,将其放入未访问的URL列表(UVURL列表)中,如果UVURL不为空则从中取出一个URL判断是否已经访问过,若没有访问过则读取此网页,并进行超链分析及内容分析,然后将此网页存入文档数据库,将URL放入已访问URL列表(VURL列表),直到UVRL为空为止,此时再抓取其它站点,依次循环直到所有的站点URL列表都被抓取完为止。为了保证爬虫程序能够快速的获取所需的信息,爬虫程序采用一定的检索策略对站点进行遍历并下载文档,一般的检索策略有宽度优先检索策略、深度优先检索策略和聚焦检索策略。2)MapReduce分布式处理技术。MapReduce分布式处理技术通过把对数据集的大规模操作分发给网络上的每个节点实现可靠性,每个节点会周期性的把完成的工作和状态的更新报告回来。如果一个节点保持沉默超过一个预设的时间间隔,主节点记录下这个节点状态为死亡,并把分配给这个节点的数据发到别的节点。每个操作使用命名文件的不可分割操作以确保不会发生并行线程间的冲突,当文件被改名的时候,系统可能会把他们复制到任务名以外的另一个名字上去。3)结果排序技术。网站的搜索信息,会员优先排名,让客户第一时间找到供货商。4)redis技术。redis不仅仅支持简单的k/v类型的数据,同时还提供list,set,hash等数据结构的存储,redis支持数据的备份,即master-slave模式的数据备份,redis支持数据的持久化,可以将内存中的数据保持在磁盘中,重启的时候可以再次加载进行使用,另外,redisString容量大,最大可达1G。5)数据库技术。数据库用于管理大量的采集数据以及与这些数据相关的结构化数据。结构化数据包括采集信息的元数据,以及从数据集中抽取出来的其他信息,如超链接和锚文本等。本专利技术中数据采集模块对数据库的要求有两点:一是高随机存取性,能够对信息进行快速检索,二是高压缩性,可以使得数据库使用较小的空本文档来自技高网...
一种采集数据分发的方法以及其装置

【技术保护点】
一种采集数据分发的方法,其特征在于,该方法主要包括:A、数据采集数据集;B、采集池数据;C、数据池;D、判定数据信息分类,如果是文本信息,则执行步骤E,如果是用户数据,则执行步骤F;E、废旧信息处理;F、CRM系统;G、判断用户是否有效,如果无效,则执行步骤H,如果有效,则执行步骤I;H、结束;I、会员。

【技术特征摘要】
1.一种采集数据分发的方法,其特征在于,该方法主要包括:A、数据采集数据集;B、采集池数据;C、数据池;D、判定数据信息分类,如果是文本信息,则执行步骤E,如果是用户数据,则执行步骤F;E、废旧信息处理;F、CRM系统;G、判断用户是否有效,如果无效,则执行步骤H,如果有效,则执行步骤I;H、结束;I、会员。2.根据权利要求1所述的一种采集数据分发的方法,其特征在于,所述步骤C,具体为:将爬虫抓取过来的数据经过分拣和二次加工,去重,过滤后的数据。3.根据权利要求1所述的一种采集数据分发的方法,其特征在于,所述步骤D,具体为:数据信息的分类包括废塑料、破碎料和再生颗粒。4.根据权利要求1所述的一种采集数据分发的方法,其特征在于,所述步骤E,具体为:主要包括现货城和普通信息,现货城里只有现货,交易方式是委托交易,而普通信息是用户自主交易,也就是私下交易,不通过平台,并且自主交易不涉及金额,委托交易涉及金额。5.根据权利要求1所述的一种采集数据分发的方法,其特征在于,所述步骤I,具体为:免费会员:免费注册普通会员,现货商城购买...

【专利技术属性】
技术研发人员:王清霞
申请(专利权)人:北京再塑宝科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1