当前位置: 首页 > 专利查询>南开大学专利>正文

一种面向多来源数据管理的半自动化数据采集更新方法技术

技术编号:29220685 阅读:27 留言:0更新日期:2021-07-10 01:00
本发明专利技术属于计算机领域,具体涉及用户在采集大量的有不同来源的数据时,通过系统的自动化管理和用户的个性化配置对不同来源的数据进行采集和更新。该方法包括如下步骤,步骤1、用户建立数据类型库,并为类型库配置不同来源;步骤2、用户为数据类型库中的来源设置数据抓取规则,并启动源数据采集任务获取网页中的源数据;步骤3、用户启动数据预处理任务,对步骤2中得到的源数据进行初步预处理,提取出来源网页中的网页信息;步骤4、用户基于数据预处理得到的网页信息,进行系统配置,并在配置完成后启动数据处理任务,对数据进行处理或更新。新。新。

【技术实现步骤摘要】
一种面向多来源数据管理的半自动化数据采集更新方法


[0001]本专利技术属于计算机领域,具体涉及用户在采集大量的有不同来源的数据时,通过系统的自动化管理和用户的个性化配置对不同来源的数据进行采集和更新。

技术介绍

[0002]随着信息时代的不断发展,数据已经成为信息化管理的一个重要组成部分,对数据的采集、清洗和利用也成为信息展示和管理的基础。在数据的采集过程中,常常会出现资源消耗过大、多个程序管理不便、爬虫程序与清洗程序混乱、用户无法自定义系统配置等问题,这对企业的信息采集过程以及研究者的数据集收集都带来了极大的不便。除此之外,现有的爬虫管理平台不能实现完整的一套符合用户个性化配置的数据采集、清洗、更新流程。例如现流行的开箱即用的爬虫管理平台crawlab,其侧重点更偏向于爬虫程序的管理和监控,主要包括在线开发爬虫文档、实时监控爬虫运行、分布式爬虫任务处理等功能,而没有实现一套数据采集、清洗到更新的完整流程。而本系统在设计出一套半自动化的数据采集更新方法之后,对爬虫任务、更新任务的管理仍然保持了高度的扩展性,更加符合用户需求。

技术实现思路

[0003]为了解决上述问题,将系统对数据的采集、清洗和更新进行统一管理,与用户的个性化配置结合在一起,本专利技术提出了一种面向多来源数据管理的半自动化数据采集更新方法,可实现按照用户的配置执行相应任务,例如数据采集和数据处理任务。通过增加数据预处理的方式,将网页源数据中的所有网页标题提取出来,用户通过比对各个来源的网页标题决定在该数据类型库中最终要保留的属性名,则所有来源的数据转换完成之后都将按照该格式保存,以此来实现用户的个性化数据设置。
[0004]为实现上述目的,本专利技术采用如下技术方案:
[0005]一种面向多来源数据管理的半自动化数据采集更新方法,包括如下步骤,
[0006]步骤1、用户建立数据类型库,并为类型库配置不同来源;
[0007]步骤2、用户为数据类型库中的来源设置数据抓取规则,并启动源数据采集任务获取网页中的源数据;
[0008]步骤3、用户启动数据预处理任务,对步骤2中得到的源数据进行初步预处理,提取出来源网页中的网页信息;
[0009]步骤4、用户基于数据预处理得到的网页信息,进行系统配置,并在配置完成后启动数据处理任务,对数据进行处理或更新。
[0010]本技术方案进一步的优化,所述步骤1中的数据类型库是指用户需要收集的任意一种类型的数据,为其命名并在系统中创建。
[0011]本技术方案进一步的优化,所述步骤1中用户在配置不同来源时,主要包括以下步骤:
[0012]步骤1.1、新增一个来源时,首先查看系统来源库中是否包含该来源;
[0013]步骤1.2、如果系统来源库中包含该来源,则用户只需将该来源添加到该数据类型库中;
[0014]步骤1.3、如果系统来源库中不包含该来源,则用户需要添加新来源,录入来源信息包括设置来源信息、来源地址、上传数据抓取文件等。
[0015]本技术方案进一步的优化,所述步骤2中用户为数据类型库中的来源设置抓取规则时,若用户采用的是系统来源库中的来源,则不需要再提供抓取规则。
[0016]本技术方案进一步的优化,所述步骤2中用户为数据类型库中的来源设置抓取规则,所述抓取规则自定义抓取规则。
[0017]本技术方案进一步的优化,所述步骤3中的数据预处理任务是指,对抓取的网页源数据进行网页结构的梳理,根据用户提供的匹配规则提取出网页中的所有标题项。
[0018]本技术方案进一步的优化,所述步骤3中的网页信息为网页标题。
[0019]本技术方案进一步的优化,所述步骤3数据的预处理操作是将网页中出现的所有网页标题提取出来,形成一张对应关系表的一列,用户需要在下一步中配置对应规则,即网页标题到属性名的转换规则。
[0020]本技术方案进一步的优化,所述步骤4中的系统配置的步骤包括:
[0021]步骤4.1、用户查看各来源数据预处理结果,确定该数据类型库的最终属性名;
[0022]步骤4.2、用户根据步骤4.1中确定的属性名,分别为每个来源配置网页标题到属性名的对应关系;即在该对应关系下,该来源网页中的标题项及其内容将会展示在对应的属性名下。
[0023]本技术方案进一步的优化,所述步骤4中启动数据处理任务包括以下步骤:
[0024]步骤4.3、用户启动数据处理任务,得到根据标题

属性配置转化之后的最终数据,该数据在不同来源中的结构相同,都与步骤4.1中用户确定的属性名格式一致;
[0025]步骤4.4、用户对得到的最终数据进行汇总利用,在出现数据时效性降低、数据完整性被破坏等情况时,可以利用系统提供的更新任务,重新进行数据采集和处理,保证数据的一致性和完整性。
[0026]本技术方案更进一步的优化,所述步骤4.3用户在完成配置后可以启动数据处理任务,该任务将会根据用户配置的网页标题到属性名的对应规则进行相应的转换,即建立一张以所有属性名标题的表,数据源中的每一条数据对应标题下的一行数据,行与列的交叉即为数据处理任务转换的结果。
[0027]本技术方案进一步的优化,所述步骤4在完成数据预处理操作之后,用户已经得到所有来源的网页标题列表,用户可以参阅该列表配置改数据类型库的全局属性名,也即用户希望最后保存的数据属性或数据格式。
[0028]本技术方案进一步的优化,所述步骤4对数据进行更新,包括两种情况:一是系统后台运行的监测任务监测到网页数据较本地数据有更新时,启动数据采集任务重新进行采集;二是,用户发现本地存储数据的时效性降低时,可以启动数据采集任务重新进行更新采集。
[0029]本技术方案进一步的优化,所述数据更新方式包括对本地所有数据进行自动更新、立即启动更新任务、对用户指定的数据进行更新。
[0030]本技术方案进一步的优化,所述步骤1中数据类型库包括新闻、娱乐、图片。
[0031]区别于现有技术,上述技术方案具有如下优点:
[0032]1.灵活自主的设置属性名,用户可以灵活的对属性名进行增删改操作,最后数据处理得到的数据格式也会随之改变;
[0033]2.半自动化的操作流程,用户可以按照系统的指引和说明书的说明进行半自动化操作,方便灵活的同时又不失自主性;
[0034]3.随时对现有数据进行更新,用户可以在数据采集、数据处理和数据清洗的任何一个阶段随时启动系统的更新任务,保证数据的实时性和一致性;
[0035]4.不同来源的数据格式相同,通过使用本专利技术的数据采集方法,用户可以在灵活配置数据类型库的属性名之后,将不同来源的数据转换成统一格式,方便后续使用。
附图说明
[0036]图1为面向多来源数据的数据采集更新方法流程图;
[0037]图2为用户自定义配置示意图;
[0038]图3为用户更新模块示意图。
具体实施方式
[0039]为详细本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向多来源数据管理的半自动化数据采集更新方法,其特征在于,该方法包括如下步骤,步骤1、用户建立数据类型库,并为类型库配置不同来源;步骤2、用户为数据类型库中的来源设置数据抓取规则,并启动源数据采集任务获取网页中的源数据;步骤3、用户启动数据预处理任务,对步骤2中得到的源数据进行初步预处理,提取出来源网页中的网页信息;步骤4、用户基于数据预处理得到的网页信息,进行系统配置,并在配置完成后启动数据处理任务,对数据进行处理或更新。2.如权利要求1所述的面向多来源数据管理的半自动化数据采集更新方法,其特征在于,所述步骤1中的数据类型库是指用户需要收集的任意一种类型的数据,为其命名并在系统中创建。3.如权利要求1所述的面向多来源数据管理的半自动化数据采集更新方法,其特征在于,所述步骤1中用户在配置不同来源时,主要包括以下步骤:步骤1.1、新增一个来源时,首先查看系统来源库中是否包含该来源;步骤1.2、如果系统来源库中包含该来源,则用户只需将该来源添加到该数据类型库中;步骤1.3、如果系统来源库中不包含该来源,则用户需要添加新来源,录入来源信息包括设置来源信息、来源地址、上传数据抓取文件等。4.如权利要求1所述的面向多来源数据管理的半自动化数据采集更新方法,其特征在于,所述步骤2中用户为数据类型库中的来源设置抓取规则时,若用户采用的是系统来源库中的来源,则不需要再提供抓取规则。5.如权利要求1所述的面向多来源数据管理的半自动化数据采集更新方法,其特征在于,所述步骤2中用户为数据类型库中的来源设置抓取规则,所述抓取规则自定义抓取规则。6.如权利要求1所述的...

【专利技术属性】
技术研发人员:温延龙王艺茹皮春莹郑羽辰乜鹏
申请(专利权)人:南开大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1