数据提取方法、装置及系统制造方法及图纸

技术编号:15542423 阅读:100 留言:0更新日期:2017-06-05 11:22
本发明专利技术公开了一种提取来自一个或者多个数据源的数据的方法,一个或者多个数据源中的每个数据源包括多条数据,每条数据包括一个或者多个具有键‑值对形式的数据项,该数据提取方法包括步骤:对于一个或者多个数据源中的每个数据源,确定每个键对应的数据类型,生成数据类型表;解析一条数据并提取出该条数据所包括的一个或者多个数据项,对于每个数据项:提取构成该数据项的键‑值对,根据该条数据的数据源从数据类型表中确定出所提取的键对应的数据类型;以及利用该数据类型对应的数据校验方法对所提取的键‑值对中的值进行校验,若校验通过则提取成功,记录提取的键‑值对中的值。本发明专利技术还公开了相应的数据提取装置和系统。

Data extracting method, device and system

The invention discloses a method for extracting from one or more sources of data, each data source of one or more data sources including a plurality of data, each data including one or more has the key values of a data item to form, the data extraction method comprises the following steps: for each the data source of one or more data sources, determine each key corresponding to the data type, the data type to generate a data table; analysis and extract the data including one or more data items for each data item: the data extraction form the value of key, according to the data from the data source data types in the table to determine the corresponding key data types; the key extracted values to verify the value and the use of the data type of the corresponding data verification method, if the check Through the successful extraction, extraction of record key values in the value. The invention also discloses a corresponding data extracting device and system.

【技术实现步骤摘要】
数据提取方法、装置及系统
本专利技术数据提取
,尤其是数据提取方法、装置及系统。
技术介绍
在当前的大数据环境下,如何从海量的数据,如HTTP访问日志、物联网数据等中准确提取出需要的数据信息,对于分析用户行为、喜好、习惯等,或者是预测用户行为、改善广告投放效果等均具有十分重要的意义。以从URL(UniversalResourceLocator,统一资源定位符)中提取数据为例,一般地,通过预定的正则表达式对数据进行全文匹配,只要命中,就把匹配到的数据提取出来,并将其类型指定为预定正则表达式对应的类型。通过实践发现,该方案具有错误率高的缺点。例如,某些数据,只有一部分内容符合正则表达式规则,也会被识别成对应的数据类型,被提取出来;或者,某些数据其类型不是正则表达式对应的数据类型,但在大量数据中,数据中的部分内容刚好符合正则表达式规则,这部分数据就会被错误的提取出来。因此,需要一种数据提取方法,能够从来自各种数据源的数据中准确提取出数据、并保证数据提取的效率。
技术实现思路
为此,本专利技术提供了数据提取方法、装置及系统,以力图解决或者至少缓解上面存在的至少一个问题。根据本专利技术的一个方面,提供了一种提取来自一个或者多个数据源的数据的方法,一个或者多个数据源中的每个数据源包括多条数据,每条数据包括一个或者多个具有键-值对形式的数据项,该数据提取方法包括步骤:对于一个或者多个数据源中的每个数据源,确定每个键对应的数据类型,生成数据类型表;解析一条数据并提取出该条数据所包括的一个或者多个数据项,对于每个数据项:提取构成该数据项的键-值对,根据该条数据的数据源从数据类型表中确定出所提取的键对应的数据类型;以及利用该数据类型对应的数据校验方法对所提取的键-值对中的值进行校验,若校验通过则提取成功,记录提取的键-值对中的值。可选地,在根据本专利技术的数据提取方法中,生成数据类型表的步骤包括:对于一个或者多个数据源中的每个数据源,对数据进行采样,以获得第一数目条数据;对于第一数目条数据中的每条数据,逐条解析数据并提取出所有的数据项;对每个数据项中的键-值对中键对应的值,通过正则表达式和/或数据校验方法分析其数据类型,作为该键对应的数据类型;统计每个数据源中、每个键对应的数据类型个数以及与该数据类型对应的值个数;以及从每个键所对应的数据类型中选取对应的值个数占比超过第一阈值的数据类型,确定为该数据源中该键对应的数据类型,并关联存储该数据源中该键与所确定的数据类型,作为数据类型表。可选地,在根据本专利技术的数据提取方法中,对于一个或者多个数据源中的每个数据源,对数据进行采样的步骤包括:抽取每种数据源中前第一数目条数据;和/或在每种数据源中随机抽样第一数目条数据;和/或按时间段在每种数据源中抽取第一数目条数据。可选地,在根据本专利技术的数据提取方法中,数据类型对应的值个数占比是某个键的某一数据类型对应的值个数占该数据源中该键对应的所有数据类型的值总个数的比值。可选地,在根据本专利技术的数据提取方法中,利用该数据类型的数据校验方法对所提取的键-值对中的值进行校验的步骤还包括:利用该数据类型的正则表达式对所提取的键-值对中的值进行校验。可选地,在根据本专利技术的数据提取方法中,还包括矫正数据类型的步骤:当满足预设条件时,每隔第一预定时间统计每种数据源中每个键提取成功的个数、提取失败的个数,计算该时间段内每种数据源中每个键的提取成功百分比;以及若提取成功百分比低于第二阈值,则产生告警信号,以触发数据类型矫正,重新采样统计该数据源中该键对应的数据类型。可选地,在根据本专利技术的数据提取方法中,矫正数据类型的步骤还包括:每隔第二预定时间对最新数据重复所述生成数据类型表的步骤,生成新的数据类型表;根据新的数据类型表,在每个键所对应的数据类型中重新选取对应的值个数占比超过第一阈值的数据类型作为该数据源中该键对应的数据类型,以执行后续数据提取步骤。可选地,在根据本专利技术的数据提取方法中,数据类型包括:身份标识、社交账号、地理位置信息、移动设备标识。可选地,在根据本专利技术的数据提取方法中,第一预定时间为一天;所述第二预定时间为七天或一天。根据本专利技术的又一方面,提供了一种提取来自一个或者多个数据源的数据的提取装置,一个或者多个数据源中的每个数据源包括多条数据,每条数据包括一个或者多个具有键-值对形式的数据项,该数据提取装置包括:数据类型分析模块,对于一个或者多个数据源中的每个数据源,确定每个键对应的数据类型,生成数据类型表;数据提取模块,适于解析一条数据并提取出该条数据所包括的一个或者多个数据项,还适于对于每个数据项,提取构成该数据项的键-值对;数据类型分析模块还适于根据该条数据的数据源从数据类型表中确定出所提取的键对应的数据类型;以及数据校验模块,适于利用该数据类型对应的数据校验方法对所提取的键-值对中的值进行校验,若校验通过则提取成功,记录提取的键-值对中的值。可选地,在根据本专利技术的数据提取装置中,数据类型分析模块包括:数据采样单元,适于对于一个或者多个数据源中的每个数据源,对数据进行采样,以获得第一数目条数据;数据提取单元,适于对于第一数目条数据中的每条数据,逐条解析数据并提取出所有的数据项;数据类型分析单元,适于对每个数据项中的键-值对中键对应的值,通过正则表达式和/或数据校验方法分析其数据类型,作为该键对应的数据类型;统计单元,适于统计每个数据源中、每个键对应的数据类型个数以及与该数据类型对应的值个数;数据类型分析单元还适于从每个键所对应的数据类型中选取对应的值个数占比超过第一阈值的数据类型,确定为该数据源中该键对应的数据类型,并关联存储该数据源中该键与所确定的数据类型,作为数据类型表。可选地,在根据本专利技术的数据提取装置中,数据采样单元还适于抽取每种数据源中前第一数目条数据;和/或还适于在每种数据源中随机抽样第一数目条数据;和/或还适于按时间段在每种数据源中抽取第一数目条数据。可选地,在根据本专利技术的数据提取装置中,数据类型对应的值个数占比是某个键的某一数据类型对应的值个数占该数据源中该键对应的所有数据类型的值总个数的比值。可选地,在根据本专利技术的数据提取装置中,数据校验模块还适于利用该数据类型的正则表达式对所提取的键-值对中的值进行校验。可选地,在根据本专利技术的数据提取装置中,还包括数据类型矫正模块,数据类型矫正模块适于在满足预设条件时,每隔第一预定时间统计每种数据源中每个键提取成功的个数、提取失败的个数,计算该时间段内每种数据源中每个键的提取成功百分比;以及数据类型矫正模块还适于在提取成功百分比低于第二阈值时,产生告警信号,以触发数据类型矫正,重新采样统计该数据源中该键对应的数据类型。可选地,在根据本专利技术的数据提取装置中,数据类型矫正模块还适于每隔第二预定时间触发数据类型分析模块,以便数据类型分析模块适于根据最新数据生成新的数据类型表,并根据新的数据类型表,在每个键所对应的数据类型中重新选取对应的值个数占比超过第一阈值的数据类型作为该数据源中该键对应的数据类型,以执行后续数据提取步骤。可选地,在根据本专利技术的数据提取装置中,数据类型包括:身份标识、社交账号、地理位置信息、移动设备标识。可选地,在根据本专利技术的数据提取装置中,第一预定时间为一天;所述第二预定时间为本文档来自技高网...
数据提取方法、装置及系统

【技术保护点】
一种提取来自一个或者多个数据源的数据的方法,所述一个或者多个数据源中的每个数据源包括多条数据,每条数据包括一个或者多个具有键‑值对形式的数据项,该数据提取方法包括步骤:对于所述一个或者多个数据源中的每个数据源,确定每个键对应的数据类型,生成数据类型表;解析一条数据并提取出该条数据所包括的一个或者多个数据项,对于每个数据项:提取构成该数据项的键‑值对,根据该条数据的数据源从所述数据类型表中确定出所提取的键对应的数据类型;以及利用该数据类型对应的数据校验方法对所提取的键‑值对中的值进行校验,若校验通过则提取成功,记录提取的键‑值对中的值。

【技术特征摘要】
1.一种提取来自一个或者多个数据源的数据的方法,所述一个或者多个数据源中的每个数据源包括多条数据,每条数据包括一个或者多个具有键-值对形式的数据项,该数据提取方法包括步骤:对于所述一个或者多个数据源中的每个数据源,确定每个键对应的数据类型,生成数据类型表;解析一条数据并提取出该条数据所包括的一个或者多个数据项,对于每个数据项:提取构成该数据项的键-值对,根据该条数据的数据源从所述数据类型表中确定出所提取的键对应的数据类型;以及利用该数据类型对应的数据校验方法对所提取的键-值对中的值进行校验,若校验通过则提取成功,记录提取的键-值对中的值。2.如权利要求1所述的方法,其中,所述生成数据类型表的步骤包括:对于所述一个或者多个数据源中的每个数据源,对数据进行采样,以获得第一数目条数据;对于所述第一数目条数据中的每条数据,逐条解析数据并提取出所有的数据项;对每个数据项中的键-值对中键对应的值,通过正则表达式和/或数据校验方法分析其数据类型,作为该键对应的数据类型;统计每个数据源中、每个键对应的数据类型个数以及与该数据类型对应的值个数;以及从每个键所对应的数据类型中选取对应的值个数占比超过第一阈值的数据类型,确定为该数据源中该键对应的数据类型,并关联存储该数据源中该键与所确定的数据类型,作为数据类型表。3.如权利要求2所述的方法,其中,所述对于所述一个或者多个数据源中的每个数据源,对数据进行采样的步骤包括:抽取每种数据源中前第一数目条数据;和/或在每种数据源中随机抽样第一数目条数据;和/或按时间段在每种数据源中抽取第一数目条数据。4.如权利要求1-3中任一项所述的方法,其中,所述数据类型对应的值个数占比是某个键的某一数据类型对应的值个数占该数据源中该键对应的所有数据类型的值总个数的比值。5.一种提取来自一个或者多个数据源的数据的提取装置,所述一个或者多个数据源中的每个数据源包括多条数据,每条数据包括一个或者多个具有键-值对形式的数据项,该数据提取装置包括:数据类型分析模块,对于所述一个或者多个数据源中的每个数据源...

【专利技术属性】
技术研发人员:蔡自彬何金良李娟
申请(专利权)人:北京知道创宇信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1