The invention discloses a method for extracting from one or more sources of data, each data source of one or more data sources including a plurality of data, each data including one or more has the key values of a data item to form, the data extraction method comprises the following steps: for each the data source of one or more data sources, determine each key corresponding to the data type, the data type to generate a data table; analysis and extract the data including one or more data items for each data item: the data extraction form the value of key, according to the data from the data source data types in the table to determine the corresponding key data types; the key extracted values to verify the value and the use of the data type of the corresponding data verification method, if the check Through the successful extraction, extraction of record key values in the value. The invention also discloses a corresponding data extracting device and system.
【技术实现步骤摘要】
数据提取方法、装置及系统
本专利技术数据提取
,尤其是数据提取方法、装置及系统。
技术介绍
在当前的大数据环境下,如何从海量的数据,如HTTP访问日志、物联网数据等中准确提取出需要的数据信息,对于分析用户行为、喜好、习惯等,或者是预测用户行为、改善广告投放效果等均具有十分重要的意义。以从URL(UniversalResourceLocator,统一资源定位符)中提取数据为例,一般地,通过预定的正则表达式对数据进行全文匹配,只要命中,就把匹配到的数据提取出来,并将其类型指定为预定正则表达式对应的类型。通过实践发现,该方案具有错误率高的缺点。例如,某些数据,只有一部分内容符合正则表达式规则,也会被识别成对应的数据类型,被提取出来;或者,某些数据其类型不是正则表达式对应的数据类型,但在大量数据中,数据中的部分内容刚好符合正则表达式规则,这部分数据就会被错误的提取出来。因此,需要一种数据提取方法,能够从来自各种数据源的数据中准确提取出数据、并保证数据提取的效率。
技术实现思路
为此,本专利技术提供了数据提取方法、装置及系统,以力图解决或者至少缓解上面存在的至少一个问题。根据本专利技术的一个方面,提供了一种提取来自一个或者多个数据源的数据的方法,一个或者多个数据源中的每个数据源包括多条数据,每条数据包括一个或者多个具有键-值对形式的数据项,该数据提取方法包括步骤:对于一个或者多个数据源中的每个数据源,确定每个键对应的数据类型,生成数据类型表;解析一条数据并提取出该条数据所包括的一个或者多个数据项,对于每个数据项:提取构成该数据项的键-值对,根据该条数据的数据源从数 ...
【技术保护点】
一种提取来自一个或者多个数据源的数据的方法,所述一个或者多个数据源中的每个数据源包括多条数据,每条数据包括一个或者多个具有键‑值对形式的数据项,该数据提取方法包括步骤:对于所述一个或者多个数据源中的每个数据源,确定每个键对应的数据类型,生成数据类型表;解析一条数据并提取出该条数据所包括的一个或者多个数据项,对于每个数据项:提取构成该数据项的键‑值对,根据该条数据的数据源从所述数据类型表中确定出所提取的键对应的数据类型;以及利用该数据类型对应的数据校验方法对所提取的键‑值对中的值进行校验,若校验通过则提取成功,记录提取的键‑值对中的值。
【技术特征摘要】
1.一种提取来自一个或者多个数据源的数据的方法,所述一个或者多个数据源中的每个数据源包括多条数据,每条数据包括一个或者多个具有键-值对形式的数据项,该数据提取方法包括步骤:对于所述一个或者多个数据源中的每个数据源,确定每个键对应的数据类型,生成数据类型表;解析一条数据并提取出该条数据所包括的一个或者多个数据项,对于每个数据项:提取构成该数据项的键-值对,根据该条数据的数据源从所述数据类型表中确定出所提取的键对应的数据类型;以及利用该数据类型对应的数据校验方法对所提取的键-值对中的值进行校验,若校验通过则提取成功,记录提取的键-值对中的值。2.如权利要求1所述的方法,其中,所述生成数据类型表的步骤包括:对于所述一个或者多个数据源中的每个数据源,对数据进行采样,以获得第一数目条数据;对于所述第一数目条数据中的每条数据,逐条解析数据并提取出所有的数据项;对每个数据项中的键-值对中键对应的值,通过正则表达式和/或数据校验方法分析其数据类型,作为该键对应的数据类型;统计每个数据源中、每个键对应的数据类型个数以及与该数据类型对应的值个数;以及从每个键所对应的数据类型中选取对应的值个数占比超过第一阈值的数据类型,确定为该数据源中该键对应的数据类型,并关联存储该数据源中该键与所确定的数据类型,作为数据类型表。3.如权利要求2所述的方法,其中,所述对于所述一个或者多个数据源中的每个数据源,对数据进行采样的步骤包括:抽取每种数据源中前第一数目条数据;和/或在每种数据源中随机抽样第一数目条数据;和/或按时间段在每种数据源中抽取第一数目条数据。4.如权利要求1-3中任一项所述的方法,其中,所述数据类型对应的值个数占比是某个键的某一数据类型对应的值个数占该数据源中该键对应的所有数据类型的值总个数的比值。5.一种提取来自一个或者多个数据源的数据的提取装置,所述一个或者多个数据源中的每个数据源包括多条数据,每条数据包括一个或者多个具有键-值对形式的数据项,该数据提取装置包括:数据类型分析模块,对于所述一个或者多个数据源中的每个数据源...
【专利技术属性】
技术研发人员:蔡自彬,何金良,李娟,
申请(专利权)人:北京知道创宇信息技术有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。