一种数据处理方法和系统技术方案

技术编号:16128289 阅读:41 留言:0更新日期:2017-09-01 20:34
本申请提供一种数据处理方法和系统,其中系统包括:前端子系统,用于接收待分析的多个数据集的数据集标识、以及待分析的至少一个特征的特征标识,所述特征位于所述数据集中;应用服务子系统,用于根据所述数据集标识生成用于获取所述数据集的数据查询逻辑,并将所述数据查询逻辑和特征标识传输至分析型存储子系统;还用于根据所述分析型存储子系统得到的特征的统计值,计算特征的重要性;基于内存的分析型存储子系统,用于根据所述应用服务子系统生成的数据查询逻辑,获取所述多个数据集的数据,并分别在所述多个数据集中,并行进行所述特征标识对应的特征的统计,得到所述特征的统计值。本申请提高了对海量数据集的特征重要性的计算效率。

Data processing method and system

The invention provides a data processing method and system, wherein the system comprises a front terminal system for feature identification of at least one of the plurality of data receiving characteristics of the set of data sets to be analyzed and identified, and the characteristics in the data set; application service subsystem, according to the data set identification generated for obtaining the data in the data query logic, and the logic and data query signature is transmitted to the analysis of the storage subsystem; also used in the analysis according to the statistical characteristics of the storage subsystem with the value of the importance of computing features; analysis of the storage subsystem based on memory, for according to the application service subsystem generated data query logic, obtain the plurality of data sets, and are concentrated in the plurality of data parallel to the The statistics of the features corresponding to the feature identification, and the statistical values of the features are obtained. This application improves the computational efficiency of the characteristic importance of massive datasets.

【技术实现步骤摘要】
一种数据处理方法和系统
本申请涉及网络技术,特别涉及一种数据处理方法和系统。
技术介绍
随着大数据技术的发展,可以应用海量数据分析技术,为企业的经营活动挖掘更有价值的参考信息。例如,可以根据某次营销活动得到的海量营销数据,通过数据分析确定某个目标群体的特征参数,从而可以根据该特征参数制定更有针对性的营销方案。对海量数据集的特征重要性的计算,是海量数据分析中的其中一种,通过计算特征重要性的度量值,确定重要性更高的特征作为能够区分不同用户群体的显著性特征,使得可以据此了解不同用户群体的特点。相关技术中,在海量数据中计算特征重要性时,通常采用HIVE(HIVE是基于Hadoop的一个数据仓库工具)进行计算,由于HIVE底层采用MapReduce的计算框架,导致在千万级别数据量上,至少需要数十分钟才能得到特征重要性结果。
技术实现思路
有鉴于此,本申请提供一种数据处理方法和系统,以提高对海量数据集的特征重要性的计算效率。具体地,本申请是通过如下技术方案实现的:第一方面,提供一种数据处理系统,所述数据处理系统包括:前端子系统,用于接收待分析的多个数据集的数据集标识、以及待分析的至少一个特征的特征标识,所述特征位于所述数据集中;应用服务子系统,用于根据所述数据集标识生成用于获取所述数据集的数据查询逻辑,并将所述数据查询逻辑和特征标识传输至分析型存储子系统;还用于根据所述分析型存储子系统得到的特征的统计值,计算特征的重要性;基于内存的分析型存储子系统,用于根据所述应用服务子系统生成的数据查询逻辑,获取所述多个数据集的数据,并分别在所述多个数据集中,并行进行所述特征标识对应的特征的统计,得到所述特征的统计值。第二方面,提供一种数据处理方法,包括:接收待分析的多个数据集的数据集标识、以及待分析的至少一个特征的特征标识,所述特征位于所述数据集中;根据所述数据集标识生成用于获取所述数据集的数据查询逻辑;通过基于内存的分析型存储子系统根据所述数据查询逻辑获取所述多个数据集的数据,并分别在所述多个数据集中,并行进行所述特征标识对应的特征的统计,得到所述特征的统计值;根据所述特征的统计值,计算特征的重要性。本申请提供的数据处理方法和系统,通过分析型存储子系统例如ADS,并行对多个用户群的多个特征进行查询和统计,这种方式相对于传统的HIVE计算方式来看,由于分析型存储子系统是基于内存的存储分析系统,数据的存储以及处理都在内存中进行,相比于HIVE的MapReduce处理方式来看,MapReduce架构的数据存储在磁盘,并且在各个计算节点之间配合处理数据时,需要从磁盘读取数据和在节点之间传输数据,而本申请的系统中,基于内存的存储分析系统相比HIVE节省了节点之间的数据读取I/O及传输时间,从而提高了对海量数据集的特征重要性的计算效率。附图说明图1是本申请一示例性实施例示出的一种数据处理系统的系统架构;图2是本申请一示例性实施例示出的一种特征重要性的计算架构;图3是本申请一示例性实施例示出的对多个特征的IV值进行可视化展示的示意图;图4是本申请一示例性实施例示出的特征的饼图显示示意图;图5是本申请一示例性实施例示出的特征的柱状图显示示意图;图6是本申请一示例性实施例示出的一种数据处理方法的流程图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。本申请实施例提供了一种数据处理系统,该系统可以应用于海量数据分析,该海量数据可以是千万级别甚至更高级别的数据量。图1示例了该数据处理系统的系统架构,如图1所示,该系统中可以包括:前端子系统11、应用服务子系统12和基于内存的分析型存储子系统13。其中,待分析的海量数据可以存储于分析型存储子系统13,例如,该海量数据可以是一次营销活动中收集到的营销数据,并且,该海量数据是存储在分析型存储子系统13的内存中。分析型存储子系统13不仅具有存储数据的功能,并且还可以执行对数据的统计功能,例如,在本次营销活动收集的海量营销数据中,统计北京用户的数量。该分析型存储子系统13可以是ADS(AnalysisDatabaseService,分析数据库服务)存储引擎。分析型存储子系统13可以做简单的数据统计工作,但是对于特征重要性的具体计算,仍然需要通过应用服务子系统12来执行。例如,在计算海量数据集的特征重要性时,如果用信息熵作为特征重要性的度量值,可以是由应用服务子系统12根据分析型存储子系统13所做的统计数据基础上计算得到。而前端子系统11可以作为面向该数据处理系统的用户的门户,例如,可以运行在PC上,向用户展示人机交互界面,比如,WEB页面,以供用户可以通过该交互界面选择待分析的海量数据集、或者数据集中待计算的特征等。前端子系统11与应用服务子系统12之间,应用服务子系统12和分析型存储子系统13之间都可以进行通信,执行信息传输。例如,应用服务子系统12可以运行于服务器集群,作为前端子系统11的设备可以通过网络将获取到的用户选择的数据集或特征的标识等信息,传输至应用服务子系统12。又例如,分析型存储子系统13还可以将统计得到的基础数据通过网络传输至应用服务子系统12,以使得应用服务子系统12根据该数据做进一步计算。图1所示的数据处理系统,在本申请实施例中,可以用于计算海量数据集的特征重要性。通过一个例子来说明“特征重要性的计算”:假设在一次营销活动中,向一万个用户发布了某条营销广告信息,其中,四千人对该广告信息给予了回应,比如,点击了广告中的链接或者购买了广告商品;另外六千人未给予任何回应,可能是这些人对该广告信息没有兴趣。并且,在本次营销活动中,假设可以获得的营销数据包括:给予回应的用户的所在地(如,北京、上海)、性别、年龄;以及未给予回应的用户的所在地、性别、年龄。在本例子中,假设数据分析师期望根据获得的营销数据进行数据分析,以了解具备哪些特征的用户更容易对本次营销广告感兴趣,而哪些特征的用户对本营销不感兴趣,并据此使得后续的营销更有针对性。为了实现该目的,可以将给予回应的用户称为用户群A,将未给予回应的用户称为用户群B,并分析哪些特征可以用于显著区分这两个用户群。例如,假设“性别”是可以用于区分这两个用户群的特征,因为用户群A中的用户全部是男性,用户群B中的用户全部是女性,那么,“性别”这个特征就是重要性最高的特征。又例如,假设计算“所在地”、“年龄”这两个特征的重要性,并且“所在地”的重要性更高,那也就是说,用户群A和用户群B可以依据“所在地”进行显著区分,比如,用户群A的用户大多是北京用户,而用户群B的用户多是上海用户。特征重要性的量化度量,可以有多种方式,例如,可以计算特征的信息熵作为特征重要性的度量,或者,还可以计算特征的IV值,等。可以比较多个特征的信息熵或IV值的大小,并将这些数值进行排序,来确定对应的特征在区分不同用户群方面的重要性。例如,如果一个特征F1的IV值是0.659,另一个特征F2的IV值是0本文档来自技高网...
一种数据处理方法和系统

【技术保护点】
一种数据处理系统,其特征在于,所述数据处理系统包括:前端子系统,用于接收待分析的多个数据集的数据集标识、以及待分析的至少一个特征的特征标识,所述特征位于所述数据集中;应用服务子系统,用于根据所述数据集标识生成用于获取所述数据集的数据查询逻辑,并将所述数据查询逻辑和特征标识传输至分析型存储子系统;还用于根据所述分析型存储子系统得到的特征的统计值,计算特征的重要性;基于内存的分析型存储子系统,用于根据所述应用服务子系统生成的数据查询逻辑,获取所述多个数据集的数据,并分别在所述多个数据集中,并行进行所述特征标识对应的特征的统计,得到所述特征的统计值。

【技术特征摘要】
1.一种数据处理系统,其特征在于,所述数据处理系统包括:前端子系统,用于接收待分析的多个数据集的数据集标识、以及待分析的至少一个特征的特征标识,所述特征位于所述数据集中;应用服务子系统,用于根据所述数据集标识生成用于获取所述数据集的数据查询逻辑,并将所述数据查询逻辑和特征标识传输至分析型存储子系统;还用于根据所述分析型存储子系统得到的特征的统计值,计算特征的重要性;基于内存的分析型存储子系统,用于根据所述应用服务子系统生成的数据查询逻辑,获取所述多个数据集的数据,并分别在所述多个数据集中,并行进行所述特征标识对应的特征的统计,得到所述特征的统计值。2.根据权利要求1所述的系统,其特征在于,当所述前端子系统接收的特征为多个时,所述分析型存储子系统并行计算所述多个特征的统计值。3.根据权利要求1所述的系统,其特征在于,所述分析型存储子系统为分析数据库服务ADS存储引擎。4.根据权利要求1所述的系统,其特征在于,所述应用服务子系统,在根据所述分析型存储子系统得到的特征的统计值计算特征的重要性时,用于:当所述数据集的数量为两个时,根据所述分析型存储子系统得到的特征的统计值,计算所述特征的IV值;当所述数据集的数量多于两个时,计算所述特征的信息熵。5.根据权利要求1~4任一所述的系统,其特...

【专利技术属性】
技术研发人员:毛仁歆王凯
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1