The invention provides a data processing method and system, wherein the system comprises a front terminal system for feature identification of at least one of the plurality of data receiving characteristics of the set of data sets to be analyzed and identified, and the characteristics in the data set; application service subsystem, according to the data set identification generated for obtaining the data in the data query logic, and the logic and data query signature is transmitted to the analysis of the storage subsystem; also used in the analysis according to the statistical characteristics of the storage subsystem with the value of the importance of computing features; analysis of the storage subsystem based on memory, for according to the application service subsystem generated data query logic, obtain the plurality of data sets, and are concentrated in the plurality of data parallel to the The statistics of the features corresponding to the feature identification, and the statistical values of the features are obtained. This application improves the computational efficiency of the characteristic importance of massive datasets.
【技术实现步骤摘要】
一种数据处理方法和系统
本申请涉及网络技术,特别涉及一种数据处理方法和系统。
技术介绍
随着大数据技术的发展,可以应用海量数据分析技术,为企业的经营活动挖掘更有价值的参考信息。例如,可以根据某次营销活动得到的海量营销数据,通过数据分析确定某个目标群体的特征参数,从而可以根据该特征参数制定更有针对性的营销方案。对海量数据集的特征重要性的计算,是海量数据分析中的其中一种,通过计算特征重要性的度量值,确定重要性更高的特征作为能够区分不同用户群体的显著性特征,使得可以据此了解不同用户群体的特点。相关技术中,在海量数据中计算特征重要性时,通常采用HIVE(HIVE是基于Hadoop的一个数据仓库工具)进行计算,由于HIVE底层采用MapReduce的计算框架,导致在千万级别数据量上,至少需要数十分钟才能得到特征重要性结果。
技术实现思路
有鉴于此,本申请提供一种数据处理方法和系统,以提高对海量数据集的特征重要性的计算效率。具体地,本申请是通过如下技术方案实现的:第一方面,提供一种数据处理系统,所述数据处理系统包括:前端子系统,用于接收待分析的多个数据集的数据集标识、以及待分析的至少一个特征的特征标识,所述特征位于所述数据集中;应用服务子系统,用于根据所述数据集标识生成用于获取所述数据集的数据查询逻辑,并将所述数据查询逻辑和特征标识传输至分析型存储子系统;还用于根据所述分析型存储子系统得到的特征的统计值,计算特征的重要性;基于内存的分析型存储子系统,用于根据所述应用服务子系统生成的数据查询逻辑,获取所述多个数据集的数据,并分别在所述多个数据集中,并行进行所述特征标识对应的 ...
【技术保护点】
一种数据处理系统,其特征在于,所述数据处理系统包括:前端子系统,用于接收待分析的多个数据集的数据集标识、以及待分析的至少一个特征的特征标识,所述特征位于所述数据集中;应用服务子系统,用于根据所述数据集标识生成用于获取所述数据集的数据查询逻辑,并将所述数据查询逻辑和特征标识传输至分析型存储子系统;还用于根据所述分析型存储子系统得到的特征的统计值,计算特征的重要性;基于内存的分析型存储子系统,用于根据所述应用服务子系统生成的数据查询逻辑,获取所述多个数据集的数据,并分别在所述多个数据集中,并行进行所述特征标识对应的特征的统计,得到所述特征的统计值。
【技术特征摘要】
1.一种数据处理系统,其特征在于,所述数据处理系统包括:前端子系统,用于接收待分析的多个数据集的数据集标识、以及待分析的至少一个特征的特征标识,所述特征位于所述数据集中;应用服务子系统,用于根据所述数据集标识生成用于获取所述数据集的数据查询逻辑,并将所述数据查询逻辑和特征标识传输至分析型存储子系统;还用于根据所述分析型存储子系统得到的特征的统计值,计算特征的重要性;基于内存的分析型存储子系统,用于根据所述应用服务子系统生成的数据查询逻辑,获取所述多个数据集的数据,并分别在所述多个数据集中,并行进行所述特征标识对应的特征的统计,得到所述特征的统计值。2.根据权利要求1所述的系统,其特征在于,当所述前端子系统接收的特征为多个时,所述分析型存储子系统并行计算所述多个特征的统计值。3.根据权利要求1所述的系统,其特征在于,所述分析型存储子系统为分析数据库服务ADS存储引擎。4.根据权利要求1所述的系统,其特征在于,所述应用服务子系统,在根据所述分析型存储子系统得到的特征的统计值计算特征的重要性时,用于:当所述数据集的数量为两个时,根据所述分析型存储子系统得到的特征的统计值,计算所述特征的IV值;当所述数据集的数量多于两个时,计算所述特征的信息熵。5.根据权利要求1~4任一所述的系统,其特...
【专利技术属性】
技术研发人员:毛仁歆,王凯,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。