当前位置: 首页 > 专利查询>北京大学专利>正文

数据离散化的方法及装置制造方法及图纸

技术编号:14337135 阅读:73 留言:0更新日期:2017-01-04 10:27
本发明专利技术实施例公开了一种数据离散化方法,包括:接收输入的有序排列的样本集,获取预设的有序排列的初始离散格式;获取预设的类别集合,遍历所述获取到的类别集合中的类别值,获取所述样本集在遍历到的类别值下的在所述初始离散格式中的起始阈值到每个阈值的积分区间的第一样本数,生成积分矩阵;迭代获取所述初始离散格式中的阈值集合的子集,查找所述遍历到的子集中的两两相邻的阈值构成的取值区间,根据所述积分矩阵获取所述每个查找到的取值区间对应的在每个类别值下的第二样本数和在所有类别值下的第三样本数,根据积分矩阵、所述取值区间对应的第二样本数和第三样本数以及所述类别集合计算所述遍历到的子集对应的区分度;查找区分度最大的子集,将所述查找到的区分度最大的子集作为目标离散格式输出。本发明专利技术还公开了一种数据离散化装置。本发明专利技术中数据离散化方法及装置可以减少计算复杂度,提高执行效率。

【技术实现步骤摘要】

本专利技术涉及计算机
,尤其涉及一种数据离散化方法及装置。
技术介绍
数据离散化是一个将连续的特征转换成定类数据(nominaldata)或有序数据的过程。将连续数值的值域划分成多个小区间,每个区间代表了一个有序数值或者定类数据。将定类数据用于分类器(classifier)中,则每个区间可表示一种类别,对应相应的类别标识,将该分类器应用到数据分析应用中,则可根据历史数据或用户输入的数据进行分类。例如,在一个在线广告推广应用中,历史数据构成的样本数据中对点击用户的属性进行了统计,其中在年龄项下,则可能包含8岁至60岁的所有年龄。而在查找与用户属性匹配的在线广告时,往往是将用户属性的年龄与在线广告对应的年龄段进行匹配,则需要预先对在线广告对应的8岁至60岁的所有年龄数据进行离散化处理,若经过离散化处理得到了8至16、16至30、30至49、49至60这4个区间,则该在线广告对应的年龄属性被离散化为了4个定类数据,分别对应少年,青年,中年,老年四个类别标识。当待推送的用户的年龄为24时,则可在数据库中查找所有对应的年龄段为青年的在线广告进行筛选。现有的离散化算法有多种多样,较常见的包括FUSINTER、ChiMerge、CAIM、Chi2等。其中FUSINTER、ChiMerge和ModifiedChi2都是合并式离散化算法,从一个预定的离散化模式开始,逐步地通过删除候选断点来合并两个相邻的子区间,直到满足某一终止条件。CAIM是分割式离散化算法,从整个特征值域开始,逐步地通过添加分割点来将一个区间划分为两个子区间,直至满足停止条件。合并式离散化算法普遍表现好于分割式离散化算法,但其计算复杂度远高于分割式算法。传统技术中的离散化算法通常基于量化矩阵进行推演,在推演过程中,每将两两相邻的取值区间合并,则重新计算一次区分度,然后再重新生成量化矩阵,如此反复,因此计算复杂度较高,导致执行效率较低下。
技术实现思路
基于此,为解决上述提到的传统技术中的数据离散化方法执行效率较低的技术问题,提供了一种数据离散化方法。一种数据离散化方法,包括:接收输入的有序排列的样本集,获取预设的有序排列的初始离散格式;获取预设的类别集合,遍历所述获取到的类别集合中的类别值,获取所述样本集在遍历到的类别值下的在所述初始离散格式中的起始阈值到每个阈值的积分区间的第一样本数,生成积分矩阵;迭代获取所述初始离散格式中的阈值集合的子集,查找所述遍历到的子集中的两两相邻的阈值构成的取值区间,根据所述积分矩阵获取所述每个查找到的取值区间对应的在每个类别值下的第二样本数和在所有类别值下的第三样本数,根据积分矩阵、所述取值区间对应的第二样本数和第三样本数以及所述类别集合计算所述遍历到的子集对应的区分度;查找区分度最大的子集,将所述查找到的区分度最大的子集作为目标离散格式输出。此外,为解决上述提到的传统技术中的数据离散化方法执行效率较低的技术问题,提供了一种数据离散化装置。一种数据离散化装置,包括:样本集输入模块,用于接收输入的有序排列的样本集,获取预设的有序排列的初始离散格式;积分矩阵生成模块,用于获取预设的类别集合,遍历所述获取到的类别集合中的类别值,获取所述样本集在遍历到的类别值下的在所述初始离散格式中的起始阈值到每个阈值的积分区间的第一样本数,生成积分矩阵;迭代计算模块,用于迭代获取所述初始离散格式中的阈值集合的子集,查找所述遍历到的子集中的两两相邻的阈值构成的取值区间,根据所述积分矩阵获取所述每个查找到的取值区间对应的在每个类别值下的第二样本数和在所有类别值下的第三样本数,根据积分矩阵、所述取值区间对应的第二样本数和第三样本数以及所述类别集合计算所述遍历到的子集对应的区分度;目标离散格式输出模块,用于查找区分度最大的子集,将所述查找到的区分度最大的子集作为目标离散格式输出。实施本专利技术实施例,将具有如下有益效果:采用了上述数据离散化方法及装置之后,整个对数据处理的过程中,仅需要初始进行统计,生成积分矩阵,即可根据积分矩阵进行迭代计算每一种可能的合并方式对应的区分度。而在传统技术中通过量化矩阵进行迭代的方案中,则需要在每次移除了初始阈值序列中的部分阈值,在即合并了部分取值区间之后,重新统计样本集在目标阈值序列划分的各个取值区间中的样本数,即在每次迭代过程中均需要重新生成量化矩阵。因此,和传统技术相比,该数据离散化方法的计算量较小,从而执行效率更高。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:图1为一个实施例中一种数据离散化方法的流程图;图2为一个实施例中一种数据离散化装置的示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。传统技术中的数据离散化方法在迭代过程中采用的量化矩阵如表1所示,其中,阈值序列D将有序排列的样本集的值域划分成n个有界区间D={[d0,d1],(d1,d2],…,(dn-1,dn]本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/201510271649.html" title="数据离散化的方法及装置原文来自X技术">数据离散化的方法及装置</a>

【技术保护点】
一种数据离散化方法,其特征在于,包括:接收输入的有序排列的样本集,获取预设的有序排列的初始离散格式;获取预设的类别集合,遍历所述获取到的类别集合中的类别值,获取所述样本集在遍历到的类别值下的在所述初始离散格式中的起始阈值到每个阈值的积分区间的第一样本数,生成积分矩阵;迭代获取所述初始离散格式中的阈值集合的子集,查找所述遍历到的子集中的两两相邻的阈值构成的取值区间,根据所述积分矩阵获取所述每个查找到的取值区间对应的在每个类别值下的第二样本数和在所有类别值下的第三样本数,根据积分矩阵、所述取值区间对应的第二样本数和第三样本数以及所述类别集合计算所述遍历到的子集对应的区分度;查找区分度最大的子集,将所述查找到的区分度最大的子集作为目标离散格式输出。

【技术特征摘要】
1.一种数据离散化方法,其特征在于,包括:接收输入的有序排列的样本集,获取预设的有序排列的初始离散格式;获取预设的类别集合,遍历所述获取到的类别集合中的类别值,获取所述样本集在遍历到的类别值下的在所述初始离散格式中的起始阈值到每个阈值的积分区间的第一样本数,生成积分矩阵;迭代获取所述初始离散格式中的阈值集合的子集,查找所述遍历到的子集中的两两相邻的阈值构成的取值区间,根据所述积分矩阵获取所述每个查找到的取值区间对应的在每个类别值下的第二样本数和在所有类别值下的第三样本数,根据积分矩阵、所述取值区间对应的第二样本数和第三样本数以及所述类别集合计算所述遍历到的子集对应的区分度;查找区分度最大的子集,将所述查找到的区分度最大的子集作为目标离散格式输出。2.根据权利要求1所述的数据离散化方法,其特征在于,所述接收输入的有序排列的样本集的步骤之后还包括:在所述有序排列的样本集中包含的数据为离散数据时,通过计算相邻两个离散数据的平均值得到有序排列的初始离散格式。3.根据权利要求1所述的数据离散化方法,其特征在于,所述查找所述遍历到的子集中的两两相邻的阈值构成的取值区间的步骤之后还包括:遍历所述取值区间,根据所述积分矩阵获取遍历到的取值区间的主类别值,取值区间对应的主类别值为所述样本集在该取值区间中对应最大样本数的类别值;判断是否存在遍历到的取值区间的主类别值对应的第四样本数与所述样本集在所述主类别值下的第五样本数的比值小于或等于阈值,若是,则跳过所述遍历到的子集。4.根据权利要求4所述的数据离散化方法,其特征在于,所述根据积分矩阵、所述取值区间对应的第二样本数和第三样本数以及所述类别集合计算所述遍历到的子集对应的区分度的步骤包括:根据所述积分矩阵和公式:girt=aiR(rt)-aiL(rt)]]>计算第rt个取值区间在第i个类别值下的第二样本数其中,t为遍历到的第t个子集,rt为该子集的中的两两相邻的阈值构成的第rt个取值区间,i为第i个类别值,R(rt)为第rt个取值区间的右端的阈值在所述初始离散格式中的编号,L(rt)为第rt个取值区间的右端的阈值在所述初始离散格式中的编号,为所述积分矩阵中在第i个类别值与编号为R(rt)的阈值对应的第一样本数。5.根据权利要求3所述的数据离散化方法,其特征在于,所述根据积分矩阵、所述取值区间对应的第二样本数和第三样本数以及所述类别集合计算所述遍历到的子集对应的区分度的步骤包括:根据公式:计算遍历到的子集对应的区分度其中,nt为第t个子集中取值区间的总个数,s为类别值的总个数,为第rt个取值区间在第i个类别值下的第二样本数,为第rt个取值区间在所有类别值下的第三样本数,M为样本集中的总样本数,α和λ为调节系数。6.根据权利要求3所述的数据离散化方法,其特征在于,所述根据积分矩阵、所述取值区间对应的第二样本数和第三样本数以及所述类别集合计算所述遍历到的子集对应的区分度的步骤包括:根据公式:y=M[(Σi=1sΣrt=1ntgirt2Mi+M+rt)-1]log(nt)]]>CACC=yy+M]]>计算遍历到的子集对应的区分度CACC;其中,nt为第t个子集中取值区间的总个数,s为类别值的总个数,为第rt个取值区间在第i个类别值下的第二样本数,为第rt个取值区间在所有类别值下的第三样本数,M为样本集中的总样本数,Mi+为样本集在第i个类别值下的总样本数。7.根据权利要求3所述的数据离散化方法,其特征在于,所述根据积分矩阵、所述取值区间对应的第二样本数和第三样本数以及所述类别集合计算所述遍历到的子集对应的区分度的步骤包括:根据公式:CAIM=Σrt=1ntmaxigirt2M+rtnt]]>计算遍历到的子集对应的区分度CAIM;其中,nt为第t个子集中取值区间的总个数,s为类...

【专利技术属性】
技术研发人员:刘宏志蒋杰王巨宏吴中海张兴
申请(专利权)人:北京大学深圳市腾讯计算机系统有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1