【技术实现步骤摘要】
本专利技术涉及计算机
,尤其涉及一种数据离散化方法及装置。
技术介绍
数据离散化是一个将连续的特征转换成定类数据(nominaldata)或有序数据的过程。将连续数值的值域划分成多个小区间,每个区间代表了一个有序数值或者定类数据。将定类数据用于分类器(classifier)中,则每个区间可表示一种类别,对应相应的类别标识,将该分类器应用到数据分析应用中,则可根据历史数据或用户输入的数据进行分类。例如,在一个在线广告推广应用中,历史数据构成的样本数据中对点击用户的属性进行了统计,其中在年龄项下,则可能包含8岁至60岁的所有年龄。而在查找与用户属性匹配的在线广告时,往往是将用户属性的年龄与在线广告对应的年龄段进行匹配,则需要预先对在线广告对应的8岁至60岁的所有年龄数据进行离散化处理,若经过离散化处理得到了8至16、16至30、30至49、49至60这4个区间,则该在线广告对应的年龄属性被离散化为了4个定类数据,分别对应少年,青年,中年,老年四个类别标识。当待推送的用户的年龄为24时,则可在数据库中查找所有对应的年龄段为青年的在线广告进行筛选。现有的离散化算法有多种多样,较常见的包括FUSINTER、ChiMerge、CAIM、Chi2等。其中FUSINTER、ChiMerge和ModifiedChi2都是合并式离散化算法,从一个预定的离散化模式开始,逐步地通过删除候选断点来合并两个相邻的子区间,直到满足某一终止条件。CAIM是分割式离散化算法,从整个特征值域开始,逐步地通过添加分割点来将一个区间划分为两个子区间,直至满足停止条件。合并式离散化算法普遍 ...
【技术保护点】
一种数据离散化方法,其特征在于,包括:接收输入的有序排列的样本集,获取预设的有序排列的初始离散格式;获取预设的类别集合,遍历所述获取到的类别集合中的类别值,获取所述样本集在遍历到的类别值下的在所述初始离散格式中的起始阈值到每个阈值的积分区间的第一样本数,生成积分矩阵;迭代获取所述初始离散格式中的阈值集合的子集,查找所述遍历到的子集中的两两相邻的阈值构成的取值区间,根据所述积分矩阵获取所述每个查找到的取值区间对应的在每个类别值下的第二样本数和在所有类别值下的第三样本数,根据积分矩阵、所述取值区间对应的第二样本数和第三样本数以及所述类别集合计算所述遍历到的子集对应的区分度;查找区分度最大的子集,将所述查找到的区分度最大的子集作为目标离散格式输出。
【技术特征摘要】
1.一种数据离散化方法,其特征在于,包括:接收输入的有序排列的样本集,获取预设的有序排列的初始离散格式;获取预设的类别集合,遍历所述获取到的类别集合中的类别值,获取所述样本集在遍历到的类别值下的在所述初始离散格式中的起始阈值到每个阈值的积分区间的第一样本数,生成积分矩阵;迭代获取所述初始离散格式中的阈值集合的子集,查找所述遍历到的子集中的两两相邻的阈值构成的取值区间,根据所述积分矩阵获取所述每个查找到的取值区间对应的在每个类别值下的第二样本数和在所有类别值下的第三样本数,根据积分矩阵、所述取值区间对应的第二样本数和第三样本数以及所述类别集合计算所述遍历到的子集对应的区分度;查找区分度最大的子集,将所述查找到的区分度最大的子集作为目标离散格式输出。2.根据权利要求1所述的数据离散化方法,其特征在于,所述接收输入的有序排列的样本集的步骤之后还包括:在所述有序排列的样本集中包含的数据为离散数据时,通过计算相邻两个离散数据的平均值得到有序排列的初始离散格式。3.根据权利要求1所述的数据离散化方法,其特征在于,所述查找所述遍历到的子集中的两两相邻的阈值构成的取值区间的步骤之后还包括:遍历所述取值区间,根据所述积分矩阵获取遍历到的取值区间的主类别值,取值区间对应的主类别值为所述样本集在该取值区间中对应最大样本数的类别值;判断是否存在遍历到的取值区间的主类别值对应的第四样本数与所述样本集在所述主类别值下的第五样本数的比值小于或等于阈值,若是,则跳过所述遍历到的子集。4.根据权利要求4所述的数据离散化方法,其特征在于,所述根据积分矩阵、所述取值区间对应的第二样本数和第三样本数以及所述类别集合计算所述遍历到的子集对应的区分度的步骤包括:根据所述积分矩阵和公式:girt=aiR(rt)-aiL(rt)]]>计算第rt个取值区间在第i个类别值下的第二样本数其中,t为遍历到的第t个子集,rt为该子集的中的两两相邻的阈值构成的第rt个取值区间,i为第i个类别值,R(rt)为第rt个取值区间的右端的阈值在所述初始离散格式中的编号,L(rt)为第rt个取值区间的右端的阈值在所述初始离散格式中的编号,为所述积分矩阵中在第i个类别值与编号为R(rt)的阈值对应的第一样本数。5.根据权利要求3所述的数据离散化方法,其特征在于,所述根据积分矩阵、所述取值区间对应的第二样本数和第三样本数以及所述类别集合计算所述遍历到的子集对应的区分度的步骤包括:根据公式:计算遍历到的子集对应的区分度其中,nt为第t个子集中取值区间的总个数,s为类别值的总个数,为第rt个取值区间在第i个类别值下的第二样本数,为第rt个取值区间在所有类别值下的第三样本数,M为样本集中的总样本数,α和λ为调节系数。6.根据权利要求3所述的数据离散化方法,其特征在于,所述根据积分矩阵、所述取值区间对应的第二样本数和第三样本数以及所述类别集合计算所述遍历到的子集对应的区分度的步骤包括:根据公式:y=M[(Σi=1sΣrt=1ntgirt2Mi+M+rt)-1]log(nt)]]>CACC=yy+M]]>计算遍历到的子集对应的区分度CACC;其中,nt为第t个子集中取值区间的总个数,s为类别值的总个数,为第rt个取值区间在第i个类别值下的第二样本数,为第rt个取值区间在所有类别值下的第三样本数,M为样本集中的总样本数,Mi+为样本集在第i个类别值下的总样本数。7.根据权利要求3所述的数据离散化方法,其特征在于,所述根据积分矩阵、所述取值区间对应的第二样本数和第三样本数以及所述类别集合计算所述遍历到的子集对应的区分度的步骤包括:根据公式:CAIM=Σrt=1ntmaxigirt2M+rtnt]]>计算遍历到的子集对应的区分度CAIM;其中,nt为第t个子集中取值区间的总个数,s为类...
【专利技术属性】
技术研发人员:刘宏志,蒋杰,王巨宏,吴中海,张兴,
申请(专利权)人:北京大学,深圳市腾讯计算机系统有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。