一种数据流分类方法及装置制造方法及图纸

技术编号:32549378 阅读:21 留言:0更新日期:2022-03-05 11:48
本发明专利技术提供了一种数据流分类方法及装置,根据当前时刻集成分类器的分类错误率以及概念漂移检测阈值准确识别概念漂移状态,并根据概念漂移状态灵活设置下一时刻的数据窗口,如在没有发生概念漂移时快速增大数据窗口,提高数据流分类效率;在不确定是否发生概念漂移时减小数据窗口的增加幅度,进一步确定是否发生概念漂移并降低噪声对分类准确性的影响;在发生概念漂移时快速缩小数据窗口,提高对突变式概念漂移的敏感性,快速对集成分类器进行调整,从而在整体上提高集成分类器对数据流分类的准确性。的准确性。的准确性。

【技术实现步骤摘要】
一种数据流分类方法及装置


[0001]本专利技术涉及机器学习领域、数据处理
,更具体的,涉及一种数据流分类方法及装置。

技术介绍

[0002]随着信息技术的快速发展和大数据时代的到来,数据流分类识别技术成为目前数据挖掘领域研究的重要课题,广泛应用在传感网目标检测、互联网数据识别、电子商务决策等各个领域。
[0003]但是,由于数据流连续带噪、快速到达、海量无限的特点,使得传统处理静态数据挖掘的算法不再满足实际应用要求,并且数据流中隐含知识或概念变化还会导致出现概念漂移现象,影响数据流分类的准确性。

技术实现思路

[0004]有鉴于此,本专利技术提供了一种数据流分类方法及装置,在整体上提高集成分类器对数据流的分类效率以及分类准确性。
[0005]为了实现上述专利技术目的,本专利技术提供的具体技术方案如下:
[0006]一种数据流分类方法,包括:
[0007]确定当前时刻的集成分类器中基分类器数量;
[0008]在当前时刻的所述集成分类器中基分类器数量小于预先设定的所述集成分类器中基分类器最大数量L的情况下,将下一时刻的数据窗口设置为预设初始窗口,利用当前时刻的数据窗口中的数据样本训练生成新的基分类器,并利用当前时刻的所述集成分类器对当前时刻的数据窗口内的数据流进行分类,其中,L为正整数;
[0009]在当前时刻为生成第L个基分类器的时刻的情况下,将下一时刻的数据窗口设置为预设初始窗口,利用当前时刻的数据窗口中的数据样本训练生成新的基分类器,利用当前时刻的所述集成分类器对当前时刻的数据窗口内的数据流进行分类,并根据当前时刻所述集成分类器的分类错误率设置概念漂移检测阈值;
[0010]在当前时刻为生成第L个基分类器之后的时刻的情况下,根据当前时刻所述集成分类器的分类错误率以及所述概念漂移检测阈值确定概念漂移状态,依据所述概念漂移状态设置下一时刻的数据窗口,利用当前时刻的所述集成分类器对当前时刻的数据窗口内的数据流进行分类,并根据到当前时刻为止所述集成分类器的最小分类错误率更新所述概念漂移检测阈值。
[0011]可选的,所述根据到当前时刻为止所述集成分类器的最小分类错误率更新所述概念漂移检测阈值,包括:
[0012]确定到当前时刻为止所述集成分类器的分类错误率的最小值以及分类错误率标准差的最小值;
[0013]根据所述分类错误率的最小值以及所述分类错误率标准差的最小值更新所述概
念漂移检测阈值。
[0014]可选的,所述根据当前时刻所述集成分类器的分类错误率以及所述概念漂移检测阈值确定概念漂移状态,包括:
[0015]在p
t

t
<p
min
+ηδ
min
的情况下,确定没有发生概念漂移;
[0016]在p
min
+ηδ
min
<p
t

t
<p
min
+αδ
min
的情况下,确定概念漂移警告;
[0017]在p
t

t
>p
min
+αδ
min
的情况下,确定发生概念漂移;
[0018]其中,p
t
表示当前时刻所述集成分类器的分类错误率,δ
t
表示当前时刻所述集成分类器的分类错误率标准差,p
min
表示所述概念漂移检测阈值中的所述分类错误率的最小值,δ
min
表示所述概念漂移检测阈值中的所述分类错误率标准差的最小值,η和α分别为两个预先设定的常数因数,且η<α。
[0019]可选的,依据所述概念漂移状态设置下一时刻的数据窗口,包括:
[0020]在没有发生概念漂移的情况下,将下一时刻的数据窗口设置为当前时刻数据窗口的2倍;
[0021]在概念漂移警告的情况下,将下一时刻的数据窗口设置为当前时刻数据窗口与预设初始窗口的和值;
[0022]在发生概念漂移的情况下,将下一时刻的数据窗口设置为预设初始窗口。
[0023]可选的,所述方法还包括:
[0024]在发生概念漂移的情况下,利用当前时刻的数据窗口中的数据样本训练生成新的基分类器,并将当前时刻所述集成分类器中分类错误率最大的基分类器替换为新的基分类器,直到概念漂移状态发生改变。
[0025]可选的,所述方法还包括:
[0026]在当前时刻的所述集成分类器中基分类器数量小于预先设定的所述集成分类器中基分类器最大数量L的情况下,分别根据当前时刻的每个基分类器的分类错误率设置其基分类器权值,以对当前时刻每个基分类器的分类结果利用基分类器权值加权后采用投票法融合得到所述集成分类器的分类结果;
[0027]在当前时刻为生成第L个基分类器的时刻的情况下,分别根据当前时刻的每个基分类器的分类错误率更新其基分类器权值,以对当前时刻每个基分类器的分类结果利用基分类器权值加权后采用投票法融合得到所述集成分类器的分类结果;
[0028]在概念漂移警告或发生概念漂移的情况下,分别根据当前时刻的每个基分类器的分类错误率更新其基分类器权值,以对当前时刻每个基分类器的分类结果利用基分类器权值加权后采用投票法融合得到所述集成分类器的分类结果。
[0029]一种数据流分类装置,包括:
[0030]分类器数量确定单元,用于确定当前时刻的集成分类器中基分类器数量;
[0031]第一分类处理单元,用于在当前时刻的所述集成分类器中基分类器数量小于预先设定的所述集成分类器中基分类器最大数量L的情况下,将下一时刻的数据窗口设置为预设初始窗口,利用当前时刻的数据窗口中的数据样本训练生成新的基分类器,并利用当前时刻的所述集成分类器对当前时刻的数据窗口内的数据流进行分类,其中,L为正整数;
[0032]第二分类处理单元,用于在当前时刻为生成第L个基分类器的时刻的情况下,将下一时刻的数据窗口设置为预设初始窗口,利用当前时刻的数据窗口中的数据样本训练生成
新的基分类器,利用当前时刻的所述集成分类器对当前时刻的数据窗口内的数据流进行分类,并根据当前时刻所述集成分类器的分类错误率设置概念漂移检测阈值;
[0033]第三分类处理单元,用于在当前时刻为生成第L个基分类器之后的时刻的情况下,根据当前时刻所述集成分类器的分类错误率以及所述概念漂移检测阈值确定概念漂移状态,依据所述概念漂移状态设置下一时刻的数据窗口,利用当前时刻的所述集成分类器对当前时刻的数据窗口内的数据流进行分类,并根据到当前时刻为止所述集成分类器的最小分类错误率更新所述概念漂移检测阈值。
[0034]可选的,所述第三分类处理单元,包括:
[0035]概念漂移检测阈值更新单元,用于确定到当前时刻为止所述集成分类器的分类错误率的最小值以及分类错误率标准差的最小值;根据所述分类错误率的最小值以及所述分类错误率标准差本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据流分类方法,其特征在于,包括:确定当前时刻的集成分类器中基分类器数量;在当前时刻的所述集成分类器中基分类器数量小于预先设定的所述集成分类器中基分类器最大数量L的情况下,将下一时刻的数据窗口设置为预设初始窗口,利用当前时刻的数据窗口中的数据样本训练生成新的基分类器,并利用当前时刻的所述集成分类器对当前时刻的数据窗口内的数据流进行分类,其中,L为正整数;在当前时刻为生成第L个基分类器的时刻的情况下,将下一时刻的数据窗口设置为预设初始窗口,利用当前时刻的数据窗口中的数据样本训练生成新的基分类器,利用当前时刻的所述集成分类器对当前时刻的数据窗口内的数据流进行分类,并根据当前时刻所述集成分类器的分类错误率设置概念漂移检测阈值;在当前时刻为生成第L个基分类器之后的时刻的情况下,根据当前时刻所述集成分类器的分类错误率以及所述概念漂移检测阈值确定概念漂移状态,依据所述概念漂移状态设置下一时刻的数据窗口,利用当前时刻的所述集成分类器对当前时刻的数据窗口内的数据流进行分类,根据到当前时刻为止所述集成分类器的最小分类错误率更新所述概念漂移检测阈值。2.根据权利要求1所述的方法,其特征在于,所述根据到当前时刻为止所述集成分类器的最小分类错误率更新所述概念漂移检测阈值,包括:确定到当前时刻为止所述集成分类器的分类错误率的最小值以及分类错误率标准差的最小值;根据所述分类错误率的最小值以及所述分类错误率标准差的最小值更新所述概念漂移检测阈值。3.根据权利要求2所述的方法,其特征在于,所述根据当前时刻所述集成分类器的分类错误率以及所述概念漂移检测阈值确定概念漂移状态,包括:在p
t

t
<p
min
+ηδ
min
的情况下,确定没有发生概念漂移;在p
min
+ηδ
min
<p
t

t
<p
min
+αδ
min
的情况下,确定概念漂移警告;在p
t

t
>p
min
+αδ
min
的情况下,确定发生概念漂移;其中,p
t
表示当前时刻所述集成分类器的分类错误率,δ
t
表示当前时刻所述集成分类器的分类错误率标准差,p
min
表示所述概念漂移检测阈值中的所述分类错误率的最小值,δ
min
表示所述概念漂移检测阈值中的所述分类错误率标准差的最小值,η和α分别为两个预先设定的常数因数,且η<α。4.根据权利要求3所述的方法,其特征在于,依据所述概念漂移状态设置下一时刻的数据窗口,包括:在没有发生概念漂移的情况下,将下一时刻的数据窗口设置为当前时刻数据窗口的2倍;在概念漂移警告的情况下,将下一时刻的数据窗口设置为当前时刻数据窗口与预设初始窗口的和值;在发生概念漂移的情况下,将下一时刻的数据窗口设置为预设初始窗口。5.根据权利要求3所述的方法,其特征在于,所述方法还包括:在发生概念漂移的情况下,利用当前时刻的数据窗口中的数据样本训练生成新的基分
类器,并将当前时刻所述集成分类器中分类错误率最大的基分类器替换为新的基分类器,直到概念漂移状态发生改变。6.根据权利要求3所述的方法,其特征在于,所述方法还包括:在当前时刻的所述集成分类器中基分类器数量小于预先设定的所述集成分类器中基分类器最大数量L的情况下,分别根据当前时刻的每个基分类器的分类错误率设置其基分类器权值,以对当前时刻每个基分类器的分类结果利用基分类器权值加权后采用投票法融合得到所述集成分类器的分类结果;在当前时刻为生成第L个基分类器的时刻的情况下,分别根据当前时刻的每个基分类器的分类错误率更新其基分类器权值,以对当前时刻每个基分类器的分类结果利用基分类器权值加权后采用投票法融合得到所述集成分类器的分类结果;在概念漂移警告或发生概念漂移的情况下,分别根据当前时刻的每个基分类器的分类错误率更新其基分类器权值,以对当前时刻每个基分类器的分类结果利用基分类器权值加权后采用投票法融合得到所述集成分类器的分...

【专利技术属性】
技术研发人员:陈迎春冉晓旻董芳刘广怡孙昱莫有权王晓梅张静余道杰
申请(专利权)人:中国人民解放军战略支援部队信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1