一种工控数据特征重排序算法的自适应确定方法技术

技术编号:30550809 阅读:20 留言:0更新日期:2021-10-30 13:31
本发明专利技术涉及一种工控数据特征重排序算法的自适应确定方法,通过基于不同特征重排序算法对数据集进行特征选择;基于机器学习算法对重排序后的数据集进行训练记录准确率、召回率和时间,并对数据集计算预设评价指标,以生成相应的指标数据集合;对指标数据集合使用机器学习算法建立选择最优重排序算法的决策树;并使用决策树对输入的目标数据集的指标数据进行处理,以得到和目标数据集相匹配的特征重排序算法。实现了能够自动挑选出和目标数据集匹配度最好的特征重排序算法,从而提高了数据集特征重排序算法的准确度和效率,为工控数据的异常检测提供了保证。异常检测提供了保证。异常检测提供了保证。

【技术实现步骤摘要】
一种工控数据特征重排序算法的自适应确定方法


[0001]本专利技术属于数据安全
,具体涉及一种工控数据特征重排序算法的自适应确定方法。

技术介绍

[0002]在工控领域中,随着互联网技术的逐渐成熟,工控网络越来越多地与互联网相联通,这使得工控网络极易受到攻击。
[0003]现有针对工控数据实时监控的异常检测算法多采用机器学习算法和神经网络算法。但实际工控环境复杂在采集数据时存储顺序随机,采集到的数据维度间关联具有不确定性。如相邻维度可能是无关参数或无关设备,而相关设备或参数物理距离远等情况。以上这些问题加大了异常检测算法的学习难度,算法的学习效率有待进一步提高。而实际情况中存在不同的工控环境,采集到的数据集都不相同,为每个数据集寻找适用特征选择算法重复工作量大,实现同一类型的数据集直接匹配特征选择算法,去除重复运算也刻不容缓。

技术实现思路

[0004]为了解决现有技术存在的效率低的问题,本专利技术提供了一种工控数据特征重排序算法的自适应确定方法,其具有提高了数据集特征重排序的准确度和效率,为工控数据的异常检测提供了保证等特点。
[0005]根据本专利技术的具体实施方式的一种工控数据特征重排序算法的自适应确定方法,包括:
[0006]基于不同特征选择算法对数据集进行特征重排序;
[0007]基于机器学习算法对重排序后的数据集进行训练记录准确率、召回率和时间,并对数据集计算预设评价指标,以生成相应的指标数据集合;
[0008]基于所述指标数据集合使用机器学习算法建立选择最优重排序算法的决策树;
[0009]基于所述决策树对输入的目标数据集的指标数据进行判断,以得到和所述目标数据集相匹配的特征重排序算法。
[0010]进一步的,基于机器学习算法对重排序后的数据集进行训练记录Acc、Recall和时间,并对数据集计算预设评价指标,以生成相应的指标数据集合包括:
[0011]基于预设数据集相关参数对数据集进行计算,基于特征选择结果参数对特征选择结果进行计算以生成所述指标数据集合。
[0012]进一步的,所述数据集相关参数包括:数据集维度、分类数量、各类数据量分布不平衡度、KL散度、数据拟合度、方差和方差膨胀系数。
[0013]进一步的,所述特征选择结果参数包括特征选择数量和特征评分分布不平衡度。
[0014]进一步的,所述基于所述指标数据集合使用机器学习算法建立选择最优重排序算法的决策树包括:
[0015]分别计算根据每个特征划分所述指标数据集合后的信息熵,并选择信息增益最大
的特征作为数据划分节点来划分所述指标数据集合;
[0016]递归处理被划分后的所有子数据集,以选择出最优数据划分特征来划分子数据集。
[0017]进一步的,所述基于所述指标数据集合使用机器学习算法建立选择最优重排序算法的决策树还包括:
[0018]对所述决策树进行剪枝以提高所述决策树的分类速度和分类精度。
[0019]本专利技术的有益效果为:通过基于不同特征重排序算法对数据集进行特征选择;然后基于预设评价指标对数据集和相应的特征选择结果进行评价,并生成相应的指标数据集合;对指标数据集合使用机器学习算法建立选择最优重排序算法的决策树;并使用决策树对输入的目标数据集的指标数据进行处理,以得到和目标数据集相匹配的特征重排序算法。实现了能够自动挑选出和目标数据集匹配度最好的特征重排序算法,从而提高了数据集特征重排序的准确度和效率,为工控数据的异常检测提供了保证。
附图说明
[0020]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0021]图1是根据一示例性实施例提供的工控数据特征重排序算法的自适应确定方法的流程图。
具体实施方式
[0022]为使本专利技术的目的、技术方案和优点更加清楚,下面将对本专利技术的技术方案进行详细的描述。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本专利技术所保护的范围。
[0023]参照图1所示,本专利技术的实施例提供了一种工控数据特征重排序算法的自适应确定方法,具体包括以下步骤:
[0024]101、基于不同特征选择算法对数据集进行特征重排序;
[0025]常见的排序方法包含特征选择方法、正则化方法、随机森林方法、顶层选择方法等。现在用不同特征选择方法找对于不同工控数据集适用的方法其中包括:
[0026]Pearson相关系数(Pearson Correlation Coefficient)是用来衡量两个数据集合是否在一条线上面,它用来衡量定距变量间的线性关系[28]。如果两个变量的变化趋于一致,表明两组结果越相似。
[0027]最大信息系数(maximal information coefficient)是用于衡量两个维度X、Y的线性或非线性的强度。通过计算两个维度不同情况发生的概率计算得到信息量。MIC具有普适性,在样本量足够大时,能均衡覆盖所有的函数关系。MIC具有公平性,是指在样本量足够大时能为不同类型单噪声程度相似的相关关系给出相近的系数。
[0028]距离相关系数dCor(X,Y)研究两维度X和Y的独立性,当距离相关系数越趋近于0则
相互之间越独立,反之越大则相互之间关联性越强。
[0029]L1正则化将系数θ的L1范数作为惩罚项加到损失函数上,由于正则项非零,这就迫使那些弱的特征所对应的系数变成0。因此L1正则化往往会使学到的模型很稀疏,这个特性使得L1正则化成为一种很好的特征选择方法。
[0030]L2正则化将系数向量的L2范数添加到了损失函数中。由于L2惩罚项中系数是二次方的,这使得L2和L1有着诸多差异,最明显的一点就是,L2正则化会让系数的取值变得平均。对于关联特征,这意味着他们能够获得更相近的对应系数。其公式与L1正则化相同,但是损失函数替换为系数θ的L2范数。公式与L1范数相同。
[0031]随机森林由多棵CART决策树构成,决策树中的每一个节点都是关于某个特征的条件,为的是将数据集按照不同的响应变量一分为二,对于分类问题,通常采用基尼不纯度。
[0032]当训练决策树的时候,可以计算出每个特征减少了多少树的不纯度。对于一个决策树森林来说,可以算出每个特征平均减少了多少不纯度,并把它平均减少的不纯度作为特征选择的值。
[0033]另一种常用的特征选择方法就是直接度量每个特征对模型精确率的影响。主要思路是打乱每个特征的特征值顺序,并且度量顺序变动对模型的精确率的影响。很明显,对于不重要的变量来说,打乱顺序对模型的精确率影响不会太大,但是对于重要的变量本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种工控数据特征重排序算法的自适应确定方法,其特征在于,包括:基于不同特征选择算法对数据集进行特征重排序;基于机器学习算法对重排序后的数据集进行训练记录准确率、召回率和时间,并对数据集计算预设评价指标,以生成相应的指标数据集合;基于所述指标数据集合使用机器学习算法建立选择最优重排序算法的决策树;基于所述决策树对输入的目标数据集的指标数据进行判断,以得到和所述目标数据集相匹配的特征重排序算法。2.根据权利要求1所述的工控数据特征重排序算法的自适应确定方法,其特征在于,基于机器学习算法对重排序后的数据集进行训练记录Acc、Recall和时间,并对数据集计算预设评价指标,以生成相应的指标数据集合包括:基于预设数据集相关参数对数据集进行计算,基于特征选择结果参数对特征选择结果进行计算以生成所述指标数据集合。3.根据权利要求2所述的工控数据特征重排序算法的自适应确定方法,其特征在于,所述数据集相...

【专利技术属性】
技术研发人员:刘学君孔祥旻张小妮沙芸晏涌王文晖曹雪莹李凯丽
申请(专利权)人:北京石油化工学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1