一种基于混合遗传决策树算法的物联网特征选择方法技术

技术编号:35261058 阅读:37 留言:0更新日期:2022-10-19 10:20
本文提供了一种基于混合遗传决策树算法的物联网特征选择方法。物联网开放的部署环境和有限的资源使其容易受到恶意攻击,而传统的入侵检测系统很难满足物联网的异构性和分布式特点。为了满足开放部署环境和资源有限的物联网应用的要求,本发明专利技术提出了一种改进的基于遗传算法的物联网最优特征选择方法。该算法在决策树算法的基础上设计适应度函数,通过计算适应度函数的值来判断每个特征组合的分类能力,然后进行选择、交叉和变异,得到下一代特征子集。该算法优化了遗传算法的变异和适应度计算过程。然后通过反复迭代得到最优特征组合,去除无关特征、冗余特征和分类能力低的特征。冗余特征和分类能力低的特征。

【技术实现步骤摘要】
一种基于混合遗传决策树算法的物联网特征选择方法


[0001]本专利技术涉及一种物联网中的网络入侵特征选择方法,特别涉及一种基于混合遗传决策树算法的物联网特征选择方法。

技术介绍

[0002]随着物联网的广泛应用,物联网的安全性问题越来越受到研究者的关注。随着物联网的应用将应用于军事、民生、工商等领域,其网络安全的重要性不言而喻。一旦出现病毒破坏、黑客入侵、恶意代码攻击等问题,其造成的危害和损失将比传统网络上的类似情况更广泛、更具影响力。物联网的网络数据通过传统的计算机网络、无线网络和移动网络等网络进行传输。由于这些网络固有的安全漏洞和脆弱性,物联网的网络信息安全也面临着诸多挑战。因此,物联网安全技术的研究显得尤为重要。
[0003]物联网的传感器网络由大量无人值守的传感器节点组成。传统的入侵检测系统由于计算能力不足、存储空间有限等问题,难以满足需求。入侵检测数据集暴露的一个问题是其数据冗余度非常高。通过对培训数据集的分析,可以发现大约有78%的重复记录(主要是Dos类别数据)。此外,由于训练数据集中的样本数量太多,训练速度非常慢。因此,对数据进行预处理是非常必要的。
[0004]入侵检测系统根据所检测数据来源的不同,可以分为基于主机的入侵检测系统和基于网络的入侵检测系统。由于互联网的应用越发广泛,研究人员对网络入侵检测系统的研究也越来越重视,为此研究人员将深度学习算法应用于网络入侵检测,以进一步提高其性能,因此本文主要针对网络入侵检测进行研究调查。另外,根据其检测能力,入侵检测方法又分为特征检测方法和异常检测方法。其中特征检测方法通过将事件和流量与已知攻击标志数据库相匹配,从而判断是否存在攻击行为,但是这种方法无法检测未知的攻击。另一方面,异常检测方法试图学习正常行为规律并将其他一切识别为异常或入侵。但这种方法还存在着较高的误报率,因此研究人员将深度学习技术应用于异常入侵检测的研究中,从而降低入侵检测误报率。
[0005]虽然目前研究人员针对不同类型的网络攻击提出了各种入侵检测模型,并将机器学习算法应用到入侵检测模型中,但是这些模型还存在着一系列的问题。首先,基于机器学习的入侵检测模型在准确率上取得的效果并不是很理想,并且这种入侵检测模型还有着较高的误报率。其次,随着互联网技术的不断发展,如今的网络流量越来越大,入侵检测模型在运行过程中需要对大量的网络流量进行分析和处理,而机器学习在分析和处理大量数据上并不能表现出良好的性能。

技术实现思路

[0006]为了解决现有方法的缺点,本专利技术设计了一种基于混合遗传决策树算法的物联网特征选择方法,该方法采用决策树算法作为遗传算法的适应度函数计算和特征选择结果性能评估,解决了决策树算法适应度计算时间复杂度高的问题。
[0007]本专利技术所采用的技术方案如下:
[0008]一种基于混合遗传决策树算法的物联网特征选择方法,包括以下部分:
[0009]A、利用遗传算法和决策树算法对入侵检测系统进行特征选择;
[0010]B、一种解决遗传算法在特征选择中经常丢失重要特征问题的策略;
[0011]C、一种动态存储和更新适应度的策略。
[0012]部分A中,所述的利用遗传算法和决策树算法对入侵检测系统进行特征选择是指:当我们训练数据集时,我们通常先对数据进行预处理,然后训练数据集。本专利技术主要对数据预处理过程进行优化。我们采用遗传算法和决策树算法相结合的策略进行数据预处理。
[0013]遗传操作分为三个步骤:选择、交叉和变异。选择是从当前群体中根据作为父亲的概率选择优秀个体,并将基因传递给后代。为了保证高质量的个体不会因概率选择而丢失,最优个体不会被选择、交叉和变异操作破坏,本专利技术采用了精英保留策略的轮盘赌选择操作。将群体中的最优个体直接选择到下一代,然后进行轮盘赌操作选择n个亲本。交叉选择的目的是产生新的个体,使个体以一定的概率或步长变化,保证算法的全局搜索能力。该算法采用单点交叉和单点变异策略。交叉概率p
c
和变异概率P
m
直接影响算法的收敛性。个人电脑越大,产生新个体的速度就越快。然而,如果p
c
太大,适应度高的个体将很快被摧毁,算法将难以收敛。如果p
c
太小,搜索过程的速度会很慢,算法会停滞不前;P
m
也是类似的。与传统算法相比,本专利技术提出的算法进行了改进。对每个个体分别计算合适的交叉概率P
c
和变异概率P
m
。P
c
和P
m
的计算公式为:
[0014][0015][0016]公式中:f
max
是群体每一代的最大适应值,f
avg
是群体每一代的平均适应值,f

是两个交叉个体的较大适应值,f是变异个体的适应值。自适应遗传算法在保证搜索速度的同时保证了算法的收敛性。
[0017]部分B中,一种解决遗传算法在特征选择中经常丢失重要特征问题的策略是指:众所周知,遗传算法在特征选择方面有很多优点,但也有缺点。其一是基于贪婪策略,在特征选择中容易丢失重要特征。例如,当我们选择一个有十个特征的数据集时,我们在某一轮中选择{1,2,3,4,5,6,7}。在下一次选择中,我们只能根据这七个特征进行选择,而特征{8}将永远不会被选择,但很容易出现{1,2,3,4,5,8}优于{1,2,3,4,5,6,7}的情况。
[0018]为了解决这个问题,我们在遗传算法中添加了第二个变异操作。当触发变异操作时,当前个体将删除一个特征并恢复以前删除的特征。
[0019]个体健康度是个体在种群生存中的主导地位的度量,用于区分个体的“好”和“坏”。使用适应度函数计算适应度。适应度函数又称评价函数,其主要任务是通过个体特征来判断个体的适应度。在本专利技术中,我们使用个体训练决策树的准确性作为个体的适应度。
[0020]部分C中,一种动态存储和更新适应度的策略是指:使用决策树算法计算单个特征集的适应度肯定会增加整个算法的时间复杂度。为了解决这个问题,本专利技术采用了记录与
个体对应的特征集的适合度的方法。也就是说,由当前个体计算的适应度存储在机器的内存中。当其他个体想要计算适应度时,首先检查当前个体对应的适应度是否存储在内存中。如果与当前个体对应的适应度存储在存储器中,则使用存储在存储器中的适应度;如果不是,则计算当前个体的适应度并存储在内存中。
[0021]通过将计算出的个体适应度存储在内存中,该方法可以增加空间复杂度,以降低时间复杂度。该方法的应用显著降低了特征选择过程的时间复杂度。
附图说明
[0022]为了更清楚地说明本专利技术的技术方案,下面将对
技术实现思路
中所需要使用的附图作简要地介绍。
[0023]图1是本专利技术设计的遗传算法流程示意图。如图所示,在个体的遗传流程里,个体的适应度计算机制才用决策树算法来完成,此外,在个体需计算适应度时会首先判断该个体是否已经计算过适应度,如果已经计本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于混合遗传决策树算法的物联网特征选择方法,包括以下部分:A、利用遗传算法和决策树算法对入侵检测系统进行特征选择;B、一种解决遗传算法在特征选择中经常丢失重要特征问题的策略;C、一种动态存储和更新适应度的策略。2.根据权利要求1所述的基于混合遗传决策树算法的物联网特征选择方法,其特征在于,所述的部分A中,利用遗传算法和决策树算法对入侵检测系统进行特征选择是指:本发明主要对数据预处理过程进行优化。我们采用遗传算法和决策树算法相结合的策略进行数据预处理。3.根据权利要求1所述的基于混合遗传决策树算法的物联网特征选择方法,其特征在于,所述的部分B中,一种...

【专利技术属性】
技术研发人员:孙浩马孝光张琪甘鹏王亚琪
申请(专利权)人:中国石油大学华东
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1