当前位置: 首页 > 专利查询>济南大学专利>正文

从N到N+1的多类转换恶意软件检测方法技术

技术编号:28623682 阅读:48 留言:0更新日期:2021-05-28 16:19
本公开提供了一种从N到N+1的多类转换恶意软件检测方法,包括获取待测软件的网络流量,输入到预训练的检测模型中,输出待测软件的检测结果;其中,所述检测模型的训练及更新过程包括:通过聚类算法对初始训练集进行分类处理,将所述初始训练集构建成树形结构,树的节点为训练样本中不同类别的质心;随着训练样本的更新,将增量数据样本输入预训练的检测模型,对所述检测模型进行更新,生成最新的检测模型;所述方案通过对动态增长的数据集进行有效处理,解决了训练数据的数量和类的数量随着时间的推移而增加场景下的恶意软件检测问题。

【技术实现步骤摘要】
从N到N+1的多类转换恶意软件检测方法
本公开属于恶意软件检测
,尤其涉及一种从N到N+1的多类转换恶意软件检测方法。
技术介绍
本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息,不必然构成在先技术。随着网络和移动终端技术的发展,大量的应用程序应运而生。与此同时恶意应用程序的数量也在不断增加,这严重威胁着人们的财产和隐私安全。通过分析网络流量进行Android恶意应用检测是近年来新兴的一种方法。然而随着网络流量的不断产生,数据规模越来越大,针对传统的恶意应用检测方法在处理大规模样本时存在的训练时间长、存储空间消耗大的问题。现今存在的Android恶意应用的检测方法可以粗略的分为三类:静态分析,动态分析和基于流量的分析方法。静态分析是指在不运行代码的情况下,采用控制流分析、数据流分析和语义分析等各类技术手段对APK文件及其解析生成的文件进行分析的技术。与静态分析不同,动态分析需要运行应用程序,并且观察它的运行过程,使用开源的沙盒DroidBox进行分析,记录执行动作的日志和数量,对所有动作进行分析和分类。网络流量分析是以应用程序运行阶段产生的网络流量为研究对象,分析网络流量数据,利用机器学习方法建立检测模型。专利技术人发现,上述研究方法的共同特点为:在构造分类器前先获得足够的训练样本,再利用单一或综合分类算法构造分类器,最后利用测试样本对分类器性能进行检测,训练样本规模决定了最终分类器的精度和稳定性。然而,这种方式存在着一定缺陷:首先,一次获得的初始训练样本集规模有限,由此得到的分类器分类精度不高;其次,随着样本规模的上升,建立分类模型所耗费的时间和存储空间不断增大,成本增加。为了降低构造分类器的时间和空间消耗,并通过训练样本规模的增加逐步改善分类器性能,需要改变策略,寻找更加有效的解决方法。
技术实现思路
本公开为了解决上述问题,提供了一种从N到N+1的多类转换恶意软件检测方法及系统,所述方案通过对动态增长的数据集进行有效处理,解决了训练数据的数量和类的数量随着时间的推移而增加场景下的恶意软件检测问题。根据本公开实施例的第一个方面,提供了一种从N到N+1的多类转换恶意软件检测方法,包括:获取待测软件的网络流量,输入到预训练的检测模型中,输出待测软件的检测结果;其中,所述检测模型的训练及更新过程包括:通过聚类算法对初始训练集进行分类处理,将所述初始训练集构建成树形结构,树的节点为训练样本中不同类别的质心;随着训练样本的更新,将增量数据样本输入预训练的检测模型,对所述检测模型进行更新,生成最新的检测模型。进一步的,所述检测模型的训练,需要预先获取训练子模型的训练集,其具体步骤为:(1)从初始训练集中有放回的抽出样本,抽取样本次数为N,N为训练集样本的个数;(2)训练M个子模型,则步骤(1)操作M次,每操作步骤(1)获得的样本集用来训练一个子模型。进一步的,所述检测模型的训练包括如下步骤:(1)训练集样本通过聚类算法,聚成两个簇A,B,这里使用的聚类算法是FCM,并记录簇A,B的质心,作为树的结点,形成树结构的两个分叉,作为树结构第一层的结点;(2)根据A簇数据,在重复步骤(1),依据FCM算法聚类,生成2个簇,构成下一层树结构的结点;(3)根据B簇数据,重复步骤(1),依据FCM算法聚类,生成2个簇,构成下一层树结构的结点;(4)判断步骤(2)生成簇的样本个数是否小于设定的阈值з;(5)若小于设定的阈值з,停止聚类,计算簇中不同类别样本所占比例,样本类别比例数最大的为叶子的标签;(6)若大于设定的阈值з,则重复步骤(1)至步骤(4);(7)生成树型结构的检测模型。进一步的,利用预训练的检测模型进行预测包括如下步骤:(1)将测试样本输入到训练好的检测模型中;(2)先比较测试样本与检测模型第n层结点质心之间的距离;(3)若测试样本与左结点质心的距离小于测试样本与右结点质心的距离,则比较测试样本与检测模型第n+1层结点左分支质心之间的距离;(4)若测试样本与左结点质心的距离大于测试样本与右结点质心的距离,则比较测试样本与检测模型第n+1层结点右分支质心之间的距离;(5)重复步骤(2)至步骤(4);(6)判断测试样本是否到达叶子结点;(7)若测试样本到达叶子结点,则输出叶子结点的所代表的标签;(8)若测试样本未到达叶子结点,重复步骤(5)至步骤(6)。进一步的,将增量数据样本输入预训练的检测模型,对所述检测模型进行更新的步骤为:步骤(1):使用增量数据集中所有的数据按照上述利用预训练的检测模型进行预测的方法,将增量数据集中所有的数据落入叶子结点中;步骤(2):重新统计叶子结点,计算不同类别样本所占比例,样本类别比例数最大的为叶子的标签。进一步的,将增量数据样本输入预训练的检测模型,对所述检测模型进行更新的步骤还可以为:(1)使用增量数据集中所有的数据按照步骤(3)的方法,将增量数据集中所有的数据落入叶子结点中;(2)判断叶子结点的样本数是否大于设定的阈值з;(3)若叶子结点的样本数大于设定的阈值з,则重复上述检测模型的训练步骤中的步骤(1)至步骤(4);(4)若叶子结点的样本数小于设定的阈值з,计算簇中不同类别样本所占比例,样本类别比例数最大的为叶子的标签。进一步的,将增量数据样本输入预训练的检测模型,对所述检测模型进行更新的步骤还可以为:(1)计算检测模型中每个结点被删除的概率,概率的计算方式按照结点以下结点越多,被删除的概率越小的原则,若结点a下存在的结点数为p,整个检测模型的结点数为q,则a结点被删除的概率为p/q;(2)按照轮盘赌算法,选择删除的结点,删除该结点以下的子树,使该结点成为叶子;(3)使用增量数据集中所有的数据按照步骤(3)的方法,将增量数据集中所有的数据落入叶子结点中;(4)判断叶子结点的样本数是否大于设定的阈值з;(5)若叶子结点的样本数大于设定的阈值з,则重复上述检测模型的训练步骤中的步骤(1)至步骤(4);(6)若叶子结点的样本数小于设定的阈值з,计算簇中不同类别样本所占比例,样本类别比例数最大的为叶子的标签。进一步的,利用更新后的检测模型进行预测,包括如下步骤:(1)将测试样本输入到更新后的检测模型中;(2)先比较测试样本与检测模型第n层结点质心之间的距离;(3)若测试样本与左结点质心的距离小于测试样本与右结点质心的距离,则比较测试样本与检测模型第n+1层结点左分支质心之间的距离;(4)若测试样本与左结点质心的距离大于测试样本与右结点质心的距离,则比较测试样本与检测模型第n+1层结点右分支质心之间的距离;(5)重复所述检测模型进行更新的步骤(2)至步骤(4);(6)判断测试样本是否到达叶子结点;(7)若测试样本到达叶子结点,则输出本文档来自技高网
...

【技术保护点】
1.一种从N到N+1的多类转换恶意软件检测方法,其特征在于,包括:/n获取待测软件的网络流量,输入到预训练的检测模型中,输出待测软件的检测结果;其中,所述检测模型的训练及更新过程包括:通过聚类算法对初始训练集进行分类处理,将所述初始训练集构建成树形结构,树的节点为训练样本中不同类别的质心;随着训练样本的增加,将增量数据样本输入预训练的检测模型,对所述检测模型进行更新,生成最新的检测模型。/n

【技术特征摘要】
1.一种从N到N+1的多类转换恶意软件检测方法,其特征在于,包括:
获取待测软件的网络流量,输入到预训练的检测模型中,输出待测软件的检测结果;其中,所述检测模型的训练及更新过程包括:通过聚类算法对初始训练集进行分类处理,将所述初始训练集构建成树形结构,树的节点为训练样本中不同类别的质心;随着训练样本的增加,将增量数据样本输入预训练的检测模型,对所述检测模型进行更新,生成最新的检测模型。


2.如权利要求1所述的一种从N到N+1的多类转换恶意软件检测方法,其特征在于,所述检测模型的训练,需要预先获取训练子模型的训练集,其具体步骤为:
(1)从初始训练集中有放回的抽出样本,抽取样本次数为N,N为训练集样本的个数;
(2)训练M个子模型,则步骤(1)操作M次,每操作步骤(1)获得的样本集用来训练一个子模型。


3.如权利要求1所述的一种从N到N+1的多类转换恶意软件检测方法,其特征在于,所述检测模型的训练包括如下步骤:
(1)训练集样本通过聚类算法,聚成两个簇A,B,这里使用的聚类算法是FCM,并记录簇A,B的质心,作为树的结点,形成树结构的两个分叉,作为树结构第一层的结点;
(2)根据A簇数据,在重复步骤(1),依据FCM算法聚类,生成2个簇,构成下一层树结构的结点;
(3)根据B簇数据,重复步骤(1),依据FCM算法聚类,生成2个簇,构成下一层树结构的结点;
(4)判断步骤(2)生成簇的样本个数是否小于设定的阈值з;
(5)若小于设定的阈值з,停止聚类,计算簇中不同类别样本所占比例,样本类别比例数最大的为叶子的标签;
(6)若大于设定的阈值з,则重复步骤(1)至步骤(4);
(7)生成树型结构的检测模型。


4.如权利要求1所述的一种从N到N+1的多类转换恶意软件检测方法,其特征在于,利用预训练的检测模型进行预测包括如下步骤:
(1)将测试样本输入到训练好的检测模型中;
(2)先比较测试样本与检测模型第n层结点质心之间的距离;
(3)若测试样本与左结点质心的距离小于测试样本与右结点质心的距离,则比较测试样本与检测模型第n+1层结点左分支质心之间的距离;
(4)若测试样本与左结点质心的距离大于测试样本与右结点质心的距离,则比较测试样本与检测模型第n+1层结点右分支质心之间的距离;
(5)重复步骤(2)至步骤(4);
(6)判断测试样本是否到达叶子结点;
(7)若测试样本到达叶子结点,则输出叶子结点的所代表的标签;
(8)若测试样本未到达叶子结点,重复步骤(5)至步骤(6)。


5.如权利要求1所述的一种从N到N+1的多类转换恶意软件检测方法,其特征在于,将增量数据样本输入预训练的检测模型,对所述检测模型进行更新的步骤为:
步骤(1):使用增量数据集中所有的数据按照上述利用预训练的检测模型进行预测的方法,将增量数据集中所有的数据落入叶子结点中;
步骤(2):重新统计叶子结点,计算不...

【专利技术属性】
技术研发人员:陈贞翔严安丽赵川刘聪杨波
申请(专利权)人:济南大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1