恶意应用归类方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号：24354087 阅读：27 留言：0更新日期：2020-06-03 02:11

本公开提供了一种恶意应用归类方法、装置、设备及计算机可读存储介质，通过提取各恶意应用样本的特征，并计算各恶意应用样本中，各特征对应的权重值，进而根据各特征对应的权重值计算恶意应用样本中两两样本间的关联值，并根据所述关联值构建恶意应用样本的连接关系图，最后基于连接关系图，采用社区划分算法对各恶意应用样本进行归类。可见，本公开可自动化的实现恶意应用的归类，极大地节约人力成本；同时整个归类过程很简单，对于机械设备而言可以在很短的时间内归类完毕，具有高效性。此外，本公开实施例提供的恶意应用归类方法是根据各恶意应用样本的特征来确定各恶意应用之间的关联度的，进而实现归类的，因而也具有较高的准确性。

Malicious application classification methods, devices, devices and computer-readable storage media

全部详细技术资料下载

【技术实现步骤摘要】
恶意应用归类方法、装置、设备及计算机可读存储介质
本公开涉及但不限于应用安全领域，具体而言，涉及但不限于一种恶意应用归类方法、装置、设备及计算机可读存储介质。
技术介绍
恶意应用家族分类(即恶意应用归类)是指根据恶意应用行为特征对其进行家族分类和命名，进而基于已有的样本家族信息可初步确定其恶意功能、攻击目的和攻击来源，在应用安全领域有着重要的作用。现存的许多基于有监督学习的恶意应用家族分类方法无法应对新的恶意应用样本，而对于部分传统的无监督式分类方法，其检测率有待提高。因此，开发一种准确、高效、自动化的恶意应用归类方法有重要的现实意义。
技术实现思路
本公开实施例提供一种恶意应用归类方法、装置、设备及计算机可读存储介质，主要解决的技术问题是：提供一种新的恶意应用归类方式。为解决上述技术问题，本公开实施例提供了一种恶意应用归类方法，包括：提取各恶意应用样本的特征；计算各恶意应用样本中，各特征对应的权重值；根据所述各特征对应的权重值计算所述恶意应用样本中两两样本间的关联值，并根据所述关联值构建所述恶意应用样本的连接关系图；基于所述连接关系图，采用社区划分算法对所述各恶意应用样本进行归类。本公开实施例还提供了一种恶意应用归类装置，包括：特征提取模块、特征权值计算模块、关系图构建模块和样本归类模块；所述特征提取模块用于提取各恶意应用样本的特征；所述特征权值计算模块用于计算各恶意应用样本中，各特征对应的权重值；所述关系图构建模块用于根据...

【技术保护点】
1.一种恶意应用归类方法，包括：/n提取各恶意应用样本的特征；/n计算各恶意应用样本中，各特征对应的权重值；/n根据所述各特征对应的权重值计算所述恶意应用样本中两两样本间的关联值，并根据所述关联值构建所述恶意应用样本的连接关系图；/n基于所述连接关系图，采用社区划分算法对所述各恶意应用样本进行归类。/n

【技术特征摘要】
1.一种恶意应用归类方法，包括：
提取各恶意应用样本的特征；
计算各恶意应用样本中，各特征对应的权重值；
根据所述各特征对应的权重值计算所述恶意应用样本中两两样本间的关联值，并根据所述关联值构建所述恶意应用样本的连接关系图；
基于所述连接关系图，采用社区划分算法对所述各恶意应用样本进行归类。

2.如权利要求1所述的恶意应用归类方法，其特征在于，
在所述提取各恶意应用样本的特征之后，还包括：对所述各恶意应用样本的特征进行数据化处理，并根据进行数据化处理后的特征生成各恶意应用样本的基础特征向量；在所述计算各恶意应用样本中各特征对应的权重值之后，还包括：将所述各恶意应用样本的基础特征向量中，各特征的权重值调整为计算出的所述各恶意应用样本中各特征对应的权重值，得到所述各恶意应用样本的最终特征向量；
或，
在所述计算各恶意应用样本中各特征对应的权重值之后，还包括：将所述各恶意应用样本的特征数据化处理，并根据各恶意应用样本中各特征对应的权重值生成所述各恶意应用样本的最终特征向量。

3.如权利要求2所述的恶意应用归类方法，其特征在于，所述根据所述各特征对应的权重值计算所述恶意应用样本中两两样本间的关联值包括：
根据所述各最终特征向量中的各特征对应的权重值计算所述恶意应用样本中两两样本间的关联值。

4.如权利要求1所述的恶意应用归类方法，其特征在于，所述特征为静态特征。

5.如权利要求4所述的恶意应用归类方法，其特征在于，所述静态特征包括应用权限、应用程序接口中的至少一种。

6.如权利要求1所述的恶意应用归类方法，其特征在于，所述基于所述连接关系图，采用社区划分算法对所述各恶意应用样本进行归类包括：
采用Infomap算法将所述连接关系图划分为至少一个独立社区，每个独立社区中的恶意应用样本为同一类恶意应用。

7.如权利要求1-6任一项所述的恶意应用归类方法，其特征在于，所述计算各恶意应用样本中各特征对应的权重值包括：
计算各恶意应用样本中，各特征的词频-逆向文件频率tf-idf值，以所述tf-idf值作为所述各恶意应用样本中各特征对应的权重值。

8.如权利要求7所述的恶意应用归类方法，其特征在于，所述计算各恶意应用样本中，各特征的tf-idf值包括：
根据公式计算得到所述各恶意应用样本中各特征对应的权重值；
其中，所述tfab为特征a在样本b中出现的频率，n为所有恶意应用样本的总数，sa为含有特征a的恶意应用样本的总数。

9.如权利要求1-6任一项所述的恶意应用归类方法，其特征在于，所述根据所述各特征对应的权重值计算所述恶意应用样本中两两样本间的关联值，并根据所述关联值构建所述恶意应用样本的连接关系图包括以下步骤：
步骤一：获取两个恶意应用样本中的共有特征分别在这两个恶意应用样本中的权重值；所述共有特征为在所述两个恶意应用样本中均存在的特征；
步骤二：根据获取到的所述共有特征分别在这两个恶意应用样本中的权重值，计算所述两个恶意应用样本的关联值；
步骤三：在所述关联值大于预设阈值时，连接所述两个恶意应用样本；
步骤四：重复步骤一至三，直至遍历所有样本。

10.如权利要求9所述的恶意应用归类方法，其特征在于，所述根据获取到的所述共有特征分别在这两个恶意应用样本中的权重值，计算所述两个恶意应用样本的关联值包括：
根据公式Gij＝∑a(tf-idfai+tf-idfaj)计算所述两个恶意应用样本的关联值；
其中，Gij为所述两个恶意应用样本的关联值，a为样本i和样本j的共有特征，tf-idfai和tf-idfaj分别为共有特征在所述两个恶意应用样本中的权重值，需要对所有共有特征的权重值进行累加。

11.如权利要求9所述的恶意应用归类方法，其特征在于，在所述两个恶意应用样本存在N(N大于等于2)个共有特征时，所述根据获取到的所述共有特征分别在这两个恶意应用样本中的权重值，计算所述两个恶意应用样本的关联值包括：
根据各共有特征分别在这两个恶意应用样本中的权重值，分别计算各共有特征对应的所述两个恶意应用样本的关联值，以得到所述两个恶意应用样本的N个关联值；
所述在所述关联值大于预设阈值时，连接所述两个恶意应用样本包括：
在所述N个关联值中的任意一个关联值大于所述预设阈值时，连接所述两个恶意应用样本。

12.如权利要求9所述的恶意应用归类方法，其特征在于，在计算出所述恶意应用样本中所有两两样本间的关联值并进行连接之后，若存在孤立样本，所述根据所述关联值构建所述恶意应用样本的连接关系图还包括：
获取距离所述孤立样本最近的k个恶意应用样本，将所述孤立样本分别与所述k个恶意应用样本连接；
所述孤立样本为未与任何其他恶意应用样本进行连接的恶意应用样本。

13.一种恶意应用归类装置，包括：特征提取模块、特征权值计算模块、关系图构建模块和样本归类模块；
所述特征提取模块用于提取各恶意应用样本的特征；
所述特征权值计算模块用于计算各恶意应用样本中，各特征对应的权重值；
所述关系图构建模块用于根据所述各特征对应的权重值计算所述恶意应用样本中两两样本间的关联值，并根据所述关联值构建所述恶意应用样本的连接关系图；

【专利技术属性】
技术研发人员：王继刚，钟宏，何剑，
申请(专利权)人：中兴通讯股份有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人