恶意应用归类方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:24354087 阅读:27 留言:0更新日期:2020-06-03 02:11
本公开提供了一种恶意应用归类方法、装置、设备及计算机可读存储介质,通过提取各恶意应用样本的特征,并计算各恶意应用样本中,各特征对应的权重值,进而根据各特征对应的权重值计算恶意应用样本中两两样本间的关联值,并根据所述关联值构建恶意应用样本的连接关系图,最后基于连接关系图,采用社区划分算法对各恶意应用样本进行归类。可见,本公开可自动化的实现恶意应用的归类,极大地节约人力成本;同时整个归类过程很简单,对于机械设备而言可以在很短的时间内归类完毕,具有高效性。此外,本公开实施例提供的恶意应用归类方法是根据各恶意应用样本的特征来确定各恶意应用之间的关联度的,进而实现归类的,因而也具有较高的准确性。

Malicious application classification methods, devices, devices and computer-readable storage media

【技术实现步骤摘要】
恶意应用归类方法、装置、设备及计算机可读存储介质
本公开涉及但不限于应用安全领域,具体而言,涉及但不限于一种恶意应用归类方法、装置、设备及计算机可读存储介质。
技术介绍
恶意应用家族分类(即恶意应用归类)是指根据恶意应用行为特征对其进行家族分类和命名,进而基于已有的样本家族信息可初步确定其恶意功能、攻击目的和攻击来源,在应用安全领域有着重要的作用。现存的许多基于有监督学习的恶意应用家族分类方法无法应对新的恶意应用样本,而对于部分传统的无监督式分类方法,其检测率有待提高。因此,开发一种准确、高效、自动化的恶意应用归类方法有重要的现实意义。
技术实现思路
本公开实施例提供一种恶意应用归类方法、装置、设备及计算机可读存储介质,主要解决的技术问题是:提供一种新的恶意应用归类方式。为解决上述技术问题,本公开实施例提供了一种恶意应用归类方法,包括:提取各恶意应用样本的特征;计算各恶意应用样本中,各特征对应的权重值;根据所述各特征对应的权重值计算所述恶意应用样本中两两样本间的关联值,并根据所述关联值构建所述恶意应用样本的连接关系图;基于所述连接关系图,采用社区划分算法对所述各恶意应用样本进行归类。本公开实施例还提供了一种恶意应用归类装置,包括:特征提取模块、特征权值计算模块、关系图构建模块和样本归类模块;所述特征提取模块用于提取各恶意应用样本的特征;所述特征权值计算模块用于计算各恶意应用样本中,各特征对应的权重值;所述关系图构建模块用于根据所述各特征对应的权重值计算所述恶意应用样本中两两样本间的关联值,并根据所述关联值构建所述恶意应用样本的连接关系图;所述样本归类模块用于基于所述连接关系图,采用社区划分算法对所述各恶意应用样本进行归类。本公开实施例还提供了一种恶意应用归类设备,包括:处理器、存储器以及通信总线;所述通信总线用于实现所述处理器和存储器之间的连接通信;所述处理器用于执行所述存储器中存储的一个或者多个程序,以实现上述恶意应用归类方法的步骤。本公开实施例还提供一种计算机可读存储介质,所述计算机可读计算机可读存储介质存储有一个或者多个计算机程序,所述一个或者多个计算机程序可被一个或者多个处理器执行,以实现上述恶意应用归类方法的步骤。本公开的有益效果是:本公开实施例提供的恶意应用归类方法、装置、设备及计算机可读存储介质,通过提取各恶意应用样本的特征,并计算各恶意应用样本中,各特征对应的权重值,进而根据各特征对应的权重值计算恶意应用样本中两两样本间的关联值,并根据所述关联值构建恶意应用样本的连接关系图,最后基于连接关系图,采用社区划分算法对各恶意应用样本进行归类。可见,本公开可自动化的实现恶意应用的归类,极大地节约人力成本;同时整个归类过程很简单,对于机械设备而言可以在很短的时间内归类完毕,具有高效性。此外,本公开实施例提供的恶意应用归类方法是根据各恶意应用样本的行为特征来确定各恶意应用之间的关联度的,进而实现归类的,因而也具有较高的准确性。本公开其他特征和相应的有益效果在说明书的后面部分进行阐述说明,且应当理解,至少部分有益效果从本公开说明书中的记载变的显而易见。附图说明图1为本公开实施例一提供的一种恶意应用归类方法的基本流程示意图;图2为本公开实施例一提供的一种连接关系图构建过程示意图;图3为本公开实施例二提供的一种安卓恶意应用归类方法的流程示意图;图4为本公开实施例二提供的一种E-N算法流程图;图5为本公开实施例三提供的一种恶意应用归类装置的结构示意图;图6为本公开实施例三提供的一种更具体的恶意应用归类装置的结构示意图;图7为本公开实施例四提供的一种恶意应用归类设备的结构示意图。具体实施方式现在将参考附图更详细地描述本公开构思的各个实施例。但是,本公开构思可被以很多不同的形式具体实施,并且不应被理解为仅限于所示出的实施例。相反,提供这些实施例以使本公开将会透彻和完整,并且将向本领域技术人员全面地传达本公开构思的范围。贯穿上面描述和附图,相同的参考数字和标记代表相同或者类似的元素。应当理解的是,尽管这里可能使用术语第一、第二等来描述各种元件或操作,但是这些元件或操作不应被这些术语限制。这些术语只被用来将一个元件或操作与另一个加以区分。例如,第一特征可以被称为第二特征,并且类似地,第二特征可以被称为第一特征而不偏离本公开的教导。这里使用的术语仅仅是为了描述特定实施例,并非旨在限制本公开构思。如这里所使用的,单数形式“一”、“一个”和“该”预期也包括复数形式,除非上下文清楚地另有指示。还应当理解的是,术语“包含”或“包括”在本说明书中被使用时,规定了存在所陈述的特征、区域、部分、步骤、操作、元件,和/或部件,但是不排除存在或者添加一个或更多个其他的特征、区域、部分、步骤、操作、元件、部件,和/或其组。除非另外定义,否则这里使用的所有术语(包括技术和科学术语)具有和本公开所属
的技术人员通常理解的相同的含义。还应当理解的是,例如在常用词典中定义的那些的术语应该被解释为具有与其在相关技术和/或本公开的上下文中的含义相符的含义,并且将不会以理想化或者过于形式化的意义解释,除非这里明确地如此定义。下面通过具体实施方式结合附图对本公开实施例作进一步详细说明。实施例一:参见图1所示,图1为本公开实施例一提供的恶意应用归类方法,包括:S101:提取各恶意应用样本的特征;需要说明的是,在实际应用过程中,在执行步骤A101之前,应当还存在采集恶意应用数据,构成恶意应用样本集的过程。即本公开实施例中进行归类的恶意应用即为恶意应用样本集中的恶意应用。该采集恶意应用数据,构成恶意应用样本集的过程,可以是由执行本实施例所提供的恶意应用归类方法的设备自动来执行的,但也可以是由工程师等相关人员来执行的(即也可以是由工程师收集得到恶意应用样本集并输入给执行本实施例所提供的恶意应用归类方法的设备的)。在本实施例中,特征可以是静态特征。在本实施例中,静态特征可以包括应用权限、API(ApplicationProgramInterface,应用程序接口)等等。例如,在本实施例的一种具体实施方式中,静态特征可以包括应用权限、API中的至少一种。需要说明的是,在设定提取的特征为静态特征时,可以在不运行应用程序的情况下,通过控制流分析、语法词法分析、数据流分析等方式对反汇编后的程序进行的源码级分析,无需运行代码,无需像动态分析那改写安卓系统源码、也不需要要求用户对系统进行重定制和安装定制版ROM,因此整个特征提取过程速度快且轻量级。还需要说明的是,对于一个恶意应用样本而言,其存在提取出的特征往往不止一种,而是一个包含多种特征的特征集合。因此,对于不同的恶意应用样本而言,其提取出的特征可能会存在相同的特征。S102:计算各恶意应用样本中,各特本文档来自技高网
...

【技术保护点】
1.一种恶意应用归类方法,包括:/n提取各恶意应用样本的特征;/n计算各恶意应用样本中,各特征对应的权重值;/n根据所述各特征对应的权重值计算所述恶意应用样本中两两样本间的关联值,并根据所述关联值构建所述恶意应用样本的连接关系图;/n基于所述连接关系图,采用社区划分算法对所述各恶意应用样本进行归类。/n

【技术特征摘要】
1.一种恶意应用归类方法,包括:
提取各恶意应用样本的特征;
计算各恶意应用样本中,各特征对应的权重值;
根据所述各特征对应的权重值计算所述恶意应用样本中两两样本间的关联值,并根据所述关联值构建所述恶意应用样本的连接关系图;
基于所述连接关系图,采用社区划分算法对所述各恶意应用样本进行归类。


2.如权利要求1所述的恶意应用归类方法,其特征在于,
在所述提取各恶意应用样本的特征之后,还包括:对所述各恶意应用样本的特征进行数据化处理,并根据进行数据化处理后的特征生成各恶意应用样本的基础特征向量;在所述计算各恶意应用样本中各特征对应的权重值之后,还包括:将所述各恶意应用样本的基础特征向量中,各特征的权重值调整为计算出的所述各恶意应用样本中各特征对应的权重值,得到所述各恶意应用样本的最终特征向量;
或,
在所述计算各恶意应用样本中各特征对应的权重值之后,还包括:将所述各恶意应用样本的特征数据化处理,并根据各恶意应用样本中各特征对应的权重值生成所述各恶意应用样本的最终特征向量。


3.如权利要求2所述的恶意应用归类方法,其特征在于,所述根据所述各特征对应的权重值计算所述恶意应用样本中两两样本间的关联值包括:
根据所述各最终特征向量中的各特征对应的权重值计算所述恶意应用样本中两两样本间的关联值。


4.如权利要求1所述的恶意应用归类方法,其特征在于,所述特征为静态特征。


5.如权利要求4所述的恶意应用归类方法,其特征在于,所述静态特征包括应用权限、应用程序接口中的至少一种。


6.如权利要求1所述的恶意应用归类方法,其特征在于,所述基于所述连接关系图,采用社区划分算法对所述各恶意应用样本进行归类包括:
采用Infomap算法将所述连接关系图划分为至少一个独立社区,每个独立社区中的恶意应用样本为同一类恶意应用。


7.如权利要求1-6任一项所述的恶意应用归类方法,其特征在于,所述计算各恶意应用样本中各特征对应的权重值包括:
计算各恶意应用样本中,各特征的词频-逆向文件频率tf-idf值,以所述tf-idf值作为所述各恶意应用样本中各特征对应的权重值。


8.如权利要求7所述的恶意应用归类方法,其特征在于,所述计算各恶意应用样本中,各特征的tf-idf值包括:
根据公式计算得到所述各恶意应用样本中各特征对应的权重值;
其中,所述tfab为特征a在样本b中出现的频率,n为所有恶意应用样本的总数,sa为含有特征a的恶意应用样本的总数。


9.如权利要求1-6任一项所述的恶意应用归类方法,其特征在于,所述根据所述各特征对应的权重值计算所述恶意应用样本中两两样本间的关联值,并根据所述关联值构建所述恶意应用样本的连接关系图包括以下步骤:
步骤一:获取两个恶意应用样本中的共有特征分别在这两个恶意应用样本中的权重值;所述共有特征为在所述两个恶意应用样本中均存在的特征;
步骤二:根据获取到的所述共有特征分别在这两个恶意应用样本中的权重值,计算所述两个恶意应用样本的关联值;
步骤三:在所述关联值大于预设阈值时,连接所述两个恶意应用样本;
步骤四:重复步骤一至三,直至遍历所有样本。


10.如权利要求9所述的恶意应用归类方法,其特征在于,所述根据获取到的所述共有特征分别在这两个恶意应用样本中的权重值,计算所述两个恶意应用样本的关联值包括:
根据公式Gij=∑a(tf-idfai+tf-idfaj)计算所述两个恶意应用样本的关联值;
其中,Gij为所述两个恶意应用样本的关联值,a为样本i和样本j的共有特征,tf-idfai和tf-idfaj分别为共有特征在所述两个恶意应用样本中的权重值,需要对所有共有特征的权重值进行累加。


11.如权利要求9所述的恶意应用归类方法,其特征在于,在所述两个恶意应用样本存在N(N大于等于2)个共有特征时,所述根据获取到的所述共有特征分别在这两个恶意应用样本中的权重值,计算所述两个恶意应用样本的关联值包括:
根据各共有特征分别在这两个恶意应用样本中的权重值,分别计算各共有特征对应的所述两个恶意应用样本的关联值,以得到所述两个恶意应用样本的N个关联值;
所述在所述关联值大于预设阈值时,连接所述两个恶意应用样本包括:
在所述N个关联值中的任意一个关联值大于所述预设阈值时,连接所述两个恶意应用样本。


12.如权利要求9所述的恶意应用归类方法,其特征在于,在计算出所述恶意应用样本中所有两两样本间的关联值并进行连接之后,若存在孤立样本,所述根据所述关联值构建所述恶意应用样本的连接关系图还包括:
获取距离所述孤立样本最近的k个恶意应用样本,将所述孤立样本分别与所述k个恶意应用样本连接;
所述孤立样本为未与任何其他恶意应用样本进行连接的恶意应用样本。


13.一种恶意应用归类装置,包括:特征提取模块、特征权值计算模块、关系图构建模块和样本归类模块;
所述特征提取模块用于提取各恶意应用样本的特征;
所述特征权值计算模块用于计算各恶意应用样本中,各特征对应的权重值;
所述关系图构建模块用于根据所述各特征对应的权重值计算所述恶意应用样本中两两样本间的关联值,并根据所述关联值构建所述恶意应用样本的连接关系图;

【专利技术属性】
技术研发人员:王继刚钟宏何剑
申请(专利权)人:中兴通讯股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1