一种基于标签传播的样本关联性检测方法及系统技术方案

技术编号:13766549 阅读:47 留言:0更新日期:2016-09-28 20:34
本发明专利技术提出一种基于标签传播的样本关联性检测方法及系统,包括:获取样本集,并计算样本集在各维度的特征及关联度,以样本及样本特征为节点,以具有关联度的样本及节点的连线围边构建关联网络图,获取待检测样本的特征,并将其嵌入关联网络图,计算待检测样本在新关联网络图中与各连线上样本的权值乘积,若大于预设值,则输出对应连线上的样本。通过本发明专利技术的方法,能够利用代码及样本属性进行更多信息的判断,关联关系更准确,启发性更强。能够有效的输出具有关联性的样本,用于进一步判断待检测样本是否为仿冒文件,对恶意代码的检测具有辅助作用。

【技术实现步骤摘要】

本专利技术涉及网络安全领域,特别涉及一种基于标签传播的样本关联性检测方法及系统
技术介绍
目前样本关联性的检测方面大多都需要通过深入的代码分析,具有一定难度,而且仅仅基于代码层面,启发性不高,因为某些仿冒应用可能并未直接从代码层面进行仿冒,而是利用了正版应用的资源文件,例如图标,程序名,包名等;又例如同一犯罪团伙编写了两种功能完全不同的恶意代码,但均使用了同一邮箱上传用户隐私信息,我们可以通过该邮箱发现两类应用的关联性,而通过代码分析其关联性则比较困难。
技术实现思路
本专利技术提出了一种基于标签传播的样本关联性检测方法及系统,通过对样本间关联性权值的计算,得到待检测样本与已知样本的关联性,从而为恶意代码判断提供辅助判断的信息。一种基于标签传播的样本关联性检测方法,包括:收集已知白样本文件及黑样本文件,组成样本集;对样本集在多个维度进行特征提取;分别计算样本集中两样本间的关联度,如果相似度大于预设值,则两样本间具有关联性,否则两样本间不具有关联性;分别判断样本集中各样本在各维度上特征是否相同;如果是,则认为样本在对应维度上的特征具有关联性,并给出各关联特征间的权值;否则样本在对应维度上不具有关联性;根据样本间及样本在对应维度上特征的关联性,以样本及特征为节点,以具有关联性的样本及特征的连线为边,构建关联网络图;获取待检测样本在各维度上的特征,并计算待检测样本与样本集中样本的关联度,将所述特征及样本嵌入构建的关联网络图,连线构成新关联网络图;计算待检测样本在新关联网络图中与各连线上样本的权值乘积,并判断所述权值乘积是否超过预设值,如果超过预设值,则向用户输出对应连线上的特征所对应的样本。所述的方法中,所述分别计算样本集中两样本间的关联度具体为:遍历获取各样本的代码中的类名及方法名,比较两样本间类名,如类名相同,则进一步计算两样本在对应类名中的所有方法名交集个数,依次累加各相同类名中方法名交集数量,除以两样本所有方法名并集数量,即为两样本间的关联度。所述方法中,所述各关联特征间的权值相同。所述的方法中,所述对样本集在多个维度进行特征提取,至少包括:样本来源维度、样本标识维度及样本名称维度;所述样本来源维度包括:ip、sp、email、url或域名的whois信息;所述样本标识维度包括:样本资源文件或图标的MD5值;所述样本名称维度包括:样本包名、程序名、文件签名或证书。一种基于标签传播的样本关联性检测系统,包括:样本收集模块,用于收集已知白样本文件及黑样本文件,组成样本集;特征提取模块,用于对样本集在多个维度进行特征提取;样本关联度计算模块,用于分别计算样本集中两样本间的关联度,如果相似度大于预设值,则两样本间具有关联性,否则两样本间不具有关联性;特征判断模块,用于分别判断样本集中各样本在各维度上特征是否相同;如果是,则认为样本在对应维度上的特征具有关联性,并给出各关联特征间的权值;否则样本在对应维度上不具有关联性;关联网络图构建模块,用于根据样本间及样本在对应维度上特征的关联性,以样本及特征为节点,以具有关联性的样本及特征的连线为边,构建关联网络图;待检测样本关联模块,用于获取待检测样本在各维度上的特征,并计算待检测样本与样本集中样本的关联度,将所述特征及样本嵌入构建的关联网络图,连线构成新关联网络图;结果输出模块,用于计算待检测样本在新关联网络图中与各连线上样本的权值乘积,并判断所述权值乘积是否超过预设值,如果超过预设值,则向用户输出对应连线上的特征所对应的样本。所述的系统中,所述分别计算样本集中两样本间的关联度具体为:遍历获取各样本的代码中的类名及方法名,比较两样本间类名,如类名相同,则进一步计算两样本在对应类名中的所有方法名交集个数,依次累加各相同类名中方法名交集数量,除以两样本所有方法名并集数量,即为两样本间的关联度。所述系统中,所述各关联特征间的权值相同。所述的系统中,所述对样本集在多个维度进行特征提取,至少包括:样本来源维度、样本标识维度及样本名称维度;所述样本来源维度包括:ip、sp、email、url或域名的whois信息;所述样本标识维度包括:样本资源文件或图标的MD5值;所述样本名称维度包括:样本包名、程序名、文件签名或证书。本专利技术的优势在于,通过样本及特征等多信息的关联,给出待检测样本与已知各样本间的关联性,提供给用户,用于进一步判断待检测样本是否为恶意或仿冒样本,同时,如果在关联过程中发现大量恶意样本具有相同的特征,则可以考虑将该特征加入反病毒引擎的规则库。本专利技术提出一种基于标签传播的样本关联性检测方法及系统,包括:获取样本集,并计算样本集在各维度的特征及关联度,以样本及样本特征为节点,以具有关联度的的样本及节点的连线围边构建关联网络图,获取待检测样本的特征,并将其嵌入关联网络图,计算待检测样本在新关联网络图中与各连线上样本的权值乘积,若大于预设值,则输出对应连线上的样本。通过本专利技术的方法,能够利用代码及样本属性进行更多信息的判断,关联关系更准确,启发性更强。能够有效的输出具有关联性的样本,用于进一步判断待检测样本是否为仿冒文件,对恶意代码的检测具有辅助作用。附图说明为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一种基于标签传播的样本关联性检测方法流程图;图2为依据本专利技术方法构建关联网络图示意图;图3为依据本专利技术方法构建新关联网络图示意图;图4为本专利技术一种基于标签传播的样本关联性检测系统结构示意图。具体实施方式为了使本
的人员更好地理解本专利技术实施例中的技术方案,并使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图对本专利技术中技术方案作进一步详细的说明。本专利技术提出了一种基于标签传播的样本关联性检测方法及系统,通过对样本间关联性权值的计算,得到待检测样本与已知样本的关联性,从而为恶意代码判断提供辅助判断的信息。一种基于标签传播的样本关联性检测方法,如图1所示,包括:S101收集已知白样本文件及黑样本文件,组成样本集;S102对样本集在多个维度进行特征提取;S103分别计算样本集中两样本间的关联度,如果相似度大于预设值,则两样本间具有关联性,否则两样本间不具有关联性;相似度根据关联需求,可设置为0.5等;S104分别判断样本集中各样本在各维度上特征是否相同;如果是,则认为样本在对应维度上的特征具有关联性,并给出各关联特征间的权值;否则样本在对应维度上不具有关联性;如ip相同,或email相同,或url相同,或具有相同资源文件,或图标相同等。S105根据样本间及样本在对应维度上特征的关联性,以样本及特征为节点,以具有关联性的样本及特征的连线为边,构建关联网络图;举例来说,如图2所示,如经计算后,样本1与样本4的关联度为0.7,样本2与样本3的关联度为0.85,样本1具有特征图标1及ip1,样本2具有特征sp1及图标1,样本3具有特征包名1及图标1,样本4具有图标图标1,则构建关联网络图,各关联特征间的权值为0.5;S106获取待检测样本在各维度上的特本文档来自技高网
...

【技术保护点】
一种基于标签传播的样本关联性检测方法,其特征在于,包括:收集已知白样本文件及黑样本文件,组成样本集;对样本集在多个维度进行特征提取;分别计算样本集中两样本间的关联度,如果相似度大于预设值,则两样本间具有关联性,否则两样本间不具有关联性;分别判断样本集中各样本在各维度上特征是否相同;如果是,则认为样本在对应维度上的特征具有关联性,并给出各关联特征间的权值;否则样本在对应维度上不具有关联性;根据样本间及样本在对应维度上特征的关联性,以样本及特征为节点,以具有关联性的样本及特征的连线为边,构建关联网络图;获取待检测样本在各维度上的特征,并计算待检测样本与样本集中样本的关联度,将所述特征及样本嵌入构建的关联网络图,连线构成新关联网络图;计算待检测样本在新关联网络图中与各连线上样本的权值乘积,并判断所述权值乘积是否超过预设值,如果超过预设值,则向用户输出对应连线上的特征所对应的样本。

【技术特征摘要】
1.一种基于标签传播的样本关联性检测方法,其特征在于,包括:收集已知白样本文件及黑样本文件,组成样本集;对样本集在多个维度进行特征提取;分别计算样本集中两样本间的关联度,如果相似度大于预设值,则两样本间具有关联性,否则两样本间不具有关联性;分别判断样本集中各样本在各维度上特征是否相同;如果是,则认为样本在对应维度上的特征具有关联性,并给出各关联特征间的权值;否则样本在对应维度上不具有关联性;根据样本间及样本在对应维度上特征的关联性,以样本及特征为节点,以具有关联性的样本及特征的连线为边,构建关联网络图;获取待检测样本在各维度上的特征,并计算待检测样本与样本集中样本的关联度,将所述特征及样本嵌入构建的关联网络图,连线构成新关联网络图;计算待检测样本在新关联网络图中与各连线上样本的权值乘积,并判断所述权值乘积是否超过预设值,如果超过预设值,则向用户输出对应连线上的特征所对应的样本。2.如权利要求1所述的方法,其特征在于,所述分别计算样本集中两样本间的关联度具体为:遍历获取各样本的代码中的类名及方法名,比较两样本间类名,如类名相同,则进一步计算两样本在对应类名中的所有方法名交集个数,依次累加各相同类名中方法名交集数量,除以两样本所有方法名并集数量,即为两样本间的关联度。3.如权利要求1或2所述的方法,其特征在于,所述各关联特征间的权值相同。4.如权利要求3所述的方法,其特征在于,所述对样本集在多个维度进行特征提取,至少包括:样本来源维度、样本标识维度及样本名称维度;所述样本来源维度包括:ip、sp、email、url或域名的whois信息;所述样本标识维度包括:样本资源文件或图标的MD5值;所述样本名称维度包括:样本包名、程序名、文件签名或证书。5.一种基于标签传播的样本关联性检测系统,其特征在于,包括:样本收集模块...

【专利技术属性】
技术研发人员:张路潘宣辰
申请(专利权)人:武汉安天信息技术有限责任公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1