基于深度学习的恶意应用溯源方法及相关装置制造方法及图纸

技术编号:22783970 阅读:24 留言:0更新日期:2019-12-11 04:18
本发明专利技术公开了一种基于深度学习的恶意应用溯源方法、装置、计算机设备及存储介质,涉及网络安全领域。该方法包括:针对特定业务使用场景,获取多个已知恶意样本中每个样本的至少一个指标信息;利用相似度算法构建每个已知恶意样本所有指标信息的拓扑图;利用node2vec算法对每个拓扑图进行训练,得到所有已知恶意样本每个指标信息的拓扑图embedding特征向量,作为训练集;利用SVR算法对训练集进行训练,得到溯源恶意样本函数关系模型;利用该模型对待溯源恶意样本进行溯源。本方法采用针对特定业务使用场景的至少一个指标信息作为特征,利用node2vec算法和SVR算法进行溯源,相比与现有所有场景单一维度人工溯源,溯源结果更真实,计算量更小,溯源效率和准确度大大提高。

Tracing method and related devices of malicious application based on deep learning

The invention discloses a malicious application traceability method, device, computer device and storage medium based on deep learning, which relates to the field of network security. This method includes: obtaining at least one index information of each sample in multiple known malicious samples for a specific business use scenario; constructing a topological map of all index information of each known malicious sample by using similarity algorithm; training each topological map by using node2vec algorithm to obtain the embedding feature vector of each index information of all known malicious samples, As the training set, the SVR algorithm is used to train the training set to get the function relation model of the trace malicious samples, and the model is used to trace the source of the trace malicious samples. This method uses at least one indicator information for a specific business use scenario as the feature, and uses node2vec algorithm and SVR algorithm for traceability. Compared with the existing single dimension manual traceability of all scenarios, the traceability results are more real, the calculation amount is smaller, and the traceability efficiency and accuracy are greatly improved.

【技术实现步骤摘要】
基于深度学习的恶意应用溯源方法及相关装置
本专利技术涉及计算机网络安全领域,尤其涉及恶意应用的溯源方法、装置、计算机设备及计算机存储介质。
技术介绍
近年来,随着网络的不断普及,移动互联网攻击者采用的攻击技术及攻击手段也有了新的发展趋势,攻击面呈立体化和多样化的特点,攻击者追求经济利益的目的越来越强,这种趋利性引发了大量的移动网络犯罪活动,且犯罪分子呈现集团化发展趋势。然而,由于恶意样本是零散、碎片化的,因此针对日益产业化、集团化的网络犯罪现象,有必要掌握恶意样本的发展趋势以及恶意样本直接的制作链条,对恶意样本进行溯源以便快速分析恶意应用。传统的恶意样本溯源方法采用单一维度,通过人工制定的规则人工进行样本相似性比较来实现溯源,例如在图标维度,对图标进行相似度关联,这种方法会漏掉攻击者采用不同的图标相同的代码的攻击情况,同时由于采用人工提取的特征直接确定溯源结果,导致得到的溯源结果不真实。
技术实现思路
本专利技术实施例提供了一种基于深度学习的恶意应用溯源方法、相关装置、计算机设备及计算机存储介质,用以解决现有方法中所存在的溯源结果不真实的技术问题。。第一方面,本专利技术实施方式提供了一种基于深度学习的恶意应用溯源方法。具体地,所述方法包括:针对特定业务使用场景,获取待溯源恶意样本和多个已知恶意样本中每个样本的至少一个指标信息;计算每个已知恶意样本与其它已知恶意样本的所有对应指标信息的相似度,进而构建每个已知恶意样本的所有指标信息的拓扑图,另外计算待溯源恶意样本与所有已知恶意样本的所有对应指标信息的相似度,进而构建待溯源恶意样本的所有指标信息的拓扑图;利用node2vec算法分别对所有已知恶意样本的每个指标信息的拓扑图以及待溯源恶意样本的每个指标信息拓扑图进行训练,得到所有已知恶意样本的每个指标信息的拓扑图embedding特征向量和待溯源恶意样本的每个指标信息的拓扑图embedding特征向量,以分别作为训练集和测试集;利用SVR算法对所述训练集进行训练,得到溯源恶意样本函数关系模型;使用所述溯源恶意样本函数关系模型对所述预测集进行预测,得到待溯源恶意样本与所述所有已知恶意样本之间的相似度;根据所有样本之间的相似度结果以及所有所述已知恶意样本的捕获时间,确定所述待溯源恶意样本的溯源结果。本专利技术实施例基于深度学习的恶意应用溯源方法,根据恶意应用针对特定业务使用场景提取的至少一个特征进行溯源,相对于任何业务场景使用单一指标特征溯源而言,溯源结果的真实性更高;另外,本方法采用node2vec算法对每个指标信息的拓扑图进行训练得到每个指标信息的拓扑图embedding特征向量以进行后续溯源,其中node2vec算法为训练网络节点潜在特征向量表示的方法,其通过结合宽度优先搜索(BFS)和深度优先搜索(DFS),借鉴语言模型,基于半监督深度学习方法进行训练,以提取每个指标信息的拓扑图的embedding特征向量,一方面能最大限度地发掘拓扑图的属性特征,另一方面对网络拓扑图进行降维处理,减小了后续溯源的计算量;再者,本方法采用SVR算法对由所有已知恶意样本的每个指标信息的拓扑图embedding特征向量构成的训练集进行训练,得到后续利用来预测的溯源恶意样本函数关系模型,SVR算法为基于SVM(支持向量机)的回归算法,其能综合考量大量数据彼此之间的影响,快速准确地获得恶意样本之间的相似程度,使得预测结果更精确。另外,相比与现有通过人工制定的规则人工一步一步进行样本相似性比较来实现溯源,本专利技术利用了深度学习提高了溯源效率和准确度。本专利技术的这些方面或其他方面在以下实施例的描述中会更加简明易懂。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单的介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术方法实施例一的基于深度学习的恶意应用溯源方法的流程图;图2为本专利技术方法实施例二的基于深度学习的恶意应用溯源方法的流程图;图2a、图2b、图2c分别指示图2所示恶意应用溯源方法中待溯源恶意样本的资源文件的md5值、类名方法名、常量字符串数组;图2d~2g分别为图2所示恶意应用溯源方法中,资源文件拓扑图、代码结构拓扑图、图标相似拓扑图、敏感常量拓扑图的节点embedding特征向量的示意图;图3为本专利技术装置实施例的基于深度学习的恶意应用溯源装置的示意图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。在本专利技术的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的标号如102、104等,仅仅是用于区分开各个不同的操作,标号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。下面将结合附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有付出创造性劳动的前提下所获得的所有其他实施方式,都属于本专利技术保护的范围。【方法实施例1】图1是根据本专利技术方法实施例1的基于深度学习的恶意应用溯源方法的流程图。参见图1,在本实施例中,所述方法包括:步骤S101,针对特定业务使用场景,提取待溯源恶意样本和多个已知恶意样本中每个样本的至少一个指标信息;对于不同的业务使用场景,选取每个恶意样本的多个信息作为指标信息进行跟踪溯源,例如,对于移动钓鱼场景,恶意样本的指标信息为资源文件信息、类名方法名信息、图标信息和常量字符串信息,对于其他业务场景,可以采用函数调用关系信息、文件名、文件生成时间信息等信息。本方法不限于对指标信息的筛选。多种维度的待溯源恶意样本信息,提高了溯源结果的准确可靠性。其中,资源文件和类名方法名的获取可以采用对apk文件的反编译解析获取,图标信息通过DHASH的图标算法得到,常量字符串信息通过动态养殖和静态扫描得到。需要说明的是,上述“多个已知恶意样本”可以是恶意样本规则库中的样本。步骤S102,计算每个已知恶意样本与其它已知恶意样本的所有对应指标信息的相似度,进而构建每个已知恶意样本的所有指标信息的拓扑图,另外计算待溯源恶意样本与所有已知恶意样本的所有对应指标信息的相似度,进而构建待溯源恶意样本的所有指标信息的拓扑图;计算相似度的方法可包括欧式距离、曼哈顿距离、字符串编辑聚类算法、simhas本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的恶意应用溯源方法,包括:/n针对特定业务使用场景,获取待溯源恶意样本和多个已知恶意样本中每个样本的至少一个指标信息;/n计算每个已知恶意样本与其它已知恶意样本的所有对应指标信息的相似度,进而构建每个已知恶意样本的所有指标信息的拓扑图,另外计算待溯源恶意样本与所有已知恶意样本的所有对应指标信息的相似度,进而构建待溯源恶意样本的所有指标信息的拓扑图;/n利用node2vec算法分别对所有已知恶意样本的每个指标信息的拓扑图以及待溯源恶意样本的每个指标信息拓扑图进行训练,得到所有已知恶意样本的每个指标信息的拓扑图embedding特征向量和待溯源恶意样本的每个指标信息的拓扑图embedding特征向量,以分别作为训练集和测试集;/n利用SVR算法对所述训练集进行训练,得到溯源恶意样本函数关系模型;/n使用所述溯源恶意样本函数关系模型对所述预测集进行预测,得到待溯源恶意样本与所述所有已知恶意样本之间的相似度;/n根据所有样本之间的相似度结果以及所有所述已知恶意样本的捕获时间,确定所述待溯源恶意样本的溯源结果。/n

【技术特征摘要】
1.一种基于深度学习的恶意应用溯源方法,包括:
针对特定业务使用场景,获取待溯源恶意样本和多个已知恶意样本中每个样本的至少一个指标信息;
计算每个已知恶意样本与其它已知恶意样本的所有对应指标信息的相似度,进而构建每个已知恶意样本的所有指标信息的拓扑图,另外计算待溯源恶意样本与所有已知恶意样本的所有对应指标信息的相似度,进而构建待溯源恶意样本的所有指标信息的拓扑图;
利用node2vec算法分别对所有已知恶意样本的每个指标信息的拓扑图以及待溯源恶意样本的每个指标信息拓扑图进行训练,得到所有已知恶意样本的每个指标信息的拓扑图embedding特征向量和待溯源恶意样本的每个指标信息的拓扑图embedding特征向量,以分别作为训练集和测试集;
利用SVR算法对所述训练集进行训练,得到溯源恶意样本函数关系模型;
使用所述溯源恶意样本函数关系模型对所述预测集进行预测,得到待溯源恶意样本与所述所有已知恶意样本之间的相似度;
根据所有样本之间的相似度结果以及所有所述已知恶意样本的捕获时间,确定所述待溯源恶意样本的溯源结果。


2.如权利要求1所述的基于深度学习的恶意应用溯源方法,其特征在于,所述特定业务使用场景为移动钓鱼场景,所述至少一个指标信息包括资源文件信息、类名方法名信息、图标信息和常量字符串信息。


3.如权利要求1或2所述的基于深度学习的恶意应用溯源方法,其特征在于,所述根据所有样本之间的相似度结果以及所有所述已知恶意样本的捕获时间,确定所述待溯源恶意样本的溯源结果,包括:
当待溯源恶意样本为稀有样本时,根据样本之间的相似度结果选择相似度值由大到小排序靠前的预设个数的已知恶意样本作为溯源样本集合;
当待溯源恶意样本为非稀有样本时,根据样本之间的相似度结果选择满足相似度阈值的已知恶意样本作为溯源样本集合;
确定所述溯源样本集合中捕获时间最早的已知恶意样本为待溯源恶意样本的溯源结果。


4.一种基于深度学习的恶意应用溯源装置,包括:
指标信息获取模块,用于针对特定业务使用场景,获取待溯源恶意样本和多个已知恶意样本中每个样本的至少一个指标信息;
指标信息相似度计算及拓扑图构建模块,用于计算每个已知恶意样本与其它已知恶意样本的所有对应指标信息的相似度,进而构建每个...

【专利技术属性】
技术研发人员:孙岩潘宣辰
申请(专利权)人:武汉安天信息技术有限责任公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1