The invention discloses a malicious application traceability method, device, computer device and storage medium based on deep learning, which relates to the field of network security. This method includes: obtaining at least one index information of each sample in multiple known malicious samples for a specific business use scenario; constructing a topological map of all index information of each known malicious sample by using similarity algorithm; training each topological map by using node2vec algorithm to obtain the embedding feature vector of each index information of all known malicious samples, As the training set, the SVR algorithm is used to train the training set to get the function relation model of the trace malicious samples, and the model is used to trace the source of the trace malicious samples. This method uses at least one indicator information for a specific business use scenario as the feature, and uses node2vec algorithm and SVR algorithm for traceability. Compared with the existing single dimension manual traceability of all scenarios, the traceability results are more real, the calculation amount is smaller, and the traceability efficiency and accuracy are greatly improved.
【技术实现步骤摘要】
基于深度学习的恶意应用溯源方法及相关装置
本专利技术涉及计算机网络安全领域,尤其涉及恶意应用的溯源方法、装置、计算机设备及计算机存储介质。
技术介绍
近年来,随着网络的不断普及,移动互联网攻击者采用的攻击技术及攻击手段也有了新的发展趋势,攻击面呈立体化和多样化的特点,攻击者追求经济利益的目的越来越强,这种趋利性引发了大量的移动网络犯罪活动,且犯罪分子呈现集团化发展趋势。然而,由于恶意样本是零散、碎片化的,因此针对日益产业化、集团化的网络犯罪现象,有必要掌握恶意样本的发展趋势以及恶意样本直接的制作链条,对恶意样本进行溯源以便快速分析恶意应用。传统的恶意样本溯源方法采用单一维度,通过人工制定的规则人工进行样本相似性比较来实现溯源,例如在图标维度,对图标进行相似度关联,这种方法会漏掉攻击者采用不同的图标相同的代码的攻击情况,同时由于采用人工提取的特征直接确定溯源结果,导致得到的溯源结果不真实。
技术实现思路
本专利技术实施例提供了一种基于深度学习的恶意应用溯源方法、相关装置、计算机设备及计算机存储介质,用以解决现有方法中所存在的溯源结果不真实的技术问题。。第一方面,本专利技术实施方式提供了一种基于深度学习的恶意应用溯源方法。具体地,所述方法包括:针对特定业务使用场景,获取待溯源恶意样本和多个已知恶意样本中每个样本的至少一个指标信息;计算每个已知恶意样本与其它已知恶意样本的所有对应指标信息的相似度,进而构建每个已知恶意样本的所有指标信息的拓扑图,另外计算待溯源恶意样 ...
【技术保护点】
1.一种基于深度学习的恶意应用溯源方法,包括:/n针对特定业务使用场景,获取待溯源恶意样本和多个已知恶意样本中每个样本的至少一个指标信息;/n计算每个已知恶意样本与其它已知恶意样本的所有对应指标信息的相似度,进而构建每个已知恶意样本的所有指标信息的拓扑图,另外计算待溯源恶意样本与所有已知恶意样本的所有对应指标信息的相似度,进而构建待溯源恶意样本的所有指标信息的拓扑图;/n利用node2vec算法分别对所有已知恶意样本的每个指标信息的拓扑图以及待溯源恶意样本的每个指标信息拓扑图进行训练,得到所有已知恶意样本的每个指标信息的拓扑图embedding特征向量和待溯源恶意样本的每个指标信息的拓扑图embedding特征向量,以分别作为训练集和测试集;/n利用SVR算法对所述训练集进行训练,得到溯源恶意样本函数关系模型;/n使用所述溯源恶意样本函数关系模型对所述预测集进行预测,得到待溯源恶意样本与所述所有已知恶意样本之间的相似度;/n根据所有样本之间的相似度结果以及所有所述已知恶意样本的捕获时间,确定所述待溯源恶意样本的溯源结果。/n
【技术特征摘要】
1.一种基于深度学习的恶意应用溯源方法,包括:
针对特定业务使用场景,获取待溯源恶意样本和多个已知恶意样本中每个样本的至少一个指标信息;
计算每个已知恶意样本与其它已知恶意样本的所有对应指标信息的相似度,进而构建每个已知恶意样本的所有指标信息的拓扑图,另外计算待溯源恶意样本与所有已知恶意样本的所有对应指标信息的相似度,进而构建待溯源恶意样本的所有指标信息的拓扑图;
利用node2vec算法分别对所有已知恶意样本的每个指标信息的拓扑图以及待溯源恶意样本的每个指标信息拓扑图进行训练,得到所有已知恶意样本的每个指标信息的拓扑图embedding特征向量和待溯源恶意样本的每个指标信息的拓扑图embedding特征向量,以分别作为训练集和测试集;
利用SVR算法对所述训练集进行训练,得到溯源恶意样本函数关系模型;
使用所述溯源恶意样本函数关系模型对所述预测集进行预测,得到待溯源恶意样本与所述所有已知恶意样本之间的相似度;
根据所有样本之间的相似度结果以及所有所述已知恶意样本的捕获时间,确定所述待溯源恶意样本的溯源结果。
2.如权利要求1所述的基于深度学习的恶意应用溯源方法,其特征在于,所述特定业务使用场景为移动钓鱼场景,所述至少一个指标信息包括资源文件信息、类名方法名信息、图标信息和常量字符串信息。
3.如权利要求1或2所述的基于深度学习的恶意应用溯源方法,其特征在于,所述根据所有样本之间的相似度结果以及所有所述已知恶意样本的捕获时间,确定所述待溯源恶意样本的溯源结果,包括:
当待溯源恶意样本为稀有样本时,根据样本之间的相似度结果选择相似度值由大到小排序靠前的预设个数的已知恶意样本作为溯源样本集合;
当待溯源恶意样本为非稀有样本时,根据样本之间的相似度结果选择满足相似度阈值的已知恶意样本作为溯源样本集合;
确定所述溯源样本集合中捕获时间最早的已知恶意样本为待溯源恶意样本的溯源结果。
4.一种基于深度学习的恶意应用溯源装置,包括:
指标信息获取模块,用于针对特定业务使用场景,获取待溯源恶意样本和多个已知恶意样本中每个样本的至少一个指标信息;
指标信息相似度计算及拓扑图构建模块,用于计算每个已知恶意样本与其它已知恶意样本的所有对应指标信息的相似度,进而构建每个...
【专利技术属性】
技术研发人员:孙岩,潘宣辰,
申请(专利权)人:武汉安天信息技术有限责任公司,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。