【技术实现步骤摘要】
样本特征提取方法及装置
[0001]本专利技术涉及网络安全
,尤其涉及一种样本特征提取方法及装置。
技术介绍
[0002]自进入互联网时代以来,各种网络非法行为频发,恶意样本作为网络非法行为最常用的载体,其分析和处理方法受到了越来越多的关注。如何对浩如烟海的恶意样本进行归纳,使研究人员能从中快速定位到有较高分析价值的样本成为一个亟待解决的问题。而解决这个问题的关键是对恶意样本进行有效的特征提取。
[0003]相关技术中,通常是将恶意样本在沙箱中运行,记录下恶意样本运行过程中的各种行为(如网络传输行为、文件访问行为等),接着将这些行为按时间顺序规范为一个序列,再将序列中的每条行为编码成固定长度的向量,使恶意样本表征为一个二维数组,基于二维数组对恶意样本进行特征提取。
[0004]但恶意样本是一种非欧几里得数据,上述相关技术中强行将沙箱输出的这些行为按时间顺序规范为一个序列,即欧几里得数据,导致原本行为关系中的空间信息损失,即调用对象之间的一对多或多对一的关系不存在,从而降低了样本特征提取的准确性。
技术实现思路
[0005]针对现有技术中的问题,本专利技术实施例提供一种样本特征提取方法及装置。
[0006]具体地,本专利技术实施例提供了以下技术方案:
[0007]第一方面,本专利技术实施例提供了一种样本特征提取方法,包括:
[0008]获取样本动态行为;所述样本动态行为包括至少一个行为信息和各所述行为信息对应的对象;所述样本动态行为是通过在沙箱中运行目标样本 ...
【技术保护点】
【技术特征摘要】
1.一种样本特征提取方法,其特征在于,包括:获取样本动态行为;所述样本动态行为包括至少一个行为信息和各所述行为信息对应的对象;所述样本动态行为是通过在沙箱中运行目标样本得到的;基于各所述行为信息和各所述行为信息对应的对象构建图数据;所述图数据包括至少两个节点、节点之间连接的边、各所述节点的属性信息、以及各所述边的属性信息;所述节点用于表征所述对象,所述边用于表征与所述边连接的节点表征的对象对应的行为信息;基于所述图数据中的至少两个所述节点、节点之间连接的边、各所述节点的属性信息、以及各所述边的属性信息进行特征提取,得到所述目标样本对应的样本特征。2.根据权利要求1所述的样本特征提取方法,其特征在于,所述节点的属性信息包括以下至少一项:节点类型、节点名称和节点标注信息;所述边的属性信息包括所述行为信息的类型。3.根据权利要求2所述的样本特征提取方法,其特征在于,所述基于所述图数据中的至少两个所述节点、节点之间连接的边、各所述节点的属性信息、以及各所述边的属性信息进行特征提取,得到所述目标样本对应的样本特征,包括:针对所述图数据中的各所述节点的属性信息,将所述节点的属性信息进行向量化,得到所述节点的属性信息对应的第一向量;针对所述图数据中的各所述边的属性信息,将所述边的属性信息进行向量化,得到所述边的属性信息对应的第二向量;基于所述图数据中的至少两个所述节点、节点之间连接的边、各所述第一向量和各所述第二向量进行特征提取,得到所述目标样本对应的样本特征。4.根据权利要求3所述的样本特征提取方法,其特征在于,所述基于所述图数据中的至少两个所述节点、节点之间连接的边、各所述第一向量和各所述第二向量进行特征提取,得到所述目标样本对应的样本特征,包括:将所述图数据中的至少两个所述节点、节点之间连接的边、各所述第一向量和各所述第二向量均输入至自编码模型中,得到所述目标样本对应的样本特征;所述自编码模型是基于多个图数据样本训练得到的。5.根据权利要求3或4所述的样本特征提取方法,其特征在于,所述将所述节点的属性信息进行向量化,得到所述节点的属性信息对应的第一向量,包括:在所述节点类型为进程节点类型的情况下,获取预设进程列表中的至少一个目标进程名称;所述预设进程列表中存储有使用次数大于预设次数的至少一个进程名称;将各所述目标进程名称对应的节点的属性信息进行向量化,得到各所述目标进程名称对应的节点的属性信息的第一向量。6.根据权利要求3或4所述的样本特征提取方法,其特征在于,所述将所述节点的属性信息进行向量化,得到所述节点的属性信息对应的第一向量,包括:在所述节点类型为非进程节点类型的情况下,对所述非进程节点类型对应的节点的属性信息按层级划分,得到至少两个分层数据;所述非进程节点类型包括注册表节点类型、文件路径节点类型或网络节点类型;对各所述分层数据进行向量化,得到所述非进程节点类型对应的节点的属性信息的第一向量。
7.根据权利要求5所述的样本特征提取方法,...
【专利技术属性】
技术研发人员:万鸣,刘昱均,王占一,应凌云,刘璐,
申请(专利权)人:奇安信科技集团股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。