样本特征提取方法及装置制造方法及图纸

技术编号:38814220 阅读:12 留言:0更新日期:2023-09-15 19:53
本发明专利技术实施例提供一种样本特征提取方法及装置,涉及网络安全技术领域,其中方法包括:获取样本动态行为;样本动态行为包括至少一个行为信息和各行为信息对应的对象;基于各行为信息和各行为信息对应的对象构建图数据;图数据包括至少两个节点、节点之间连接的边、各节点的属性信息、以及各边的属性信息;节点用于表征对象,边用于表征与边连接的节点表征的对象对应的行为信息;基于图数据进行特征提取,得到目标样本对应的样本特征。本发明专利技术通过图数据中的节点、边、节点的属性信息及边的属性信息能够完整的表征样本动态行为,使得在基于图数据进行特征提取时能够参考的信息更多,从而提高了样本特征提取的准确性。提高了样本特征提取的准确性。提高了样本特征提取的准确性。

【技术实现步骤摘要】
样本特征提取方法及装置


[0001]本专利技术涉及网络安全
,尤其涉及一种样本特征提取方法及装置。

技术介绍

[0002]自进入互联网时代以来,各种网络非法行为频发,恶意样本作为网络非法行为最常用的载体,其分析和处理方法受到了越来越多的关注。如何对浩如烟海的恶意样本进行归纳,使研究人员能从中快速定位到有较高分析价值的样本成为一个亟待解决的问题。而解决这个问题的关键是对恶意样本进行有效的特征提取。
[0003]相关技术中,通常是将恶意样本在沙箱中运行,记录下恶意样本运行过程中的各种行为(如网络传输行为、文件访问行为等),接着将这些行为按时间顺序规范为一个序列,再将序列中的每条行为编码成固定长度的向量,使恶意样本表征为一个二维数组,基于二维数组对恶意样本进行特征提取。
[0004]但恶意样本是一种非欧几里得数据,上述相关技术中强行将沙箱输出的这些行为按时间顺序规范为一个序列,即欧几里得数据,导致原本行为关系中的空间信息损失,即调用对象之间的一对多或多对一的关系不存在,从而降低了样本特征提取的准确性。

技术实现思路

[0005]针对现有技术中的问题,本专利技术实施例提供一种样本特征提取方法及装置。
[0006]具体地,本专利技术实施例提供了以下技术方案:
[0007]第一方面,本专利技术实施例提供了一种样本特征提取方法,包括:
[0008]获取样本动态行为;所述样本动态行为包括至少一个行为信息和各所述行为信息对应的对象;所述样本动态行为是通过在沙箱中运行目标样本得到的;
[0009]基于各所述行为信息和各所述行为信息对应的对象构建图数据;所述图数据包括至少两个节点、节点之间连接的边、各所述节点的属性信息、以及各所述边的属性信息;所述节点用于表征所述对象,所述边用于表征与所述边连接的节点表征的对象对应的行为信息;
[0010]基于所述图数据中的至少两个所述节点、节点之间连接的边、各所述节点的属性信息、以及各所述边的属性信息进行特征提取,得到所述目标样本对应的样本特征。
[0011]进一步地,所述节点的属性信息包括以下至少一项:节点类型、节点名称和节点标注信息;所述边的属性信息包括所述行为信息的类型。
[0012]进一步地,所述基于所述图数据中的至少两个所述节点、节点之间连接的边、各所述节点的属性信息、以及各所述边的属性信息进行特征提取,得到所述目标样本对应的样本特征,包括:
[0013]针对所述图数据中的各所述节点的属性信息,将所述节点的属性信息进行向量化,得到所述节点的属性信息对应的第一向量;
[0014]针对所述图数据中的各所述边的属性信息,将所述边的属性信息进行向量化,得
到所述边的属性信息对应的第二向量;
[0015]基于所述图数据中的至少两个所述节点、节点之间连接的边、各所述第一向量和各所述第二向量进行特征提取,得到所述目标样本对应的样本特征。
[0016]进一步地,所述基于所述图数据中的至少两个所述节点、节点之间连接的边、各所述第一向量和各所述第二向量进行特征提取,得到所述目标样本对应的样本特征,包括:
[0017]将所述图数据中的至少两个所述节点、节点之间连接的边、各所述第一向量和各所述第二向量均输入至自编码模型中,得到所述目标样本对应的样本特征;所述自编码模型是基于多个图数据样本训练得到的。
[0018]进一步地,所述将所述节点的属性信息进行向量化,得到所述节点的属性信息对应的第一向量,包括:
[0019]在所述节点类型为进程节点类型的情况下,获取预设进程列表中的至少一个目标进程名称;所述预设进程列表中存储有使用次数大于预设次数的至少一个进程名称;
[0020]将各所述目标进程名称对应的节点的属性信息进行向量化,得到各所述目标进程名称对应的节点的属性信息的第一向量。
[0021]进一步地,所述将所述节点的属性信息进行向量化,得到所述节点的属性信息对应的第一向量,包括:
[0022]在所述节点类型为非进程节点类型的情况下,对所述非进程节点类型对应的节点的属性信息按层级划分,得到至少两个分层数据;所述非进程节点类型包括注册表节点类型、文件路径节点类型或网络节点类型;
[0023]对各所述分层数据进行向量化,得到所述非进程节点类型对应的节点的属性信息的第一向量。
[0024]进一步地,所述方法还包括:
[0025]统计进程数据库中各进程名称的名称长度和各相同进程名称的数量;所述进程数据库中存储有至少两个进程名称;
[0026]基于各所述进程名称的名称长度确定相同名称长度的进程名称;
[0027]针对各相同名称长度,基于所述相同名称长度对应的所有进程名称的数量,确定第一数量;
[0028]基于所述第一数量和所述相同名称长度的进程名称的种类数,确定第一数值;所述种类数为相同名称长度的不同进程名称的数量;
[0029]将大于或等于预设值的第一数值对应的进程名称确定为第一目标进程名称,并将小于所述预设值的第一数值对应的进程名称确定为第二目标进程名称;
[0030]将各所述第一目标进程名称中数量大于第一阈值的第一目标进程名称、以及各所述第二目标进程名称均确定为所述目标进程名称,并基于各所述目标进程名称构建所述预设进程列表。
[0031]进一步地,所述将各所述第一目标进程名称中数量大于第一阈值的第一目标进程名称、以及各所述第二目标进程名称均确定为所述目标进程名称,包括:
[0032]将各所述第二目标进程名称中数量大于第二阈值的第二目标进程名称、以及数量大于第一阈值的第一目标进程名称均确定为所述目标进程名称;所述第二阈值大于所述第一阈值。
[0033]进一步地,所述将各所述第二目标进程名称中数量大于第二阈值的第二目标进程名称、以及数量大于第一阈值的第一目标进程名称均确定为所述目标进程名称,包括:
[0034]基于随机字符串识别工具,在数量大于第一阈值的各第一目标进程名称和数量大于第二阈值的各第二目标进程名称中,过滤随机进程名称,将过滤后剩余的进程名称均确定为所述目标进程名称;所述随机进程名称为基于随机字符串生成的进程名称。
[0035]第二方面,本专利技术实施例还提供了一种样本特征提取装置,包括:
[0036]获取单元,用于获取样本动态行为;所述样本动态行为包括至少一个行为信息和各所述行为信息对应的对象;所述样本动态行为是通过在沙箱中运行目标样本得到的;
[0037]第一构建单元,用于基于各所述行为信息和各所述行为信息对应的对象构建图数据;所述图数据包括至少两个节点、节点之间连接的边、各所述节点的属性信息、以及各所述边的属性信息;所述节点用于表征所述对象,所述边用于表征与所述边连接的节点表征的对象对应的行为信息;
[0038]提取单元,用于基于所述图数据中的至少两个所述节点、节点之间连接的边、各所述节点的属性信息、以及各所述边的属性信息进行特征提取,得到所述目标样本对应的样本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种样本特征提取方法,其特征在于,包括:获取样本动态行为;所述样本动态行为包括至少一个行为信息和各所述行为信息对应的对象;所述样本动态行为是通过在沙箱中运行目标样本得到的;基于各所述行为信息和各所述行为信息对应的对象构建图数据;所述图数据包括至少两个节点、节点之间连接的边、各所述节点的属性信息、以及各所述边的属性信息;所述节点用于表征所述对象,所述边用于表征与所述边连接的节点表征的对象对应的行为信息;基于所述图数据中的至少两个所述节点、节点之间连接的边、各所述节点的属性信息、以及各所述边的属性信息进行特征提取,得到所述目标样本对应的样本特征。2.根据权利要求1所述的样本特征提取方法,其特征在于,所述节点的属性信息包括以下至少一项:节点类型、节点名称和节点标注信息;所述边的属性信息包括所述行为信息的类型。3.根据权利要求2所述的样本特征提取方法,其特征在于,所述基于所述图数据中的至少两个所述节点、节点之间连接的边、各所述节点的属性信息、以及各所述边的属性信息进行特征提取,得到所述目标样本对应的样本特征,包括:针对所述图数据中的各所述节点的属性信息,将所述节点的属性信息进行向量化,得到所述节点的属性信息对应的第一向量;针对所述图数据中的各所述边的属性信息,将所述边的属性信息进行向量化,得到所述边的属性信息对应的第二向量;基于所述图数据中的至少两个所述节点、节点之间连接的边、各所述第一向量和各所述第二向量进行特征提取,得到所述目标样本对应的样本特征。4.根据权利要求3所述的样本特征提取方法,其特征在于,所述基于所述图数据中的至少两个所述节点、节点之间连接的边、各所述第一向量和各所述第二向量进行特征提取,得到所述目标样本对应的样本特征,包括:将所述图数据中的至少两个所述节点、节点之间连接的边、各所述第一向量和各所述第二向量均输入至自编码模型中,得到所述目标样本对应的样本特征;所述自编码模型是基于多个图数据样本训练得到的。5.根据权利要求3或4所述的样本特征提取方法,其特征在于,所述将所述节点的属性信息进行向量化,得到所述节点的属性信息对应的第一向量,包括:在所述节点类型为进程节点类型的情况下,获取预设进程列表中的至少一个目标进程名称;所述预设进程列表中存储有使用次数大于预设次数的至少一个进程名称;将各所述目标进程名称对应的节点的属性信息进行向量化,得到各所述目标进程名称对应的节点的属性信息的第一向量。6.根据权利要求3或4所述的样本特征提取方法,其特征在于,所述将所述节点的属性信息进行向量化,得到所述节点的属性信息对应的第一向量,包括:在所述节点类型为非进程节点类型的情况下,对所述非进程节点类型对应的节点的属性信息按层级划分,得到至少两个分层数据;所述非进程节点类型包括注册表节点类型、文件路径节点类型或网络节点类型;对各所述分层数据进行向量化,得到所述非进程节点类型对应的节点的属性信息的第一向量。
7.根据权利要求5所述的样本特征提取方法,...

【专利技术属性】
技术研发人员:万鸣刘昱均王占一应凌云刘璐
申请(专利权)人:奇安信科技集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1