文件特征提取方法、设备、存储介质及装置制造方法及图纸

技术编号:27532897 阅读:17 留言:0更新日期:2021-03-03 11:13
本发明专利技术公开了一种文件特征提取方法、设备、存储介质及装置,该方法包括:对多个待处理文件分别进行信息提取,获得文件代码以及文件数据,根据文件代码以及文件数据生成待处理文件的文件缓冲区,根据文件缓冲区对待处理文件进行特征提取,获得目标特征库;相较于现有的人工提取样本文件的共同特征的方式,本发明专利技术中,通过根据文件代码以及文件数据生成待处理文件的文件缓冲区,并根据文件缓冲区对待处理文件进行特征提取,获得目标特征库,克服了现有技术中文件特征提取效率低、可靠性差的缺陷,从而能够优化文件特征提取过程,提高文件特征提取效率,保证文件特征提取可靠性。保证文件特征提取可靠性。保证文件特征提取可靠性。

【技术实现步骤摘要】
文件特征提取方法、设备、存储介质及装置


[0001]本专利技术涉及互联网
,尤其涉及一种文件特征提取方法、设备、存储介质及装置。

技术介绍

[0002]目前,用户在进行多样本文件分析时,通常是将样本文件下载到本地计算机,再人工对样本文件进行分类,最后人工提取分类后样本文件的共同特征。
[0003]但是,上述方式由于需要人工提取样本文件的共同特征,从而导致文件特征提取效率低、可靠性差。
[0004]上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。

技术实现思路

[0005]本专利技术的主要目的在于提供一种文件特征提取方法、设备、存储介质及装置,旨在解决如何优化文件特征提取过程的技术问题。
[0006]为实现上述目的,本专利技术提供一种文件特征提取方法,所述文件特征提取方法包括以下步骤:
[0007]对多个待处理文件分别进行信息提取,获得文件代码以及文件数据;
[0008]根据所述文件代码以及所述文件数据生成所述待处理文件的文件缓冲区;
[0009]根据所述文件缓冲区对所述待处理文件进行特征提取,获得目标特征库。
[0010]可选地,所述根据所述文件代码以及所述文件数据生成所述待处理文件的文件缓冲区的步骤,具体包括:
[0011]对所述文件数据进行标识提取,获得数据标识;
[0012]根据所述数据标识对所述文件数据进行筛选,获得头部数据、尾部数据以及校验区数据;
[0013]根据所述头部数据、所述文件代码、所述尾部数据以及所述校验区数据生成所述待处理文件的文件缓冲区。
[0014]可选地,所述根据所述头部数据、所述文件代码、所述尾部数据以及所述校验区数据生成所述待处理文件的文件缓冲区的步骤,具体包括:
[0015]对所述文件代码进行特征提取,获得代码特征;
[0016]根据所述代码特征对所述文件代码进行代码提取,获得文件入口代码以及用户入口代码;
[0017]根据预设尾部数据提取策略对所述尾部数据进行数据提取,获得文件尾部数据以及文件附加数据;
[0018]根据所述头部数据、所述文件入口代码、所述用户入口代码、所述文件尾部数据、文件附加数据以及校验区数据生成所述待处理文件的文件缓冲区。
[0019]可选地,所述根据所述代码特征对所述文件代码进行代码提取,获得文件入口代码以及用户入口代码的步骤,具体包括:
[0020]根据所述代码特征对所述文件代码进行分类,获得公共代码类别以及用户代码类别;
[0021]根据所述公共代码类别以及所述用户代码类别对所述文件代码进行代码提取,获得文件入口代码以及用户入口代码。
[0022]可选地,所述根据所述公共代码类别以及所述用户代码类别对所述文件代码进行代码提取,获得文件入口代码以及用户入口代码的步骤,具体包括:
[0023]在预设映射关系表中查找所述公共代码类别对应的公共代码类别权重值;
[0024]根据所述公共代码类别权重值确定公共代码提取方向以及公共代码提取字节;
[0025]根据所述公共代码提取方向以及所述公共代码提取字节对所述文件代码进行代码提取,获得文件入口代码;
[0026]在所述预设映射关系表中查找所述用户代码类别对应的用户代码类别权重值;
[0027]根据所述用户代码类别权重值确定用户代码提取方向以及用户代码提取字节;
[0028]根据所述用户代码提取方向以及所述用户代码提取字节对所述文件代码进行代码提取,获得用户入口代码。
[0029]可选地,所述根据预设尾部数据提取策略对所述尾部数据进行数据提取,获得文件尾部数据以及文件附加数据的步骤之前,所述文件特征提取方法还包括:
[0030]根据预设分类策略对所述尾部数据进行分类,获得文件尾部数据类别以及文件附加数据类别;
[0031]查找所述文件尾部数据类别对应的文件尾部数据提取方向以及文件尾部数据提取字节,并根据所述文件尾部数据提取方向以及所述文件尾部数据提取字节生成文件尾部数据提取策略;
[0032]查找所述文件附加数据类别对应的文件附加数据提取方向以及文件附加数据提取字节,并根据所述文件附加数据提取方向以及所述文件附加数据提取字节生成文件附加数据提取策略;
[0033]根据所述文件尾部数据提取策略以及所述文件附加数据提取策略生成预设尾部数据提取策略。
[0034]可选地,所述根据所述头部数据、所述文件入口代码、所述用户入口代码、所述文件尾部数据、文件附加数据以及校验区数据生成所述待处理文件的文件缓冲区的步骤,具体包括:
[0035]根据所述头部数据确定头部字符位置信息,并根据所述头部字符位置信息确定签名字符;
[0036]根据所述签名字符判断所述待处理文件是否为合法文件;
[0037]在所述待处理文件为合法文件时,根据所述头部数据、所述文件入口代码、所述用户入口代码、所述文件尾部数据、文件附加数据以及校验区数据通过预设文件模板生成所述待处理文件的文件缓冲区。
[0038]可选地,所述根据所述文件缓冲区对所述待处理文件进行特征提取,获得目标特征库的步骤,具体包括:
[0039]对所述待处理文件进行遍历,将遍历到的待处理文件作为当前处理文件;
[0040]将除所述当前处理文件之外的待处理文件作为待分析文件,并分别确定所述当前处理文件与各待分析文件之间的缓冲区相似度;
[0041]根据所述缓冲区相似度对所述当前处理文件进行特征提取,获得目标特征;
[0042]在对所述待处理文件遍历结束后,根据所述目标特征生成目标特征库。
[0043]可选地,所述根据所述缓冲区相似度对所述待处理文件进行特征提取,获得目标特征的步骤,具体包括:
[0044]根据所述缓冲区相似度对所述待分析文件进行遍历,将遍历到的待分析文件作为当前分析文件;
[0045]根据所述当前处理文件的文件缓冲区与所述当前分析文件的文件缓冲区确定缓冲区共同特征;
[0046]在对所述待分析文件遍历结束后,根据所述缓冲区共同特征确定目标特征。
[0047]可选地,所述根据所述当前处理文件的文件缓冲区与所述当前分析文件的文件缓冲区确定缓冲区共同特征的步骤,具体包括:
[0048]将所述当前处理文件的文件缓冲区与所述当前分析文件的文件缓冲区进行匹配,获得匹配结果;
[0049]根据所述匹配结果对所述当前处理文件的文件缓冲区进行特征提取,获得缓冲区共同特征。
[0050]可选地,所述根据所述缓冲区相似度对所述待分析文件进行遍历,将遍历到的待分析文件作为当前分析文件的步骤,具体包括:
[0051]判断所述缓冲区相似度是否大于预设阈值;
[0052]在所述缓冲区相似度大于预设阈值时,根据所述缓冲区相似度对所述待分析文件进行排序,获得排序结果;
[0053]根据所述排序结果对所述待分析文件进行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文件特征提取方法,其特征在于,所述文件特征提取方法包括以下步骤:对多个待处理文件分别进行信息提取,获得文件代码以及文件数据;根据所述文件代码以及所述文件数据生成所述待处理文件的文件缓冲区;根据所述文件缓冲区对所述待处理文件进行特征提取,获得目标特征库。2.如权利要求1所述的文件特征提取方法,其特征在于,所述根据所述文件代码以及所述文件数据生成所述待处理文件的文件缓冲区的步骤,具体包括:对所述文件数据进行标识提取,获得数据标识;根据所述数据标识对所述文件数据进行筛选,获得头部数据、尾部数据以及校验区数据;根据所述头部数据、所述文件代码、所述尾部数据以及所述校验区数据生成所述待处理文件的文件缓冲区。3.如权利要求2所述的文件特征提取方法,其特征在于,所述根据所述头部数据、所述文件代码、所述尾部数据以及所述校验区数据生成所述待处理文件的文件缓冲区的步骤,具体包括:对所述文件代码进行特征提取,获得代码特征;根据所述代码特征对所述文件代码进行代码提取,获得文件入口代码以及用户入口代码;根据预设尾部数据提取策略对所述尾部数据进行数据提取,获得文件尾部数据以及文件附加数据;根据所述头部数据、所述文件入口代码、所述用户入口代码、所述文件尾部数据、文件附加数据以及校验区数据生成所述待处理文件的文件缓冲区。4.如权利要求3所述的文件特征提取方法,其特征在于,所述根据所述代码特征对所述文件代码进行代码提取,获得文件入口代码以及用户入口代码的步骤,具体包括:根据所述代码特征对所述文件代码进行分类,获得公共代码类别以及用户代码类别;根据所述公共代码类别以及所述用户代码类别对所述文件代码进行代码提取,获得文件入口代码以及用户入口代码。5.如权利要求4所述的文件特征提取方法,其特征在于,所述根据所述公共代码类别以及所述用户代码类别对所述文件代码进行代码提取,获得文件入口代码以及用户入口代码的步骤,具体包括:在预设映射关系表中查找所述公共代码类别对应的公共代码类别权重值;根据所述公共代码类别权重值确定公共代码提取方向以及公共代码提取字节;根据所述公共代码提取方向以及所述公共代码提取字节对所述文件代码进行代码提取,获得文件入口代码;在所述预设映射关系表中查找所述用户代码类别对应的用户代码类别权重值;根据所述用户代码类别权重值确定用户代码提取方向以及用户代码提取字节;根据所述用户代码提取方向以...

【专利技术属性】
技术研发人员:徐传宇党亮王士聪
申请(专利权)人:北京鸿腾智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1