System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及计算机,具体而言,涉及一种文件检测方法、装置、电子设备和计算机可读存储介质。
技术介绍
1、pdf(portable document format)是一种由adobe公司开发的通用电子文档格式,用于以不受操作系统、应用程序或硬件平台限制的方式呈现和传递文件。为满足客户需求,pdf支持javascript脚本、插入链接等多种功能。恶意攻击者可以通过在pdf中嵌入恶意javascript脚本、钓鱼链接、恶意软件、病毒等,在用户打开文件时进行攻击。
2、目前针对pdf文件的检测存在不足,导致pdf文件的使用存在安全隐患。
技术实现思路
1、本申请的目的在于提供一种文件检测方法、装置、电子设备和计算机可读存储介质,能够通过对文件进行检测,以提高文件使用的安全性。
2、第一方面,本专利技术提供一种文件检测方法,包括:提取待检测文件的树结构,以得到所述待检测文件的结构特征;提取所述待检测文件的内容,以得到所述检测文件的内容特征;将所述结构特征和所述内容特征进行拼接,以得到所述待检测文件的特征向量;对所述特征向量进行检测,以得到所述待检测文件是否为恶意文件的检测结果。
3、在本申请实施例中,通过充分提取待检测文件的特征,分别提取结构特征和内容特征,基于两类特征对文件实现检测,可以使检测的基础数据能够更全面地包含待检测文件的信息,进一步地,基于更全面的待检测文件的信息可以使得文件的检测也能够更准确,提高文件使用的安全性。
4、在可选的实施
5、在上述实施方式中,通过对可能嵌入恶意内容的节点进行筛选,以及节点所形成的树结构的构建,可以更好地呈现待检测文件的信息,也就能够使对待检测文件的检测也能够更加的准确。
6、在可选的实施方式中,所述将所述待检测文件中确定出的所有所述结构路径进行拼接,得到所述待检测文件的树结构,包括:从所述待检测文件的结构路径中的根开始,将相同的结构路径合并为父路径,不同的结构路径开叉形成树枝,以此得到所述待检测文件的树结构。
7、在可选的实施方式中,所述将所述树结构中的各个节点进行编码,得到所述待检测文件的结构特征,包括:针对所述树结构中的各个非叶子节点,对所述非叶子节点的节点类型进行独热编码,以作为每个节点的特征向量;针对所述树结构中的各个叶子节点时,若所述叶子节点是流对象或者字符串,则以流对象或者字符串的长度作为所述叶子节点的特征,若所述叶子节点为实数时,以所述实数的数值作为所述叶子节点的特征;若所述叶子节点为其余对象时,以指定数值作为所述叶子节点的特征。
8、在可选的实施方式中,所述将所述结构特征和所述内容特征进行拼接,以得到所述待检测文件的特征向量,包括:对所述结构特征进行处理,以得到指定维度的结构向量;将所述结构向量与所述内容特征进行拼接,以得到所述待检测文件的特征向量。
9、在上述实施方式中,可以通过将结构特征转换为指定维度的结构向量,可以实现任意维度的结构特征都可以被使用,方便待检测文件的识别。
10、在可选的实施方式中,所述对所述结构特征进行处理,以得到指定维度的结构向量,包括:将所述结构特征输入图卷积神经网络模型中的特征处理层进行处理,以得到指定维度的结构向量,其中,所述特征处理层包括:图卷积层、池化层和dropout层。
11、在可选的实施方式中,所述对所述特征向量进行检测,以得到所述待检测文件是否为恶意文件的检测结果,包括:通过所述图卷积神经网络的全连接层对所述特征向量进行检测,以得到所述待检测文件的结果。
12、在上述实施方式中,使用图卷积神经网络进行特征处理以及特征识别,可以实现输入图卷积神经网络的特征的大小不再受限制,增加文件检测的适应性。
13、在可选的实施方式中,在所述提取待检测文件的树结构,以得到所述待检测文件的结构特征之前,所述方法还包括:获取原始文件,对所述原始文件进行反混淆处理,以得到所述待检测文件。
14、第二方面,本专利技术提供一种文件检测装置,包括:第一提取模块,用于提取待检测文件的树结构,以得到所述待检测文件的结构特征;第二提取模块,用于提取所述待检测文件的内容,以得到所述检测文件的内容特征;拼接模块,用于将所述结构特征和所述内容特征进行拼接,以得到所述待检测文件的特征向量;检测模块,用于对所述特征向量进行检测,以得到所述待检测文件是否为恶意文件的检测结果。
15、第三方面,本专利技术提供一种电子设备,包括:处理器、存储器,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述机器可读指令被所述处理器执行时执行如前述实施方式任一所述的方法的步骤。
16、第四方面,本专利技术提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如前述实施方式任一所述的方法的步骤。
本文档来自技高网...【技术保护点】
1.一种文件检测方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述提取待检测文件的树结构,以得到所述待检测文件的结构特征,包括:
3.根据权利要求2所述的方法,其特征在于,所述将所述待检测文件中确定出的所有所述结构路径进行拼接,得到所述待检测文件的树结构,包括:
4.根据权利要求2所述的方法,其特征在于,所述将所述树结构中的各个节点进行编码,得到所述待检测文件的结构特征,包括:
5.根据权利要求1-4任意一项所述的方法,其特征在于,所述将所述结构特征和所述内容特征进行拼接,以得到所述待检测文件的特征向量,包括:
6.根据权利要求5所述的方法,其特征在于,所述对所述结构特征进行处理,以得到指定维度的结构向量,包括:
7.根据权利要求6所述的方法,其特征在于,所述对所述特征向量进行检测,以得到所述待检测文件是否为恶意文件的检测结果,包括:
8.根据权利要求1所述的方法,其特征在于,在所述提取待检测文件的树结构,以得到所述待检测文件的结构特征之前,所述方法还包括:
9.
10.一种电子设备,其特征在于,包括:处理器、存储器,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述机器可读指令被所述处理器执行时执行如权利要求1至8任一所述的方法的步骤。
11.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至8任一所述的方法的步骤。
...【技术特征摘要】
1.一种文件检测方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述提取待检测文件的树结构,以得到所述待检测文件的结构特征,包括:
3.根据权利要求2所述的方法,其特征在于,所述将所述待检测文件中确定出的所有所述结构路径进行拼接,得到所述待检测文件的树结构,包括:
4.根据权利要求2所述的方法,其特征在于,所述将所述树结构中的各个节点进行编码,得到所述待检测文件的结构特征,包括:
5.根据权利要求1-4任意一项所述的方法,其特征在于,所述将所述结构特征和所述内容特征进行拼接,以得到所述待检测文件的特征向量,包括:
6.根据权利要求5所述的方法,其特征在于,所述对所述结构特征进行处理,以得到指定维度的结构向量,包括:...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。