一种文件分类方法、装置、介质及设备制造方法及图纸

技术编号:31022345 阅读:29 留言:0更新日期:2021-11-30 03:15
本申请涉及人工智能,提供一种文件分类方法、装置、介质及设备,该方法包括:获取待识别文件的文件头、文件后缀;根据文件头和文件后缀确定待识别文件的第一文件格式和第二文件格式;判断第一文件格式与所述第二文件格式是否一致,若不一致则待识别文件为非法文件,若一致,则待识别文件的文件结构特征;根据文件结构特征确定待识别文件的第三文件格式;根据第一文件格式/所述第二文件格式、第三文件格式判断待识别文件是否是合法文件;若第一文件格式/第二文件格式与所述第三文件格式一致,则待识别文件为合法文件;反之则待识别文件为非法文件。通过上述方法可以有效识别出类型被篡改的文件,以此来保证文件的合法性和正确性。性。性。

【技术实现步骤摘要】
一种文件分类方法、装置、介质及设备


[0001]本专利技术涉及人工智能领域,具体涉及一种文件分类方法、装置、介质及设备。

技术介绍

[0002]前端上传文件,大部分检测文件方式是基于文件后缀名方式进行检测的,例如检测到jpeg,png等后缀就认为是图片,检测到后缀名txt就认为是文档。其实这样的方式是不安全的。文件后缀名本身的作用是为了方便操作系统快速查找到对应的解释程序,处理对应的文件。事实上,文件后缀名是可以串改而不影响源文件内容的。例如,对于一个只允许上传后缀名为png的图片文件功能页面,当你把一个js文件的后缀名改为png时,同样是可以上传到服务器的,但这并不影响js文件的内容。当用户浏览该内容时,浏览器就会将该后缀名为png的文件当做js进行解析执行,产生跨站脚本攻击的风险,造成用户的私密信息泄露,甚至更大的危险。因此,有必要对文件的合法性进行判断。

技术实现思路

[0003]本专利技术提供一种文件分类方法、装置、介质及设备,其主要目的在于识别文件是否被篡改,从而判断文件的合法性。
[0004]为实现上述目的,本专利技术提供一种文件分类方法,包括:
[0005]接收待识别文件;
[0006]获取待识别文件的文件头、文件后缀;
[0007]根据所述文件头确定所述待识别文件的第一文件格式,根据所述文件后缀确定所述待识别文件的第二文件格式;
[0008]判断所述第一文件格式与所述第二文件格式是否一致;若不一致,则待识别文件为非法文件;若一致,则获取所述待识别文件的文件结构特征;
[0009]根据所述文件结构特征确定所述待识别文件的第三文件格式;
[0010]根据所述第一文件格式/所述第二文件格式、所述第三文件格式判断所述待识别文件是否是合法文件;若所述第一文件格式/所述第二文件格式与所述第三文件格式一致,则所述待识别文件为合法文件;若所述第一文件格式/所述第二文件格式与所述第三文件格式不一致,则所述待识别文件为非法文件。
[0011]可选地,所述根据所述文件头确定所述待识别文件的第一文件格式,包括:
[0012]解析待识别文件的文件头,在所述文件头中确定出文件格式关键字;
[0013]在预先建立的第一关联关系列表中查询与文件格式关键字对应的文件格式,将查询到的文件格式作为待识别文件的第一文件格式。
[0014]其中,第一关联关系列表用于指示文件格式关键字与文件格式的映射关系。
[0015]可选地,所述根据所述文件后缀确定所述待识别文件的第二文件格式,包括:
[0016]在预先建立的第二关联关系列表中查询与文件后缀对应的文件格式,将查询到的文件格式作为待识别文件的第二文件格式;
[0017]其中,所述第二关联关系列表用于指示文件后缀与文件格式的对应关系。
[0018]可选地,所述根据所述文件结构特征确定所述待识别文件的第三文件格式,包括:
[0019]计算所述待识别文件的文件结构特征与标准文件结构特征之间的结构相似度;
[0020]将结构相似度大于设定的结构相似度阈值对应的标准文件结构特征作为目标文件结构特征;
[0021]在预先建立的第三关联关系列表中查询与目标文件结构特征对应的文件格式,将查询到的文件格式作为待识别文件的第三文件格式;
[0022]其中,所述第三关联关系列表用于指示标准文件结构特征与文件格式的对应关系。
[0023]可选地,根据所述文件结构特征确定所述待识别文件的第三文件格式,包括:
[0024]将所述文件结构特征输入到预先训练好的文件格式识别模型中,得到表示待识别文件格式的第三文件格式;其中,所述文件结构特征包括以下至少之一:
[0025]特征字符或字符串、数据存储时所采用的数据结构格式、各种数据结构的对象间的关系、交叉引用表。
[0026]可选地,所述文件格式识别模型为神经网络模型,所述文件格式识别模型包括:顺次连接的卷积单元、双向LSTM层、全连接层和分类层;
[0027]其中,所述卷积单元包括至少一个,所述卷积单元包括卷积层和最大池化层。
[0028]可选地,若h
t
为LSTM层的输出向量,则LSTM层的遗忘门、输入门和输出门在每个时间步的更新按照以下方式进行:
[0029]f
t
=σ(B
f
+∑U
f
C
l
+∑W
f
×
h
t
‑1)
[0030]g
t
=σ(B
g
+∑U
g
C
l
+∑W
g
×
h
t
‑1)
[0031]q
t
=σ(B
q
+∑U
q
C
l
+∑W
q
×
h
t
‑1)
[0032]其中,C
l
为第l层的最大池化层的输出,B
f
、U
f
、W
f
分别为遗忘门的偏置、输入权重和循环权重;B
g
、U
g
、W
g
分别为输入门的偏置、输入权重和循环权重;B
q
、U
q
、W
q
分别为输出门的偏置、输入权重和循环权重,σ为激活函数;
[0033]LSTM层的信息状态更新k
t
及输出h
t
如下:
[0034]k
t
=f
t
×
k
t
‑1+g
t
σ(B+∑UC
l
+∑W
×
h
t
‑1),h
t
=σ(k
t
)
×
q
t
[0035]其中,B、U、W分别为LSTM层新生成信息的偏置、输入权重和循环权重。
[0036]为实现上述目的,本专利技术提供一种文件分类装置,包括:
[0037]文件接收模块,用下载接收待识别文件;
[0038]第一获取模块,用于获取待识别文件的文件头、文件后缀;
[0039]第一格式识别模块,用于根据所述文件头确定所述待识别文件的第一文件格式,根据所述文件后缀确定所述待识别文件的第二文件格式;
[0040]第二获取模块,用于判断所述第一文件格式与所述第二文件格式是否一致;若不一致,则待识别文件为非法文件;若一致,则获取所述待识别文件的文件结构特征;
[0041]第二格式识别模块,用于根据所述文件结构特征确定所述待识别文件的第三文件格式;
[0042]比较模块,用于根据所述第一文件格式/所述第二文件格式、所述第三文件格式判断所述待识别文件是否本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文件识别方法,其特征在于,包括:接收待识别文件;获取待识别文件的文件头、文件后缀;根据所述文件头确定所述待识别文件的第一文件格式,根据所述文件后缀确定所述待识别文件的第二文件格式;判断所述第一文件格式与所述第二文件格式是否一致;若不一致,则待识别文件为非法文件;若一致,则获取所述待识别文件的文件结构特征;根据所述文件结构特征确定所述待识别文件的第三文件格式;根据所述第一文件格式/所述第二文件格式、所述第三文件格式判断所述待识别文件是否是合法文件;若所述第一文件格式/所述第二文件格式与所述第三文件格式一致,则所述待识别文件为合法文件;若所述第一文件格式/所述第二文件格式与所述第三文件格式不一致,则所述待识别文件为非法文件。2.根据权要求1所述的文件分类方法,其特征在于,所述根据所述文件头确定所述待识别文件的第一文件格式,包括:解析待识别文件的文件头,在所述文件头中确定出文件格式关键字;在预先建立的第一关联关系列表中查询与文件格式关键字对应的文件格式,将查询到的文件格式作为待识别文件的第一文件格式;其中,第一关联关系列表用于指示文件格式关键字与文件格式的映射关系。3.根据权利要求1所述的文件分类方法,其特征在于,所述根据所述文件后缀确定所述待识别文件的第二文件格式,包括:在预先建立的第二关联关系列表中查询与文件后缀对应的文件格式,将查询到的文件格式作为待识别文件的第二文件格式;其中,所述第二关联关系列表用于指示文件后缀与文件格式的对应关系。4.根据权利要求1所述的文件分类方法,其特征在于,所述根据所述文件结构特征确定所述待识别文件的第三文件格式,包括:计算所述待识别文件的文件结构特征与标准文件结构特征之间的结构相似度;将结构相似度大于设定的结构相似度阈值对应的标准文件结构特征作为目标文件结构特征;在预先建立的第三关联关系列表中查询与目标文件结构特征对应的文件格式,将查询到的文件格式作为待识别文件的第三文件格式;其中,所述第三关联关系列表用于指示标准文件结构特征与文件格式的对应关系。5.根据权要求1所述的文件分类方法,其特征在于,根据所述文件结构特征确定所述待识别文件的第三文件格式,包括:将所述文件结构特征输入到预先训练好的文件格式识别模型中,得到表示待识别文件格式的第三文件格式;其中,所述文件结构特征包括以下至少之一:特征字符或字符串、数据存储时所采用的数据结构格式、各种数据结构的对象间的关系、交叉引用表。6.根据权要求5所述的文件分类方法,其特征在于,所述文件格式识别模型为神经网络模型,所述文件格式识别模型包括:顺次连接的卷积单元、双向LSTM层、全连接层和分类层;
其中,所述卷积单元包括至少一个,所述卷积单元包括卷积层和最大池化层。7.根据权要求6所述的文件分类方法,其特征在于,若h
t
为LSTM层的输出向量,则LSTM层的遗忘门、输入门和输出门在每个时间步的更新按照以下方式进行:f
t
=σ(B
f
+∑U
f
C
l
+∑W
f
×
...

【专利技术属性】
技术研发人员:张帆
申请(专利权)人:康键信息技术深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1