【技术实现步骤摘要】
一种文件分类方法、装置、介质及设备
[0001]本专利技术涉及人工智能领域,具体涉及一种文件分类方法、装置、介质及设备。
技术介绍
[0002]前端上传文件,大部分检测文件方式是基于文件后缀名方式进行检测的,例如检测到jpeg,png等后缀就认为是图片,检测到后缀名txt就认为是文档。其实这样的方式是不安全的。文件后缀名本身的作用是为了方便操作系统快速查找到对应的解释程序,处理对应的文件。事实上,文件后缀名是可以串改而不影响源文件内容的。例如,对于一个只允许上传后缀名为png的图片文件功能页面,当你把一个js文件的后缀名改为png时,同样是可以上传到服务器的,但这并不影响js文件的内容。当用户浏览该内容时,浏览器就会将该后缀名为png的文件当做js进行解析执行,产生跨站脚本攻击的风险,造成用户的私密信息泄露,甚至更大的危险。因此,有必要对文件的合法性进行判断。
技术实现思路
[0003]本专利技术提供一种文件分类方法、装置、介质及设备,其主要目的在于识别文件是否被篡改,从而判断文件的合法性。
[0004]为实现上述目的,本专利技术提供一种文件分类方法,包括:
[0005]接收待识别文件;
[0006]获取待识别文件的文件头、文件后缀;
[0007]根据所述文件头确定所述待识别文件的第一文件格式,根据所述文件后缀确定所述待识别文件的第二文件格式;
[0008]判断所述第一文件格式与所述第二文件格式是否一致;若不一致,则待识别文件为非法文件;若一致,则获取所述待识别 ...
【技术保护点】
【技术特征摘要】
1.一种文件识别方法,其特征在于,包括:接收待识别文件;获取待识别文件的文件头、文件后缀;根据所述文件头确定所述待识别文件的第一文件格式,根据所述文件后缀确定所述待识别文件的第二文件格式;判断所述第一文件格式与所述第二文件格式是否一致;若不一致,则待识别文件为非法文件;若一致,则获取所述待识别文件的文件结构特征;根据所述文件结构特征确定所述待识别文件的第三文件格式;根据所述第一文件格式/所述第二文件格式、所述第三文件格式判断所述待识别文件是否是合法文件;若所述第一文件格式/所述第二文件格式与所述第三文件格式一致,则所述待识别文件为合法文件;若所述第一文件格式/所述第二文件格式与所述第三文件格式不一致,则所述待识别文件为非法文件。2.根据权要求1所述的文件分类方法,其特征在于,所述根据所述文件头确定所述待识别文件的第一文件格式,包括:解析待识别文件的文件头,在所述文件头中确定出文件格式关键字;在预先建立的第一关联关系列表中查询与文件格式关键字对应的文件格式,将查询到的文件格式作为待识别文件的第一文件格式;其中,第一关联关系列表用于指示文件格式关键字与文件格式的映射关系。3.根据权利要求1所述的文件分类方法,其特征在于,所述根据所述文件后缀确定所述待识别文件的第二文件格式,包括:在预先建立的第二关联关系列表中查询与文件后缀对应的文件格式,将查询到的文件格式作为待识别文件的第二文件格式;其中,所述第二关联关系列表用于指示文件后缀与文件格式的对应关系。4.根据权利要求1所述的文件分类方法,其特征在于,所述根据所述文件结构特征确定所述待识别文件的第三文件格式,包括:计算所述待识别文件的文件结构特征与标准文件结构特征之间的结构相似度;将结构相似度大于设定的结构相似度阈值对应的标准文件结构特征作为目标文件结构特征;在预先建立的第三关联关系列表中查询与目标文件结构特征对应的文件格式,将查询到的文件格式作为待识别文件的第三文件格式;其中,所述第三关联关系列表用于指示标准文件结构特征与文件格式的对应关系。5.根据权要求1所述的文件分类方法,其特征在于,根据所述文件结构特征确定所述待识别文件的第三文件格式,包括:将所述文件结构特征输入到预先训练好的文件格式识别模型中,得到表示待识别文件格式的第三文件格式;其中,所述文件结构特征包括以下至少之一:特征字符或字符串、数据存储时所采用的数据结构格式、各种数据结构的对象间的关系、交叉引用表。6.根据权要求5所述的文件分类方法,其特征在于,所述文件格式识别模型为神经网络模型,所述文件格式识别模型包括:顺次连接的卷积单元、双向LSTM层、全连接层和分类层;
其中,所述卷积单元包括至少一个,所述卷积单元包括卷积层和最大池化层。7.根据权要求6所述的文件分类方法,其特征在于,若h
t
为LSTM层的输出向量,则LSTM层的遗忘门、输入门和输出门在每个时间步的更新按照以下方式进行:f
t
=σ(B
f
+∑U
f
C
l
+∑W
f
×
...
【专利技术属性】
技术研发人员:张帆,
申请(专利权)人:康键信息技术深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。