一种文件分类方法、文件分类装置、电子设备及存储介质制造方法及图纸

技术编号:38347057 阅读:30 留言:0更新日期:2023-08-02 09:27
本申请提供了一种文件分类方法、文件分类装置、电子设备及存储介质,所述文件分类方法包括:获取待分类文件;根据待分类文件的名称和所属目录中的路径,确定待分类文件的文件特征信息;将文件特征信息与至少一个已分类文件的预定特征信息进行匹配,以得到文件特征信息与每个已分类文件的预定特征信息的匹配度;将数值最大的匹配度对应的预定特征信息所指示的分类结果确定为待分类文件的分类结果。采用本申请提供的技术方案能够通过待分类文件的文件特征信息与各个已分类文件的预定特征信息进行匹配,将数值最大的匹配度对应的预定特征信息所指示的分类结果确定为待分类文件的分类结果,提高了文件分类的效率以及准确性。提高了文件分类的效率以及准确性。提高了文件分类的效率以及准确性。

【技术实现步骤摘要】
一种文件分类方法、文件分类装置、电子设备及存储介质


[0001]本申请涉及油气数据处理的
,尤其是涉及一种文件分类方法、文件分类装置、电子设备及存储介质。

技术介绍

[0002]在油气生产的各个环节中,有很多专业数据是以文件形式存储的,在将数据导入数据湖之前,需要对这些文件按照数据湖的分类方式进行分类,每一个分类定义为一个数据集,再入湖管理。
[0003]目前采用的方式是由专业的业务人员查看文件的原分类或文件名称,人工进行判断并标注文件所属的数据集,并且分类只能在已有油田分类维度的基础上进行类别与类别的映射,做不到文件级别的分类映射,导致业务人员工作量大,工作效率较低,并且在工作量大的情况下,分类准确性也得不到保证;因此,如何提高文件分类的效率以及准确性,成为了亟待解决的问题。

技术实现思路

[0004]有鉴于此,本申请的目的在于提供一种文件分类方法、文件分类装置、电子设备及存储介质,能够通过待分类文件的文件特征信息与各个已分类文件的预定特征信息进行匹配,将数值最大的匹配度对应的预定特征信息所指示的分类结果确定为待分类文件的分类结果,提高了文件分类的效率以及准确性。
[0005]本申请主要包括以下几个方面:
[0006]第一方面,本申请实施例提供了一种文件分类方法,所述文件分类方法包括:
[0007]获取待分类文件;
[0008]根据所述待分类文件的名称和所属目录中的路径,确定所述待分类文件的文件特征信息;
[0009]将所述文件特征信息与至少一个已分类文件的预定特征信息进行匹配,以得到所述文件特征信息与每个已分类文件的预定特征信息的匹配度;其中,所述预定特征信息用于表征已分类文件所属目录的路径和分类结果的映射关系;
[0010]将数值最大的匹配度对应的预定特征信息所指示的分类结果确定为所述待分类文件的分类结果。
[0011]进一步的,通过以下步骤确定预定特征信息,包括:
[0012]根据预先构建的映射列表中已分类文件所属目录中的路径和分类结果的映射关系,获取任意一个已分类文件所属目录中的路径和所述已分类文件所属目录中的路径对应的分类结果;
[0013]针对每个已分类文件,将该已分类文件所属目录中的路径和已分类文件所属目录中的路径对应的分类结果进行拼接,将拼接后的结果确定为该已分类文件的特征字符串;
[0014]对该已分类文件的特征字符串进行分词处理,得到该已分类文件的特征字符串所
包括的至少一个词组;
[0015]根据每个词组在词典中的特征值,将该已分类文件的特征字符串中包括的全部词组对应的特征值组成多维特征向量;
[0016]将所述多维特征向量确定为该已分类文件的预定特征信息。
[0017]进一步的,所述将数值最大的匹配度对应的预定特征信息所指示的分类结果确定为所述待分类文件的分类结果之前,所述文件分类方法还包括:
[0018]检测数值最大的匹配度是否低于预设阈值;
[0019]若低于,则根据输入参数确定待分类文件的分类结果;
[0020]若不低于,则将数值最大的匹配度对应的预定特征信息所指示的分类结果确定为所述待分类文件的分类结果。
[0021]进一步的,所述在根据输入参数确定待分类文件的分类结果之后,所述文件分类方法还包括:
[0022]获取待分类文件的分类结果;
[0023]将所述待分类文件所属目录中的路径和该待分类文件的名称拼接在一起与该待分类文件的分类结果作为一对映射关系存储在映射列表中。
[0024]第二方面,本申请实施例还提供了一种文件分类装置,所述文件分类装置包括:
[0025]获取模块,用于获取待分类文件;
[0026]处理模块,用于根据所述待分类文件的名称和所属目录中的路径,确定所述待分类文件的文件特征信息;
[0027]匹配模块,用于将所述文件特征信息与至少一个已分类文件的预定特征信息进行匹配,以得到所述文件特征信息与每个已分类文件的预定特征信息的匹配度;
[0028]分类模块,用于将数值最大的匹配度对应的预定特征信息所指示的分类结果确定为所述待分类文件的分类结果。
[0029]进一步的,所述文件分类装置还包括确定模块,所述确定模块用于:
[0030]根据预先构建的映射列表中已分类文件所属目录中的路径和分类结果的映射关系,获取任意一个已分类文件所属目录中的路径和所述已分类文件所属目录中的路径对应的分类结果;
[0031]针对每个已分类文件,将该已分类文件所属目录中的路径和已分类文件所属目录中的路径对应的分类结果进行拼接,将拼接后的结果确定为该已分类文件的特征字符串;
[0032]对该已分类文件的特征字符串进行分词处理,得到该已分类文件的特征字符串所包括的至少一个词组;
[0033]根据每个词组在词典中的特征值,将该已分类文件的特征字符串中包括的全部词组对应的特征值组成多维特征向量;
[0034]将所述多维特征向量确定为该已分类文件的预定特征信息。
[0035]进一步的,所述文件分类装置还包括判断模块,所述判断模块用于:
[0036]检测数值最大的匹配度是否低于预设阈值;
[0037]若低于,则根据输入参数确定待分类文件的分类结果;
[0038]若不低于,则将数值最大的匹配度对应的预定特征信息所指示的分类结果确定为所述待分类文件的分类结果。
[0039]进一步的,所述文件分类装置还包括存储模块,所述存储模块用于:
[0040]获取待分类文件的分类结果;
[0041]将所述待分类文件所属目录中的路径和该待分类文件的名称拼接在一起与该待分类文件的分类结果作为一对映射关系存储在映射列表中。
[0042]第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的文件分类方法的步骤。
[0043]第四方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如上述的文件分类方法的步骤。
[0044]本申请实施例提供的一种文件分类方法、文件分类装置、电子设备及存储介质,所述文件分类方法包括:获取待分类文件;根据所述待分类文件的名称和所属目录中的路径,确定所述待分类文件的文件特征信息;将所述文件特征信息与至少一个已分类文件的预定特征信息进行匹配,以得到所述文件特征信息与每个已分类文件的预定特征信息的匹配度;其中,所述预定特征信息用于表征已分类文件所属目录的路径和分类结果的映射关系;将数值最大的匹配度对应的预定特征信息所指示的分类结果确定为所述待分类文件的分类结果。
[0045]这样,采用本申请提供的技术方案能够通过待分类文件的文件特征信息与各个已分类文件的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文件分类方法,其特征在于,所述文件分类方法包括:获取待分类文件;根据所述待分类文件的名称和所属目录中的路径,确定所述待分类文件的文件特征信息;将所述文件特征信息与至少一个已分类文件的预定特征信息进行匹配,以得到所述文件特征信息与每个已分类文件的预定特征信息的匹配度;其中,所述预定特征信息用于表征已分类文件所属目录的路径和分类结果的映射关系;将数值最大的匹配度对应的预定特征信息所指示的分类结果确定为所述待分类文件的分类结果。2.根据权利要求1所述的文件分类方法,其特征在于,通过以下步骤确定预定特征信息,包括:根据预先构建的映射列表中已分类文件所属目录中的路径和分类结果的映射关系,获取任意一个已分类文件所属目录中的路径和所述已分类文件所属目录中的路径对应的分类结果;针对每个已分类文件,将该已分类文件所属目录中的路径和已分类文件所属目录中的路径对应的分类结果进行拼接,将拼接后的结果确定为该已分类文件的特征字符串;对该已分类文件的特征字符串进行分词处理,得到该已分类文件的特征字符串所包括的至少一个词组;根据每个词组在词典中的特征值,将该已分类文件的特征字符串中包括的全部词组对应的特征值组成多维特征向量;将所述多维特征向量确定为该已分类文件的预定特征信息。3.根据权利要求1所述的文件分类方法,其特征在于,所述将数值最大的匹配度对应的预定特征信息所指示的分类结果确定为所述待分类文件的分类结果之前,所述文件分类方法还包括:检测数值最大的匹配度是否低于预设阈值;若低于,则根据输入参数确定待分类文件的分类结果;若不低于,则将数值最大的匹配度对应的预定特征信息所指示的分类结果确定为所述待分类文件的分类结果。4.根据权利要求3所述的文件分类方法,其特征在于,所述在根据输入参数确定待分类文件的分类结果之后,所述文件分类方法还包括:获取待分类文件的分类结果;将所述待分类文件所属目录中的路径和该待分类文件的名称拼接在一起与该待分类文件的分类结果作为一对映射关系存储在映射列表中。5.一种文件分类装置,其特征在于,所述文件分类装置包括:获取模块,用于获取待分类文件;处理模块,用于根据所述待分类文件的名称和所属目录中的路径,确定所述待分类文件的文件特征信息...

【专利技术属性】
技术研发人员:黄文俊李刚蒋克成张骁程宁
申请(专利权)人:昆仑数智科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1