一种用于电子档案智能分类鉴定的方法及装置制造方法及图纸

技术编号:37442101 阅读:17 留言:0更新日期:2023-05-06 09:14
本发明专利技术提供了一种用于电子档案智能分类鉴定的方法及装置,涉及信息处理技术领域,该方法包括获取待处理文档的元数据信息;根据预先构建的字段特征库,计算所述元数据信息对应的至少一个鉴定权重;所述字段特征库包括至少一条归档信息、关键字段信息和特征权重的映射关系,所述关键字段信息包括字段名称、字段内容以及所述字段名称的预设规则权重,所述鉴定权重基于所述归档信息、所述特征权重和所述预设规则权重得到;根据各所述鉴定权重与预设阈值的大小比较结果,确定所述待处理文档的归档信息。本发明专利技术无需人工鉴定,客观公正,同时方便快捷,极大地提高了处理效率和准确度。极大地提高了处理效率和准确度。极大地提高了处理效率和准确度。

【技术实现步骤摘要】
一种用于电子档案智能分类鉴定的方法及装置


[0001]本公开一般涉及信息处理
,具体涉及一种用于电子档案智能分类鉴定的方法及装置。

技术介绍

[0002]档案是指人们参与各项社会活动时直接形成的,具有保存价值的原始记录,这个过程中需要对原始记录进行分类归档和划定保存期限。
[0003]目前,相关技术通过人工方式来处理,然而由于档案门类繁多,且保存期限不尽一致,使得工作量巨大,严重影响了工作效率,同时准确度低。

技术实现思路

[0004]鉴于相关技术中的上述缺陷或不足,期望提供一种用于电子档案智能分类鉴定的方法及装置,能够自动对文档进行鉴定,提高处理效率和准确度。
[0005]第一方面,本公开提供一种用于电子档案智能分类鉴定的方法,所述方法包括:
[0006]获取待处理文档的元数据信息;
[0007]根据预先构建的字段特征库,计算所述元数据信息对应的至少一个鉴定权重;所述字段特征库包括至少一条归档信息、关键字段信息和特征权重的映射关系,所述关键字段信息包括字段名称、字段内容以及所述字段名称的预设规则权重,所述鉴定权重基于所述归档信息、所述特征权重和所述预设规则权重得到;
[0008]根据各所述鉴定权重与预设阈值的大小比较结果,确定所述待处理文档的归档信息。
[0009]可选地,在本公开一些实施例中,所述根据预先构建的字段特征库,计算所述元数据信息对应的至少一个鉴定权重,包括:
[0010]根据各所述关键字段信息的字段名称和字段内容,依次识别所述元数据信息中是否存在与所述字段名称和字段内容相对应的目标字段,以确定所述特征权重和所述预设规则权重;
[0011]根据所述归档信息、所述特征权重和所述预设规则权重,计算得到所述元数据信息的鉴定权重。
[0012]可选地,在本公开一些实施例中,所述根据各所述关键字段信息的字段名称和字段内容,依次识别所述元数据信息中是否存在与所述字段名称和字段内容相对应的目标字段,包括:
[0013]按照所述字段名称,从所述元数据信息内提取目标内容;
[0014]对所述目标内容进行分词,并将分词结果与所述字段内容匹配,若匹配成功,则所述分词结果作为所述目标字段。
[0015]可选地,在本公开一些实施例中,所述根据所述归档信息、所述特征权重和所述预设规则权重,计算得到所述元数据信息的鉴定权重,包括:
[0016]在所述归档信息相同的条件下,计算每个所述目标字段对应的所述特征权重与所述预设规则权重的乘积,并对各所述目标字段的乘积结果进行求和,得到所述元数据信息的鉴定权重。
[0017]可选地,在本公开一些实施例中,所述对各所述目标字段的乘积结果进行求和,得到所述元数据信息的鉴定权重,还包括:归一化处理所述求和结果。
[0018]可选地,在本公开一些实施例中,所述字段特征库通过如下步骤构建:
[0019]分别抽取已归档标准文档数据中各所述字段名称对应的文本内容;
[0020]根据预设词典词性表,对所述文本内容进行分词和过滤,得到所述字段内容;
[0021]根据所述字段名称、所述字段内容和预设分类鉴定模板包含的所述归档信息,计算得到所述特征权重,并建立所述归档信息、所述字段名称、所述字段内容、所述特征权重以及所述预设规则权重之间的映射关系。
[0022]可选地,在本公开一些实施例中,所述根据所述字段名称、所述字段内容和预设分类鉴定模板包含的所述归档信息,计算得到所述特征权重,包括:
[0023]在所述字段名称和所述归档信息相同的条件下,统计各所述字段内容的同维度词数量和词频序号,并基于所述同维度词数量和所述词频序号得到所述特征权重。
[0024]第二方面,本公开提供一种用于电子档案智能分类鉴定的装置,所述装置包括:
[0025]获取模块,配置用于获取待处理文档的元数据信息;
[0026]计算模块,配置用于根据预先构建的字段特征库,计算所述元数据信息对应的至少一个鉴定权重;所述字段特征库包括至少一条归档信息、关键字段信息和特征权重的映射关系,所述关键字段信息包括字段名称、字段内容以及所述字段名称的预设规则权重,所述鉴定权重基于所述归档信息、所述特征权重和所述预设规则权重得到;
[0027]确定模块,配置用于根据各所述鉴定权重与预设阈值的大小比较结果,确定所述待处理文档的归档信息。
[0028]可选地,在本公开一些实施例中,所述计算模块包括:
[0029]识别单元,配置用于根据各所述关键字段信息的字段名称和字段内容,依次识别所述元数据信息中是否存在与所述字段名称和字段内容相对应的目标字段,以确定所述特征权重和所述预设规则权重;
[0030]计算单元,配置用于根据所述归档信息、所述特征权重和所述预设规则权重,计算得到所述元数据信息的鉴定权重。
[0031]可选地,在本公开一些实施例中,所述识别单元还配置用于按照所述字段名称,从所述元数据信息内提取目标内容;
[0032]对所述目标内容进行分词,并将分词结果与所述字段内容匹配,若匹配成功,则所述分词结果作为所述目标字段。
[0033]从以上技术方案可以看出,本公开实施例具有以下优点:
[0034]本公开实施例提供了一种用于电子档案智能分类鉴定的方法及装置,以预先构建的字段特征库为参考基准,客观公正,无需人工鉴定,其中该字段特征库包括至少一条归档信息、关键字段信息和特征权重的映射关系,以及关键字段信息包括字段名称、字段内容和字段名称的预设规则权重,进而根据归档信息、特征权重和预设规则权重,自动计算元数据信息对应的至少一个鉴定权重,并通过比较各鉴定权重与预设阈值的大小,确定出待处理
文档的归档信息,高效准确,可靠性强。
附图说明
[0035]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:
[0036]图1为本公开实施例提供的一种用于电子档案智能分类鉴定的方法的流程示意图;
[0037]图2为本公开实施例提供的一种最大匹配算法中字典树的示意图;
[0038]图3为本公开实施例提供的一种用于电子档案智能分类鉴定的装置的结构示意图;
[0039]图4为本公开实施例提供的另一种用于电子档案智能分类鉴定的装置的结构示意图;
[0040]图5为本公开实施例提供的又一种用于电子档案智能分类鉴定的装置的结构示意图。
具体实施方式
[0041]为了使本
的人员更好地理解本公开方案,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本公开保护的范围。
[0042]本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于电子档案智能分类鉴定的方法,其特征在于,所述方法包括:获取待处理文档的元数据信息;根据预先构建的字段特征库,计算所述元数据信息对应的至少一个鉴定权重;所述字段特征库包括至少一条归档信息、关键字段信息和特征权重的映射关系,所述关键字段信息包括字段名称、字段内容以及所述字段名称的预设规则权重,所述鉴定权重基于所述归档信息、所述特征权重和所述预设规则权重得到;根据各所述鉴定权重与预设阈值的大小比较结果,确定所述待处理文档的归档信息。2.根据权利要求1所述的用于电子档案智能分类鉴定的方法,其特征在于,所述根据预先构建的字段特征库,计算所述元数据信息对应的至少一个鉴定权重,包括:根据各所述关键字段信息的字段名称和字段内容,依次识别所述元数据信息中是否存在与所述字段名称和字段内容相对应的目标字段,以确定所述特征权重和所述预设规则权重;根据所述归档信息、所述特征权重和所述预设规则权重,计算得到所述元数据信息的鉴定权重。3.根据权利要求2所述的用于电子档案智能分类鉴定的方法,其特征在于,所述根据各所述关键字段信息的字段名称和字段内容,依次识别所述元数据信息中是否存在与所述字段名称和字段内容相对应的目标字段,包括:按照所述字段名称,从所述元数据信息内提取目标内容;对所述目标内容进行分词,并将分词结果与所述字段内容匹配,若匹配成功,则所述分词结果作为所述目标字段。4.根据权利要求2所述的用于电子档案智能分类鉴定的方法,其特征在于,所述根据所述归档信息、所述特征权重和所述预设规则权重,计算得到所述元数据信息的鉴定权重,包括:在所述归档信息相同的条件下,计算每个所述目标字段对应的所述特征权重与所述预设规则权重的乘积,并对各所述目标字段的乘积结果进行求和,得到所述元数据信息的鉴定权重。5.根据权利要求4所述的用于电子档案智能分类鉴定的方法,其特征在于,所述对各所述目标字段的乘积结果进行求和,得到所述元数据信息的鉴定权重,还包括:归一化处理所述求和结果。6.根据权利要求1至5中任意一项所述的用于电子档案智能分类鉴定的方法,其特征在于,所述字段特征库通...

【专利技术属性】
技术研发人员:颜庆国马生坤陈莉孙平余冠霖卫华隋宏欣刘文山
申请(专利权)人:国网江苏省电力有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1