数字化人事档案标题自动匹配分类方法及系统技术方案

技术编号:36375794 阅读:61 留言:0更新日期:2023-01-18 09:35
本发明专利技术属于档案管理技术领域,特别涉及一种数字化人事档案标题自动匹配分类方法及系统,依据每份人事档案标题及所属档案类别的映射关系,建立档案类别模板库;将档案类别模板库中的人事档案标题向量化,并通过分词编码来制作语料库,利用TFIDF模型来存储每个标题的分词权重值;提取待分类档案标题信息,将提取的档案标题分词处理,并利用TFIDF模型计算每个分词权重值;利用余弦相似函数计算待分类档案标题与档案类别模板库中标题的权重值相似度,依据相似度来确定最相似的模板库标题,将该最相似的模板库标题所属档案类别作为待分类档案标题类别进行输出。本发明专利技术利用TFIDF算法和余弦相似度算法来实现数字化人事档案标题的文本匹配和自动分类归档,提高档案管理效率。率。率。

【技术实现步骤摘要】
数字化人事档案标题自动匹配分类方法及系统


[0001]本专利技术属于档案管理
,特别涉及一种数字化人事档案标题自动匹配分类方法及系统。

技术介绍

[0002]数字化档案由于其便捷性、易存储性、易管理性以及易査询性在档案审核管理中起越来越重要的作用。其中,人事档案审核的一项重要内容是档案分类归档,人事档案正本由历史的、全面的反应干部情况的材料构成,根据《干部档案工作条例》规定,档案正本材料可分为履历类材料、自传和思想类材料、考核鉴定类材料等等十大类。由于各类人事档案中版制的复杂性和多样性,实现自动化分类归档不仅是数字化档案管理的核心,也是难点。
[0003]传统的数字化档案的分类大多依靠档案管理人员手动进行,不仅分类过程效率较低,而且即使是受过培训的专业人员,由于其主观意识以及知识局限容易造成分类偏差,以致分类后的档案类别标准不统一;此外,对数字化档案进行手动分类也耗费大量的人力物力财力。由于档案文件内容的样式并不统一,存在很大的差异性,目前对整份档案文件的样式很难去定义统一的模板。

技术实现思路

[0004]为此,本专利技术提供一种数字化人事档案标题自动匹配分类方法及系统,利用TFIDF算法和余弦相似度算法来实现数字化人事档案标题的文本匹配和自动分类归档,提高档案管理效率。
[0005]按照本专利技术所提供的设计方案,提供一种数字化人事档案标题自动匹配分类方法,包含如下内容:
[0006]依据每份人事档案标题及所属档案类别的映射关系,建立档案类别模板库;
[0007]将档案类别模板库中的人事档案标题向量化,并通过分词编码来制作语料库,利用TFIDF模型来存储每个标题的分词权重值;
[0008]提取待分类档案标题信息,将提取的档案标题分词处理,并利用TFIDF模型计算每个分词权重值;
[0009]利用余弦相似函数计算待分类档案标题与档案类别模板库中标题的权重值相似度,依据相似度来确定最相似的模板库标题,将该最相似的模板库标题所属档案类别作为待分类档案标题类别进行输出。
[0010]作为本专利技术中数字化人事档案标题自动匹配分类方法,进一步地,利用现有收集到的人事档案进行分类,依据其中每份人事档案标题及所属档案类别的映射关系来建立档案类别模板库。
[0011]作为本专利技术中数字化人事档案标题自动匹配分类方法,进一步地,通过分词编码来制作语料库中,首先,利用jieba分词库并通过构造的前缀词典来将档案类别模板库中的档案标题进行切分,利用档案标题切分后的分词项构成向量空间,列出所有分词项并进行
编码,然后,依据分词项及其编码来制作语料库。
[0012]作为本专利技术中数字化人事档案标题自动匹配分类方法,进一步地,语料库中每个元素表示为(分词项编码,词频)。
[0013]作为本专利技术数字化人事档案标题自动匹配分类方法,进一步地,利用TFIDF模型计算每个分词权重值的公式表示为:其中,m为特征词t在档案标题文本中出现的个数,s为模板库中档案标题的总数量,n为包含特征词t的档案标题文本个数,N为档案标题数量。
[0014]作为本专利技术数字化人事档案标题自动匹配分类方法,进一步地,针对待分类档案标题信息,首先,利用OCR文字识别技术来提取待分类档案标题文本,然后,对提取到的标题文本进行预处理,将文本字符类型统一为档案类别模板库中的字符类型;接着,对预处理后的标题文本进行分词处理和权重值计算。
[0015]作为本专利技术数字化人事档案标题自动匹配分类方法,进一步地,待分类档案标题文本的分词权重值计算公式表示为:其中,IDF(d,t)表示特征词t在档案类别d中的IDF值;N表示总档案标题数量;A表示档案类别d中包含特征词t的档案标题数量;B表示包含特征词t但是不属于档案类别d的档案标题数量;C表示档案类别d中不包含特征词t的档案标题数量;D表示不属于档案类别d且也不包含特征词t的档案标题数量。
[0016]作为本专利技术数字化人事档案标题自动匹配分类方法,进一步地,利用余弦相似函数计算权重值相似度的公式表示为:其中,i为档案标题文本分词之后的分词项词语序列,n为待分类档案标题和模板库档案标题分词之后相同分词项词语的数量,x
i
为待分类档案标题分词之后词语的TFIDF权重,y
i
为模板库标题分词之后词语的TFIDF权重。
[0017]进一步地,本专利技术还提供一种数字化人事档案标题自动匹配分类系统,包含:模板库处理模块、目标文档处理模块及相似度匹配模块,其中,
[0018]模板库处理模块,用于依据每份人事档案标题及所属档案类别的映射关系,建立档案类别模板库;并将档案类别模板库中的人事档案标题向量化,通过分词编码来制作语料库,利用TFIDF模型来存储每个标题的分词权重值;
[0019]目标文档处理模块,用于提取待分类档案标题信息,将提取的档案标题分词处理,并利用TFIDF模型计算每个分词权重值;
[0020]相似度匹配模块,用于利用余弦相似函数计算待分类档案标题与档案类别模板库中标题的权重值相似度,依据相似度来确定最相似的模板库标题,将该最相似的模板库标题所属档案类别作为待分类档案标题类别进行输出。
[0021]本专利技术的有益效果:
[0022]本专利技术采用TFIDF算法和余弦相似度算法来实现数字化人事档案标题的文本匹配和自动分类归档;通过设置档案标题与所属类别的映射关系模板库,将待分类标题与模板库标题进行相似度匹配,选取与之相似度最高的模板库标题的所属类别作为该待分类标题的类别,来实现数字化人事档案标题的自动分类归档,避免人事档案人为分类归档过程中
存在的效率低、存在人为偏差等问题,不仅大大提高数字化人事档案分类归档效率,而且能有效节省人力、物力、财力的使用,便于实际场景中的应用。
附图说明:
[0023]图1为实施例中数字化人事档案标题自动匹配分类流程示意;
[0024]图2为实施例中自动匹配分类算法原理示意;
[0025]图3为实施例中模板库示意;
[0026]图4为实施例中TFIDF建模示意;
[0027]图5为实施例中TFIDF流程示意;
[0028]图6为实施例中改进后的IDF流程示意;
[0029]图7为实施例中相似度匹配流程示意;
[0030]图8为实施例中数字化档案标题的自动分类案例示意。
具体实施方式:
[0031]为使本专利技术的目的、技术方案和优点更加清楚、明白,下面结合附图和技术方案对本专利技术作进一步详细的说明。
[0032]针对数字化档案手动分类效率低、成本高以及易偏差等问题,本专利技术实施例,参见图1所示,提供一种数字化人事档案标题自动匹配分类方法,包含:
[0033]S101、依据每份人事档案标题及所属档案类别的映射关系,建立档案类别模板库;
[0034]S102、将档案类别模板库中的人事档案标题向量化,并通过分词编码来制作语料库,利用TFIDF模型来存储每个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数字化人事档案标题自动匹配分类方法,其特征在于,包含如下内容:依据每份人事档案标题及所属档案类别的映射关系,建立档案类别模板库;将档案类别模板库中的人事档案标题向量化,并通过分词编码来制作语料库,利用TFIDF模型来存储每个标题的分词权重值;提取待分类档案标题信息,将提取的档案标题分词处理,并利用TFIDF模型计算每个分词权重值;利用余弦相似函数计算待分类档案标题与档案类别模板库中标题的权重值相似度,依据相似度来确定最相似的模板库标题,将该最相似的模板库标题所属档案类别作为待分类档案标题类别进行输出。2.根据权利要求1所述的数字化人事档案标题自动匹配分类方法,其特征在于,利用现有收集到的人事档案进行分类,依据其中每份人事档案标题及所属档案类别的映射关系来建立档案类别模板库。3.根据权利要求1所述的数字化人事档案标题自动匹配分类方法,其特征在于,通过分词编码来制作语料库中,首先,利用jieba分词库并通过构造的前缀词典来将档案类别模板库中的档案标题进行切分,利用档案标题切分后的分词项构成向量空间,列出所有分词项并进行编码,然后,依据分词项及其编码来制作语料库。4.根据权利要求1或3所述的数字化人事档案标题自动匹配分类方法,其特征在于,语料库中每个元素表示为(分词项编码,词频)。5.根据权利要求1所述的数字化人事档案标题自动匹配分类方法,其特征在于,利用TFIDF模型计算每个分词权重值的公式表示为:其中,m为特征词t在档案标题文本中出现的个数,s为模板库中档案标题的总数量,n为包含特征词t的档案标题文本个数,N为档案标题数量。6.根据权利要求1所述的数字化人事档案标题自动匹配分类方法,其特征在于,针对待分类档案标题信息,首先,利用OCR文字识别技术来提取待分类档案标题文本,然后,对提取到的标题文本进行预处理,将文本字符类型统一为档案类别模板库中的字符类型;接着,对预处理后的标题文本进行...

【专利技术属性】
技术研发人员:周兵娄雯欣李京王培森王俊淇李凯江
申请(专利权)人:河南郑大道可信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1