System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及档案信息管理,更具体地说,本专利技术涉及电子档案信息智能管理系统。
技术介绍
1、电子档案信息智能管理系统是一种基于数字化的档案管理系统,电子档案是指具有凭证、查考和保存价值并进行归档保存的电子文件,电子文件是国家机构、社会组织或个人在履行其法定职责或处理事务过程中,通过计算机等电子设备形成、办理、传输和存储的数字格式的各种信息记录。电子文件由内容、结构和背景组成。
2、现有技术存在以下不足:目前的电子档案信息智能管理系统对于流传过来的电子档案是否需要进行归档以及归档鉴定标准主要是通过经验丰富的档案工作者将标准归档范围相关文件拆分为若干关键词,形成过滤规则,并根据关键词进行匹配,若档案标题中包含相应的关键词,则认为匹配通过,且只有在标题全部包含关键词时,才会触发匹配通过流程,而对于非结构化的文档,由于其没有明确的标题格式,例如,它们可能只是简单的文本文件。在这种情况下,系统可能错误地将这些文档排除在需要归档的范围之外,即使它们包含了符合标准的内容。随着时间的推移和处理的档案数量增加,这些问题可能会导致系统的漏洞不断累积,引发系统使用者的不满。
3、为了解决上述缺陷,现提供一种技术方案。
技术实现思路
1、为了克服现有技术的上述缺陷,本专利技术的实施例提供电子档案信息智能管理系统,以解决上述
技术介绍
中提出的问题。
2、为实现上述目的,本专利技术提供如下技术方案:
3、电子档案信息智能管理系统,包括档案分类模块、归档鉴定模块
4、流转文件库,用于接收各个部门传输的电子档案;
5、档案分类模块,用于将流转文件库传输的电子档案根据预设的划分标准划分为结构性文档和非结构性文档,并将分类后的电子档案传输至归档鉴定模块;
6、归档鉴定模块,用于根据分类后的电子档案采取不同的鉴定方式判断其是否需要进行归档,将需要归档的电子档案传输至档案整编模块,将不需要归档的电子档案传输至散文件资料库;
7、人工鉴定模块:用于对首次归档鉴定失败的非结构性文档进行二次鉴定,通过工作人员对文档进行关键词的检索、建立主题,并判断是否需要归档;
8、档案整编模块,用于对鉴定完毕需要进行归档的电子档案进行整编操作,将整编后的电子档案传输至档案加密模块;
9、档案加密模块,用于对整编后的电子档案进行加密操作,确保电子档案在被借阅传输的过程中即使遭到网络上的窃取也不会被获取其文本信息,将加密后的电子档案传输至检索摘要生成模块;
10、检索摘要生成模块,用于对加密后的电子档案基于关键词生成电子档案摘要,以便档案工作者能够快速地获取档案的主要内容,将生成摘要的电子档案传输至电子档案库;
11、电子档案库,用于存储需要进行归档的电子档案库以及用于借阅流通的电子档案库;
12、散文件资料库,用于存储不需要进行归档的电子档案库,且需定期对其进行清理操作。
13、在一个优选的实施方式中,归档鉴定模块,用于根据分类后的电子档案采取不同的鉴定方式判断其是否需要进行归档包括如下步骤:
14、结构性文档:
15、人工拆分关键词:对于结构性文档首先由经验丰富的档案工作者将标准归档范围相关文件拆分为若干归档范围关键词;
16、添加鉴定规则:根据归档范围关键词进行匹配,若档案标题中包含相应的归档范围关键词,则认为匹配通过,且只有在标题全部包含归档范围关键词时,才会触发匹配通过流程;
17、归档鉴定匹配:将电子档案标题与鉴定规则进行归档范围关键词匹配,若匹配成功,则将其传输至档案整编模块;若匹配失败,则将其传输至散文件资料库;
18、非结构性文档:
19、文本提取:首先通过文本识别(ocr)技术对文档中的文本进行扫描,实现文本的提取;
20、关键词提取:根据基于二分类算法的关键词分类模型来从文本中提取出文档关键词;
21、主题建模分析:通过主题建模技术并根据文档关键词对文档进行建模分析,实现文档主题的提取;
22、添加鉴定规则:根据归档范围关键词进行匹配,若提取的主题中包含相应的归档范围关键词,则认为匹配通过,且只有在提取的主题全部包含归档范围关键词时,才会触发匹配通过流程;
23、归档鉴定匹配:将电子档案提取的主题与鉴定规则进行归档范围关键词匹配,若匹配成功,则将其传输至档案整编模块;若匹配失败,则将其传输至人工鉴定模块。
24、在一个优选的实施方式中,关键词提取:根据基于二分类算法的关键词分类模型来从文本中提取出文档关键词还包括如下步骤:
25、数据获取、数据清洗、关键词标记、词向量构建、基于词向量的二分类模型构建。
26、在一个优选的实施方式中,词向量构建完成后,通过获取词向量集合中每两篇文档的词嵌入距离信息和词向量维度信息,其中词嵌入距离信息包括词嵌入距离,词向量维度信息包括词向量最大维度差值,将词嵌入距离、词向量最大维度差值通过加权求和计算得到文档筛选指数;
27、将文档筛选指数与文档筛选指数阈值进行比较;
28、若文档筛选指数大于等于文档筛选指数阈值,则将两篇文档中词向量最大维度较低的一篇进行删除;
29、筛选后的词向量作为基于词向量的二分类模型的训练数据。
30、在一个优选的实施方式中,将训练数据进行预处理分别输入分类算法进行训练预测,通过获取算法的训练消耗信息和训练结果反馈信息分别对算法的性能进行综合评估;
31、训练消耗信息包括异常时间复杂度系数,训练结果反馈信息包括训练结果f1值;
32、将异常时间复杂度系数、训练结果f1值通过加权求和计算得到算法性能评估指数;根据算法性能评估指数对选定的算法由大到小进行排序,得到投入使用的算法使用序列,并将算法使用序列首位的算法作为初次使用的分类算法,后续算法作为备用算法。
33、在一个优选的实施方式中,在系统实际运行的过程中按预设的时间间隔对初次使用的分类算法的运行状态进行跟踪评估,将后续跟踪评估得到的算法性能评估指数与算法性能评估指数参考阈值进行比较;
34、若算法性能评估指数小于算法性能评估指数参考阈值,则用算法使用序列中的次序算法替换掉正在使用的算法,并将替换掉的算法进行重新训练加以完善。
35、本专利技术的技术效果和优点:
36、1、本专利技术通过对各个部门流转过来的电子档案进行分类,将其划分为结构性文档以及非结构性文档,对于不同的结构性文档分别采用不同处理方式对电子档案进行鉴定,减少电子档案在进行归档鉴定时的因无法处理非结构文档带来的误差,结构性文档可以根据预定的规则快速归档,而非结构性文档可以采取更复杂的处理方式,但不会影响结构性文档的处理速度,并通过对整编后的电本文档来自技高网...
【技术保护点】
1.电子档案信息智能管理系统,其特征在于:包括档案分类模块、归档鉴定模块、人工鉴定模块、档案整编模块、档案加密模块、检索摘要生成模块、流转文件库、电子档案库、散文件资料库,各个模块之间通过信号连接;
2.根据权利要求1所述的电子档案信息智能管理系统,其特征在于:
3.根据权利要求2所述的电子档案信息智能管理系统,其特征在于:关键词提取:根据基于二分类算法的关键词分类模型来从文本中提取出文档关键词还包括如下步骤:
4.根据权利要求3所述的电子档案信息智能管理系统,其特征在于:词向量构建完成后,通过获取词向量集合中每两篇文档的词嵌入距离信息和词向量维度信息,其中词嵌入距离信息包括词嵌入距离,词向量维度信息包括词向量最大维度差值,将词嵌入距离、词向量最大维度差值通过加权求和计算得到文档筛选指数;
5.根据权利要求4所述的电子档案信息智能管理系统,其特征在于:将训练数据进行预处理分别输入分类算法进行训练预测,通过获取算法的训练消耗信息和训练结果反馈信息分别对算法的性能进行综合评估;
6.根据权利要求5所述的电子档案信息智能管理系
...【技术特征摘要】
1.电子档案信息智能管理系统,其特征在于:包括档案分类模块、归档鉴定模块、人工鉴定模块、档案整编模块、档案加密模块、检索摘要生成模块、流转文件库、电子档案库、散文件资料库,各个模块之间通过信号连接;
2.根据权利要求1所述的电子档案信息智能管理系统,其特征在于:
3.根据权利要求2所述的电子档案信息智能管理系统,其特征在于:关键词提取:根据基于二分类算法的关键词分类模型来从文本中提取出文档关键词还包括如下步骤:
4.根据权利要求3所述的电子档案信息智能管理系统,其特征在于:词向量构建完成后,通过获取词向量集合中每两篇文档的词嵌入距离信息和词...
【专利技术属性】
技术研发人员:许潇文,冯蕾,杨锋,杨正军,宋林霖,满鑫,赵阳阳,李莹,刘霞,李亚,
申请(专利权)人:中国标准化研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。