System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及电数字数据处理,尤其涉及一种生产安全事故责任追究信息抽取方法,还涉及一种系统。
技术介绍
1、目前,生产安全事故的责任追究分析多由人工阅读的方法对文本中描述的责任主体和处理建议等信息进行识别,该方法费时费力,而且抽取结果会受到个人主观和心理性等因素的影响。基于此,近年来,transformer模型凭借强大的上下文理解能力、适合多任务学习、预训练优势、处理复杂文本结构等特点,逐渐替代人工阅读方法以及循环神经网络和卷积神经网络,成为自然语言处理模型的标配。
技术实现思路
1、专利技术人通过研究发现:信息抽取作为经典的自然语言处理任务,主要研究内容有实体抽取、关系抽取、事件抽取。利用基于transformer模型的信息抽取技术获取关键文本信息已在电力、医学、气象等领域得到应用,但在生产安全事故责任追究方面尚无实例研究,研究如何抽取生产安全事故责任追究信息对强化和落实生产经营单位主体责任与政府监管责任具有重要意义。
2、本申请的目的在于提供一种生产安全事故责任追究信息抽取方法及系统,通过基于标注数据以及预训练transformer架构的ernie模型,构建基于基座模型ernie的多任务信息抽取模型,来解决现有技术无法提供一种可以提高生产安全事故责任追究信息的提取效率和准确性方法以及系统的技术问题。
3、据本申请的一个方面,提供一种生产安全事故责任追究信息抽取方法,该方法由处理器执行,包括:
4、获取目标规则规定以及目标生产安全事故调查报告集,获
5、对生产安全事故责任关联数据集执行数据清洗,获得系统化责任关联数据集;
6、对系统化责任关联数据集基于标注工具执行标注;
7、基于标注数据以及预训练transformer架构的ernie模型,构建基于基座模型ernie的多任务信息抽取模型;
8、优化多任务信息抽取模型;
9、使用权重衰减控制模型正则化,并设定早停法,执行生产安全事故责任追究信息抽取。
10、在一些实施例中,所述的对生产安全事故责任关联数据集执行数据清洗,获得系统化责任关联数据集,具体为:通过整理、总结不同类型目标规则规定的处分方式以及表述内容,对生产安全事故责任关联数据集至少执行数据的筛选、剔除以及分类,获得系统化责任关联数据集。
11、在一些实施例中,所述的对系统化责任关联数据集基于标注工具执行标注,具体为:
12、基于label studio对目标生产安全事故责任关联数据集的小样本数据进行标注,提取关键信息。
13、在一些实施例中,所述的基于label studio对目标生产安全事故责任关联数据集的小样本数据进行标注,具体为:
14、配置命名实体识别的标注格式,对生产安全事故责任人进行人名标注,对单位和职务进行企业或政府机构的标注;
15、基于系统化责任关联数据集,对处分信息进行标注,对实体之间的关系进行标注。
16、在一些实施例中,所述的基于标注数据以及预训练transformer架构的ernie模型,构建基于基座模型ernie的多任务信息抽取模型,具体为:
17、将标注的系统化责任关联数据集按比例分为训练集、验证集以及测试集,其中训练集、验证集以及测试集的比例为:7:1.5:1.5;
18、基于训练集,获得基于基座模型ernie的多任务信息抽取模型。
19、在一些实施例中,所述的优化多任务信息抽取模型,具体为:
20、基于优化器,配置网格搜索方法,至少执行调整学习率以及批次大小;
21、基于验证集执行评估,获取最佳参数;
22、至少配置同义词替换以及随机遮盖方法对训练数据执行增强,
23、在一些实施例中,所述的使用权重衰减控制模型正则化,并设定早停法,执行生产安全事故责任追究信息抽取,具体为:
24、使用权重衰减控制模型正则化,并设定早停法,当验证集损失在连续若干epoch内未改善时停止训练。
25、据本申请的另一个方面,提供一种生产安全事故责任追究信息抽取系统,该系统由处理器控制,包括:
26、数据获取模块,所述数据获取模块用于获取目标规则规定以及目标生产安全事故调查报告集,获得目标生产安全事故责任关联数据集;
27、文本预处理模块,所述文本预处理模块用于对生产安全事故责任关联数据集执行数据清洗,获得系统化责任关联数据集;
28、信息抽取模块,所述信息抽取模块用于对系统化责任关联数据集基于标注工具执行标注,基于标注数据以及预训练transformer架构的ernie模型,构建基于基座模型ernie的多任务信息抽取模型;
29、执行模块,所述执行模块用于优化多任务信息抽取模型,使用权重衰减控制模型正则化,并设定早停法,执行生产安全事故责任追究信息抽取;
30、结果输出模块,所述结果输出模块用于展示抽取结果。
31、本申请与现有技术相比,具有如下的优点和有益效果:本申请的方法利用基座模型ernie的多任务信息抽取模型,进行生产安全事故报告的文本分析和信息抽取,通过模型微调,能够自动识别事故报告中的责任人、单位和处分等信息,并进行结构化输出;同时,本申请的系统能够处理各种复杂的语言模式,尤其是事故报告中存在的长文本、责任叠加等情况。基于此,本申请具有强大上下文理解能力、自动高效、适应复杂场景、良好迁移学习能力、结构化输出等特点。
本文档来自技高网...【技术保护点】
1.一种生产安全事故责任追究信息抽取方法,该方法由处理器执行,其特征在于,包括:
2.根据权利要求1所述的抽取方法,其特征在于,所述的对生产安全事故责任关联数据集执行数据清洗,获得系统化责任关联数据集,具体为:通过整理、总结不同类型目标规则规定的处分方式以及表述内容,对生产安全事故责任关联数据集至少执行数据的筛选、剔除以及分类,获得系统化责任关联数据集。
3.根据权利要求1所述的抽取方法,其特征在于,所述的对系统化责任关联数据集基于标注工具执行标注,具体为:
4.根据权利要求3所述的抽取方法,其特征在于,所述的基于Label Studio对目标生产安全事故责任关联数据集的小样本数据进行标注,具体为:
5.根据权利要求4所述的抽取方法,其特征在于,所述的基于标注数据以及预训练Transformer架构的ERNIE模型,构建基于基座模型ERNIE的多任务信息抽取模型,具体为:
6.根据权利要求1所述的抽取方法,其特征在于,所述的优化多任务信息抽取模型具体为:
7.根据权利要求6所述的抽取方法,其特征在于,所述的使
8.一种生产安全事故责任追究信息抽取系统,该系统由处理器控制,其特征在于,包括:
...【技术特征摘要】
1.一种生产安全事故责任追究信息抽取方法,该方法由处理器执行,其特征在于,包括:
2.根据权利要求1所述的抽取方法,其特征在于,所述的对生产安全事故责任关联数据集执行数据清洗,获得系统化责任关联数据集,具体为:通过整理、总结不同类型目标规则规定的处分方式以及表述内容,对生产安全事故责任关联数据集至少执行数据的筛选、剔除以及分类,获得系统化责任关联数据集。
3.根据权利要求1所述的抽取方法,其特征在于,所述的对系统化责任关联数据集基于标注工具执行标注,具体为:
4.根据权利要求3所述的抽取方法,其特征在于,所述的基于label studio对目标...
【专利技术属性】
技术研发人员:聂方超,周洋,周建新,赵双,李琪,李晓龙,王金莉,张媛,王佳凯,周敏琪,
申请(专利权)人:中国安全生产科学研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。