System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及人工智能自然语言处理领域,具体是涉及一种测评报告实体抽取模型的二次训练方法及相关设备。
技术介绍
1、随着互联网近年来的迅猛发展,其已深深嵌入了日常生活的每一个角落,赋予普通人前所未有的能力,即使身处家中,也能与世界无缝连接。然而,网络的无边界特性同样吸引了不法分子的注意,其利用技术漏洞实施网络攻击,严重扰乱了网络秩序。自1981年第一款计算机病毒“elk cloner”问世以来,网络威胁形式经历了数次迭代升级,其复杂性和不可预知性对全球信息安全构成了严峻挑战。为了应对这一危机,保护内部机密免遭泄露,各行各业的机构纷纷提升了网络安全意识,并持续增加在网络安全防护上的投入。在这个背景下,等级保护测评服务应运而生,它不仅成为了大型企业网络安全策略的重要组成部分,也是衡量企业网络安全水平的关键指标。该服务通过对企业的信息基础设施进行全面的安全评估,帮助企业识别风险、加固防御体系,从而有效抵御潜在的网络威胁,保障业务连续性和数据安全。综上所述,网络安全已成为数字化时代不可或缺的一环,等级保护测评服务作为一项专业且必要的措施,对于维护企业乃至整个社会的信息安全具有重要意义。
2、测评服务主要包括两大环节:第一步是测评师亲临现场,对内部服务器和计算机进行详尽的分析与检查;第二步是撰写分析报告,总结分析结果并提出建议。目前,通过测评师来编写与审核测评报告,既耗费大量时间,又难以稳定保证准确率。此外,公司管理层期望通过深入分析报告来指导项目定位和投入方向,但面对海量的冗余数据,这项工作的推进显得尤为困难。
3、
技术实现思路
1、本实施例提供了一种测评报告实体抽取模型的二次训练方法及相关设备,探究如何提高现有技术中预训练模型在抽取测评报告实体时的识别率。
2、第一方面,本专利技术提供了一种测评报告实体抽取模型的二次训练方法,包括:
3、初始化预训练模型的二次训练环境;其中,所述二次训练环境安装有python语言依赖库;
4、接收所述测评报告的原始文本;
5、对所述测评报告的原始文本进行预处理,得到json格式文本集;
6、根据json格式文本集,对所述预训练模型进行二次训练,得到可用于所述测评报告实体抽取的二次训练模型。
7、在其中的一些实施例中,对所述测评报告的原始文本进行预处理,得到json格式文本集,包括:
8、对所述测评报告的原始文本进行语义分割,得到独立语句;
9、对所述独立语句进行文本清洗,得到清洗后语句;
10、提取并标注所述清洗后语句中的实体,得到标注后语句;
11、根据标注后语句,创建标注数据集;
12、将所述标注数据集转换为json格式文本集。
13、在其中的一些实施例中,对所述测评报告的原始文本进行语义分割,得到独立语句,包括:
14、运行python语言的文件读取模块,加载所述测评报告的原始文本;
15、对加载后的所述测评报告的原始文本应用正则表达式,识别并分割单断句符,得到过渡文本;
16、对所述过渡文本再次应用正则表达式,识别并分割英文省略符,得到所述独立语句。
17、在其中的一些实施例中,对所述独立语句进行文本清洗,得到清洗后语句,包括:
18、应用python语言依赖库的大小写转换函数,将所述独立语句中的单词字母转换为小写;所述大小写转换函数可使用python字符串的lower() 函数;
19、应用python语言依赖库的拼写修正函数,识别并修正所述独立语句中的错误拼写;所述拼写修正函数可使用autocorrect库中的修正函数;
20、应用python语言依赖库的文本解析函数,对包含html标签的所述独立语句进行文本解析;在所述文本解析后,应用文本提取函数提取纯文本以移除html标签;所述文本解析函数可使用lxml库中的html.fromstring()函数,所述文本提取函数可使用.itertext()函数;
21、应用python语言依赖库的识别替换函数,识别所述独立语句中的特殊字符,并将其替换为空格;所述识别替换函数可使用正则表达式的正则表达式的re.sub()函数;
22、启动spacy库的自然语言处理流程,排除停用词,得到所述清洗后语句;所述spacy库的自然语言处理流程为:应用nlp对象解析所述独立语句,遍历生成的doc对象中每个token,执行not token.is_stop条件判断,排除停用词,得到所述清洗后语句。
23、在其中的一些实施例中,提取并标注所述清洗后语句中的实体,得到标注后语句,包括:
24、应用spacy库的ner实体识别模块,提取所述清洗后语句中的实体,并使用ner实体识别模块对提取后实体的类型和位置坐标进行标注,得到标注后语句。
25、在其中的一些实施例中,根据标注后语句,创建标注数据集,包括:
26、为每个所述标注后语句,创建一条记录;其中,所述记录包含标注后语句的句子文本、实体列表以及每个实体的类型和位置坐标;
27、收集所有标注后语句的对应记录,得到所述标注数据集。
28、在其中的一些实施例中,将所述标注数据集转换为json格式文本集,包括:
29、创建匹配记录格式的第一字段结构和匹配实体格式的第二字段结构;
30、根据所述第一字段结构,为每条所述记录创建json对象,所述json对象包含句子文本和实体列表;
31、根据所述第二字段结构,为每个实体列表中的实体创建json子对象,所述json子对象包含实体类型和位置坐标;
32、将包含有第一字段结构和第二字段结构的所有记录封装到一个json数组中,得到所述json格式文本集。
33、在其中的一些实施例中,根据json格式文本集,对所述预训练模型进行二次训练,得到可用于所述测评报告实体抽取的二次训练模型,包括:
34、预设所述预训练模型的超参数,得到预设后模型;
35、对所述预设后模型,使用json格式文本集进行迭代训练。
36、在其中的一些实施例中,对所述预设后模型,使用json格式文本集进行迭代训练,包括:
37、读取包含句子文本和实体标签的json格式文本集;
38、将json格式文本集中的句子文本转换为词嵌入表示作为特征变量;
39、将json格式文本集中的实体标签转换为bio编本文档来自技高网...
【技术保护点】
1.一种测评报告实体抽取模型的二次训练方法,其特征在于,包括:
2.根据权利要求1所述的一种测评报告实体抽取模型的二次训练方法,其特征在于,对所述测评报告的原始文本进行预处理,得到json格式文本集,包括:
3.根据权利要求2所述的一种测评报告实体抽取模型的二次训练方法,其特征在于,对所述测评报告的原始文本进行语义分割,得到独立语句,包括:
4.根据权利要求2所述的一种测评报告实体抽取模型的二次训练方法,其特征在于,对所述独立语句进行文本清洗,得到清洗后语句,包括:
5.根据权利要求2所述的一种测评报告实体抽取模型的二次训练方法,其特征在于,提取并标注所述清洗后语句中的实体,得到标注后语句,包括:
6.根据权利要求2所述的一种测评报告实体抽取模型的二次训练方法,其特征在于,根据标注后语句,创建标注数据集,包括:
7.根据权利要求2所述的一种测评报告实体抽取模型的二次训练方法,其特征在于,将所述标注数据集转换为JSON格式文本集,包括:
8.根据权利要求2所述的一种测评报告实体抽取模型的二次训练方法
9.根据权利要求8所述的一种测评报告实体抽取模型的二次训练方法,其特征在于,对所述预设后模型,使用json格式文本集进行迭代训练,包括:
10.一种测评报告实体抽取模型的二次训练系统,其特征在于,包括:
...【技术特征摘要】
1.一种测评报告实体抽取模型的二次训练方法,其特征在于,包括:
2.根据权利要求1所述的一种测评报告实体抽取模型的二次训练方法,其特征在于,对所述测评报告的原始文本进行预处理,得到json格式文本集,包括:
3.根据权利要求2所述的一种测评报告实体抽取模型的二次训练方法,其特征在于,对所述测评报告的原始文本进行语义分割,得到独立语句,包括:
4.根据权利要求2所述的一种测评报告实体抽取模型的二次训练方法,其特征在于,对所述独立语句进行文本清洗,得到清洗后语句,包括:
5.根据权利要求2所述的一种测评报告实体抽取模型的二次训练方法,其特征在于,提取并标注所述清洗后语句中的实体,得到标注后语句,包括:
6.根...
【专利技术属性】
技术研发人员:宋超,武建双,孙宝,刘洋,王雅莉,刘京,许建锋,
申请(专利权)人:合肥天帷信息安全技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。