System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于知识增强预训练模型的命名实体识别方法及系统技术方案_技高网

一种基于知识增强预训练模型的命名实体识别方法及系统技术方案

技术编号:44411281 阅读:4 留言:0更新日期:2025-02-25 10:25
本发明专利技术公开了一种基于知识增强预训练模型的命名实体识别方法及系统,涉及命名实体识别技术领域,为了解决现有的训练模型无法更准确地进行命名实体识别的问题。本发明专利技术通过引入知识增强预训练模型,模型能够学习到更多的先验知识和语义信息,从而提升对未见过的文本数据的泛化能力,通过详细的性能评估和优化过程,模型的可解释性得到了增强,有助于理解模型的工作机制,从而更好地调整和优化模型,经过优化的模型在泛化能力上也有所提升,能够更好地适应不同的应用场景和数据集,监控日志的生成使得性能分析和问题追踪更加便捷,有助于持续优化模型性能,能够根据目标应用终端上的用户反馈进行标准知识增强训练模型的改进。

【技术实现步骤摘要】

本专利技术涉及命名实体识别,具体为一种基于知识增强预训练模型的命名实体识别方法及系统


技术介绍

1、命名实体识别是自然语言处理领域的一项任务,目的是从文本中识别出具有特定意义或指代性强的实体,如人名、地名、组织名、时间表达式、金额等。

2、公开号为cn116451764a的中国专利申请文献公开了一种基于查询集合的实体识别模型训练方法、装置、设备及存储介质,主要通过实体查询集合为固定的可学习向量集合,用于将命名实体识别视为一个序列到集合的任务,然后通过对所述实体查询集合中的各个实体查询向量表示进行自注意力权重计算,得到第一增强向量表达集合,可以捕获实体之间的依赖关系,避免最终输出实体重复,冗余等问题,然后通过对所述实体查询集合与所述文本向量进行交叉注意力权重计算,得到第二增强向量表达集合,可以让所述实体查询集合和文本向量进行交互,优化所述实体查询集合,使得所述实体识别模型能够得到更加丰富的数据信息,得到更加准确的实体识别结果,上述专利申请文献虽然解决了模型训练的问题,但是在实际操作中还存在以下问题:

3、1.没有根据文本数据进行针对性的图谱构建和模型选择,从而导致文本数据进行模型训练时的准确性降低。

4、2.没有将构建的模型和文本数据进行有效的嵌入,从而导致模型无法根据文本内容进行更佳的命名实体识别。

5、3.没有在应用终端上对构建完成的训练模型进行实时监控,从而导致无法进一步了解训练模型的实际应用情况。


技术实现思路

1、本专利技术的目的在于提供一种基于知识增强预训练模型的命名实体识别方法及系统,通过引入知识增强预训练模型,模型能够学习到更多的先验知识和语义信息,从而提升对未见过的文本数据的泛化能力,通过详细的性能评估和优化过程,模型的可解释性得到了增强,有助于理解模型的工作机制,从而更好地调整和优化模型,经过优化的模型在泛化能力上也有所提升,能够更好地适应不同的应用场景和数据集,监控日志的生成使得性能分析和问题追踪更加便捷,有助于持续优化模型性能,能够根据目标应用终端上的用户反馈进行标准知识增强训练模型的改进,可以解决现有技术中的问题。

2、为实现上述目的,本专利技术提供如下技术方案:

3、一种基于知识增强预训练模型的命名实体识别方法,包括如下步骤:

4、s1:文本数据采集处理:从数据库中将文本数据进行收集,文本数据收集后进行数据处理,数据处理后得到目标文本数据;

5、s2:知识库构建:从知识库中将知识信息源进行确认,将确认的知识信息源与目标文本数据进行知识图谱构建,知识图谱构建后得到目标知识图谱数据;

6、s3:训练模型选择和处理:根据命名实体识别规则将训练模型进行选择,并对选择的训练模型进行调整,调整后得到识别训练模型;

7、s4:知识增强模型训练:将目标知识图谱数据嵌入识别训练模型,并对嵌入目标知识图谱数据的识别训练模块进行模型训练,模型训练后得到知识增强模型;

8、s5:命名实体识别:将待识别文本输入至知识增强模型中进行命名实体模拟识别,并对命名实体模拟识别结果进行识别结果处理,识别结果处理后得到命名实体数据;

9、s6:增强模型评估和优化:将命名实体数据进行性能评估,根据性能评估结果对知识增强模型进行优化调整。

10、优选的,针对s1中从数据库中将文本数据进行收集,文本数据收集后进行数据处理,包括:

11、利用数据访问接口从数据库中收集文本数据;

12、将收集的文本数据进行数据清洗,数据清洗后进行数据标准化处理;

13、根据命名实体识别规则将文本数据中与目标领域相关的数据进行筛选,命名实体识别规则从数据库中进行调取;

14、并将筛选出来的与目标领域相关的数据进行数据标记;

15、数据标记完成后得到目标文本数据。

16、优选的,针对s2中从知识库中将知识信息源进行确认,将确认的知识信息源与目标文本数据进行知识图谱构建,包括:

17、从知识库中将知识信息源进行确认,并将知识信息源中的关键实体、关系和属性数据利用自然语言处理技术进行提取;

18、将目标文本数据利用命名实体识别技术进行实体和概念的识别;

19、将目标文本数据中识别的实体和概念与知识信息源中提取的关键实体、关系和属性数据进行数据对齐;

20、数据对齐后建立实体之间的映射关系;

21、利用知识图谱构建技术将实体和映射关系进行知识图谱构建;

22、将构建的知识图谱进行质量评估,并根据评估结果对构建的知识图谱进行优化,优化包括添加缺失的实体和关系、修正错误的数据和去除冗余信息;

23、构建的知识图谱优化后得到目标知识图谱数据。

24、优选的,设置目标知识图谱数据的刷新频率,包括:

25、提取所述目标知识图谱数据的实体个数;

26、提取每个实体对应的关系数量;

27、提取每个实体的每条关系对应的关联系数;

28、利用每个实体所对应的关系数量和每个实体的每条关系对应的关联系数获取每个实体对应的关系强度系数;

29、其中,所述关系强度系数通过如下公式获取:

30、

31、其中,s表示关系强度系数;n表示每个实体所对应的关系数量;gi表示每个实体所对应的第i个关系的关联系数;n表示所述目标知识图谱数据所包含的关系数量总数;gc表示预设的关联系数参考值;gmax表示每个实体所对应的关联系数最大值;gzmax表示目标知识图谱数据所包含的关联系数最大值;gz表示目标知识图谱数据所包含的关联系数中间值;

32、将所述关系强度系数与预设的强度系数阈值进行比较;

33、当关系强度系数超过预设的强度系数阈值的实体个数超过预设的个数阈值时,则对目标知识图谱数据的刷新频率进行设置,并按照设置后的刷新频率对所述目标知识图谱数据进行刷新;

34、当关系强度系数超过预设的强度系数阈值的实体个数未超过预设的个数阈值时,则利用预设的初始刷新频率对所述目标知识图谱数据进行刷新。

35、优选的,当关系强度系数超过预设的强度系数阈值的实体个数超过预设的个数阈值时,则对目标知识图谱数据的刷新频率进行设置,包括:

36、将超过预设的强度系数阈值的实体作为目标实体;

37、将未超过预设的强度系数阈值的实体作为观测实体;

38、提取所述目标实体对应的关系强度系数;

39、提取所述观测实体对应的关系强度系数;

40、利用所述目标实体对应的关系强度系数和观测实体对应的关系强度系数获取频率调节系数;

41、其中,所述频率调节系数通过如下公式获取:

42、

43、其中,j表示频率调节系数;sb表示目标知识图谱数据的所有实体对应的关系强度系数标准差;smb表示目标实体对应的本文档来自技高网...

【技术保护点】

1.一种基于知识增强预训练模型的命名实体识别方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于知识增强预训练模型的命名实体识别方法,其特征在于,针对S1中从数据库中将文本数据进行收集,文本数据收集后进行数据处理,包括:

3.根据权利要求2所述的一种基于知识增强预训练模型的命名实体识别方法,其特征在于,针对S2中从知识库中将知识信息源进行确认,将确认的知识信息源与目标文本数据进行知识图谱构建,包括:

4.根据权利要求3所述的一种基于知识增强预训练模型的命名实体识别方法,其特征在于,设置目标知识图谱数据的刷新频率,包括:

5.根据权利要求4所述的一种基于知识增强预训练模型的命名实体识别方法,其特征在于,当关系强度系数超过预设的强度系数阈值的实体个数超过预设的个数阈值时,则对目标知识图谱数据的刷新频率进行设置,包括:

6.根据权利要求3所述的一种基于知识增强预训练模型的命名实体识别方法,其特征在于,针对S3中根据命名实体识别规则将训练模型进行选择,并对选择的训练模型进行调整,包括:

7.根据权利要求6所述的一种基于知识增强预训练模型的命名实体识别方法,其特征在于,针对S4中将目标知识图谱数据嵌入识别训练模型,并对嵌入目标知识图谱数据的识别训练模块进行模型训练,包括:

8.根据权利要求7所述的一种基于知识增强预训练模型的命名实体识别方法,其特征在于,针对S5中将待识别文本输入至知识增强模型中进行命名实体模拟识别,并对命名实体模拟识别结果进行识别结果处理,包括:

9.根据权利要求8所述的一种基于知识增强预训练模型的命名实体识别方法,其特征在于,针对S6中将命名实体数据进行性能评估,根据性能评估结果对知识增强模型进行优化调整,包括:

10.一种基于知识增强预训练模型的命名实体识别系统,应用在如权利要求9所述的基于知识增强预训练模型的命名实体识别方法中,其特征在于,包括:

...

【技术特征摘要】

1.一种基于知识增强预训练模型的命名实体识别方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于知识增强预训练模型的命名实体识别方法,其特征在于,针对s1中从数据库中将文本数据进行收集,文本数据收集后进行数据处理,包括:

3.根据权利要求2所述的一种基于知识增强预训练模型的命名实体识别方法,其特征在于,针对s2中从知识库中将知识信息源进行确认,将确认的知识信息源与目标文本数据进行知识图谱构建,包括:

4.根据权利要求3所述的一种基于知识增强预训练模型的命名实体识别方法,其特征在于,设置目标知识图谱数据的刷新频率,包括:

5.根据权利要求4所述的一种基于知识增强预训练模型的命名实体识别方法,其特征在于,当关系强度系数超过预设的强度系数阈值的实体个数超过预设的个数阈值时,则对目标知识图谱数据的刷新频率进行设置,包括:

6.根据权利要求3所述的一种基于知识增强预训练模型的命名...

【专利技术属性】
技术研发人员:何志昭陈志敏杨文锋
申请(专利权)人:厦门数据谷信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1