System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文本标签挖掘和实体抽取方法、装置及电子设备制造方法及图纸_技高网

文本标签挖掘和实体抽取方法、装置及电子设备制造方法及图纸

技术编号:41682767 阅读:5 留言:0更新日期:2024-06-14 15:35
本发明专利技术公开了一种文本标签挖掘和实体抽取方法、装置及电子设备。涉及人工智能及数据信息处理领域。其中,该方法包括:基于多时点双重差分法的知识库后验器和细粒度随机森林分类器,以知识库词典交叉后验,建立半监督训练克服过拟合,解决标签挖掘和实体抽取的数据打标高成本和低效率,促进人工智能在科技金融领域实践应用,对交叉融合业务理解更智能,主动识别创新要素和创新行为。以细粒度的知识抽取,构建科学知识资源底座,建立高质量语料库和基础科学数据集,解决数据要素共享与流通场景下领域强相关的标注数据缺乏的难题。

【技术实现步骤摘要】

本专利技术涉及人工智能及数据信息处理领域,具体而言,涉及一种文本标签挖掘和实体抽取方法、装置及电子设备


技术介绍

1、相关技术中的标签挖掘和实体抽取技术方案如命名实体识别存在一定的局限性,相关技术中通常使用命名实体识别模型(name entity recognition,简称ner)模型,通用ner仍存在很大的局限性,目前业内通用ner模型的发展虽然较为成熟,大量优质模型在公开数据集上已经拥有非常优秀的表现,但在工业领域仍存在很多未解决的问题。

2、在直接使用通用场景的ner模型应对数据稀缺的情况,进行处理时往往难以获得较好效果。在无高质量数据集的前提下,使用少量数据实现高性能模型,是自然语言处理项目面临的最大困难。而且其具备强领域相关性,对于不是强领域的文本,识别效果不是很理想。

3、针对上述的问题,目前尚未提出有效的解决方案。


技术实现思路

1、本专利技术实施例提供了一种文本标签挖掘和实体抽取方法、装置及电子设备,以至少解决相关技术中提取预定文本中实体对应标签的准确性较低的技术问题。

2、根据本专利技术实施例的一个方面,提供了一种文本标签挖掘和实体抽取方法,包括:获取预定文本;将预定文本输入至知识库后验器的实体抽取模块中,得到多个目标词,其中,所述知识库后验器已预先进行知识库构建,所述知识库中包括已挖掘的多个标签,所述知识库后验器为对预定模型进行训练得到的,所述预定模型为从多个初始模型中选取出的,所述多个初始模型具备不同的模型架构;将所述多个目标词输入至所述知识库后验器的标签挖掘模块中,挖掘出与所述多个目标词分别对应的目标标签;在所述多个目标词分别对应的目标标签中包括未知标签的情况下,将所述多个目标词,以及所述多个目标词分别对应的目标标签输入至多个细粒度随机森林分类器中,得到与所述多个细粒度随机森林分类器分别对应的预测标签结果,其中,所述多个细粒度随机森林分类器具备不同的分类器参数;依据多个预测标签结果,得到所述未知标签对应的已知标签。

3、可选地,在所述分别对应的目标标签中包括未知标签的情况下,将所述多个目标词,以及所述多个目标词分别对应的目标标签输入至多个细粒度随机森林分类器中,得到与所述多个细粒度随机森林分类器分别对应的预测标签结果,包括:依据所述多个目标词,以及所述多个目标词分别对应的目标标签,确定与所述多个细粒度随机森林分类器对应的多组数据,其中,所述多个细粒度随机森林分类器与所述多组数据一一对应,所述多组数据中每组数据均包括所述未知标签,以及与所述未知标签对应的目标词;分别将所述多组数据输入至对应的细粒度随机森林分类器中,得到所述多个预测标签结果。

4、可选地,将预定文本输入至知识库后验器的实体抽取模块中,得到多个目标词之前,还包括:基于实体抽取与标签挖掘任务,确定所述多个初始模型;使用第一样本数据对所述多个初始模型分别进行训练,并确定训练后的多个初始模型分别对应的预测准确率;确定对应的预测准确率最高的初始模型的模型架构为预定模型架构;依据所述预定模型架构,确定所述知识库后验器。

5、可选地,依据所述预定模型架构,确定所述知识库后验器,包括:确定所述预定模型架构的初始模型参数数据,其中,所述初始模型参数数据包括多个初始模型参数分别对应的值,以及与所述多个初始模型参数分别对应的权重值;确定在所述多个初始模型参数以及对应的权重值下的模型准确指数;在所述模型准确指数低于预定阈值的情况下,依据所述模型准确指数,调节目标模型参数的值,直至对应的模型准确指数大于所述预定阈值,得到目标模型参数数据,其中,所述多个初始模型参数包括所述目标模型参数;使用第二样本数据对预定模型进行训练,得到所述知识库后验器,其中,所述预定模型为所述预定模型架构下以及所述目标模型参数数据下的模型。

6、可选地,在所述分别对应的目标标签中包括未知标签的情况下,将所述多个目标词,以及所述多个目标词分别对应的目标标签输入至多个细粒度随机森林分类器中,得到与所述多个细粒度随机森林分类器分别对应的预测标签结果,包括:在所述分别对应的目标标签中包括未知标签的情况下,调用通用实体补充数据;依据所述通用实体补充数据,确定所述未知标签是否能确定为已知标签的确定结果;在所述确定结果为所述未知标签不能确定为已知标签的情况下,将所述多个目标词,以及所述多个目标词分别对应的目标标签输入至多个细粒度随机森林分类器中,得到与所述多个细粒度随机森林分类器分别对应的预测标签结果。

7、可选地,将预定文本输入至知识库后验器的实体抽取模块中,得到多个目标词之前,还包括:获取用于训练所述预定模型的第二样本数据,其中,所述第二样本数据中样本对应的标签术语区分指数大于预定阈值。

8、可选地,将所述多个目标词输入至所述知识库后验器的标签挖掘模块中,挖掘出与所述多个目标词分别对应的目标标签,包括:将所述多个目标词输入至所述标签挖掘模块的语言表征条件随机场模块中,得到与所述多个目标词分别对应的初始标签;将所述多个目标词,以及与所述多个目标词分别对应的初始标签输入至所述标签挖掘模块的交叉验证模块中,挖掘出与所述多个目标词分别对应的目标标签。

9、根据本专利技术实施例的一个方面,提供了一种文本标签挖掘和实体抽取装置,包括:获取模块,用于获取预定文本;第一确定模块,用于将预定文本输入至知识库后验器的实体抽取模块中,得到多个目标词,其中,所述知识库后验器为对预定模型进行训练得到的,所述预定模型为从多个初始模型中选取出的,所述多个初始模型具备不同的模型架构;第二确定模块,用于将所述多个目标词输入至所述知识库后验器的标签挖掘模块中,得到与所述多个目标词分别对应的目标标签;第三确定模块,用于在所述多个目标词分别对应的目标标签中包括未知标签的情况下,将所述多个目标词,以及所述多个目标词分别对应的目标标签输入至多个细粒度随机森林分类器中,得到与所述多个细粒度随机森林分类器分别对应的预测标签结果,其中,所述多个细粒度随机森林分类器具备不同的分类器参数;第四确定模块,用于依据多个预测标签结果,得到所述未知标签对应的已知标签。

10、根据本专利技术实施例的一个方面,提供了一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现上述任一项所述的文本标签挖掘和实体抽取方法。

11、根据本专利技术实施例的一个方面,提供了一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述任一项所述的文本标签挖掘和实体抽取方法。

12、在本专利技术实施例中,获取预定文本,将预定文本输入至知识库后验器的实体抽取模块中,得到多个目标词,其中,知识库后验器已预先进行知识库构建,所述知识库中包括已挖掘的多个标签,知识库后验器为对预定模型进行训练得到的,预定模型为从多个初始模型中选取出的,多个初始模型具备不同的模型架构,将多个目标词输入至知识库后验器的标签挖掘模块中,得到与多个目标词分别对应的目标标签。本文档来自技高网...

【技术保护点】

1.一种文本标签挖掘和实体抽取方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,在所述分别对应的目标标签中包括未知标签的情况下,将所述多个目标词,以及所述多个目标词分别对应的目标标签输入至多个细粒度随机森林分类器中,得到与所述多个细粒度随机森林分类器分别对应的预测标签结果,包括:

3.根据权利要求1所述的方法,其特征在于,将预定文本输入至知识库后验器的实体抽取模块中,得到多个目标词之前,还包括:

4.根据权利要求3所述的方法,其特征在于,依据所述预定模型架构,确定所述知识库后验器,包括:

5.根据权利要求1所述的方法,其特征在于,在所述分别对应的目标标签中包括未知标签的情况下,将所述多个目标词,以及所述多个目标词分别对应的目标标签输入至多个细粒度随机森林分类器中,得到与所述多个细粒度随机森林分类器分别对应的预测标签结果,包括:

6.根据权利要求1所述的方法,其特征在于,将预定文本输入至知识库后验器的实体抽取模块中,得到多个目标词之前,还包括:

7.根据权利要求1至6中任意一项所述的方法,其特征在于,将所述多个目标词输入至所述知识库后验器的标签挖掘模块中,挖掘出与所述多个目标词分别对应的目标标签,包括:

8.一种文本标签挖掘和实体抽取装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至7中任一项所述的文本标签挖掘和实体抽取方法。

...

【技术特征摘要】

1.一种文本标签挖掘和实体抽取方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,在所述分别对应的目标标签中包括未知标签的情况下,将所述多个目标词,以及所述多个目标词分别对应的目标标签输入至多个细粒度随机森林分类器中,得到与所述多个细粒度随机森林分类器分别对应的预测标签结果,包括:

3.根据权利要求1所述的方法,其特征在于,将预定文本输入至知识库后验器的实体抽取模块中,得到多个目标词之前,还包括:

4.根据权利要求3所述的方法,其特征在于,依据所述预定模型架构,确定所述知识库后验器,包括:

5.根据权利要求1所述的方法,其特征在于,在所述分别对应的目标标签中包括未知标签的情况下,将所述多个目标词,以及所述多个目标词分别对应的目标标签输入...

【专利技术属性】
技术研发人员:赵广杰陈辉王舒榕汪美玲
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1