System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种用于金融业务的命名实体识别方法及装置制造方法及图纸_技高网

一种用于金融业务的命名实体识别方法及装置制造方法及图纸

技术编号:41649914 阅读:13 留言:0更新日期:2024-06-13 02:40
本申请提供了一种用于金融业务的命名实体识别方法及装置,涉及数据处理技术领域,尤其涉及NLP技术领域,也可用于金融领域。具体实现方案为:确定待识别金融文本对应的业务属性,以所述待识别金融文本为输入,基于与所述业务属性对应的预先训练的金融命名实体识别模型,输出所述待识别金融文本对应的命名实体识别结果;其中,所述金融命名实体识别模型是基于BIO标注体系对各所述业务领域对应的文本数据集进行标注,生成各所述业务领域对应的训练集,并基于各所述业务领域对应的训练集,对原生BERT模型执行模型训练操作得到;所述命名实体识别结果包括目标业务领域标签和目标实体识别标签。

【技术实现步骤摘要】

本申请属于数据处理,尤其涉及nlp,也可用于金融领域,具体地讲,涉及一种用于金融业务的命名实体识别方法及装置


技术介绍

1、命名实体,特指文本中那些用于标识特定类型事务的名词或符号,是构成文本文档的基本元素。因为研究领域众多、在不同领域中相同名词可能代表不同的命名实体,实体的种类、形式错综复杂,因此命名实体识别是一项较有难度的任务。金融领域包含了银行业务、投资管理、保险业务、金融市场、金融法律与监管、金融技术、国际金融等重要内容,具有十分广泛、复杂的分类,因此对于金融领域文本进行命名实体识别要比通用领域更加复杂。而当今这个数据量爆炸的信息化时代,互联网每天都在产生这数以万计的金融数据,采用自然语言处理技术对这些海量数据进行加工,从中提取重要的、有效信息能大幅提升相关金融从业者工作效率。因此,金融领域命名实体识别虽然难度较大,但却十分有必要。

2、目前现有成熟的命名实体识别方法有基于词典的方法、基于规则的方法、基于机器学习模型的方法。基于词典的方法,顾名思义,是将外部获得的词汇构建成词典,对于输入的文本,通过字符串匹配的方式进行识别,其关键点在于词典的构建和字符串匹配的算法。基于规则的方法,是通过对已经完成命名实体词汇标注的训练语料进行分析,通过人工的方式构建规则模板来体现语料词汇内部特征和短语之间的联系。规则模板通常为启发式规则,再配合同义词词典消除歧义。基于机器学习的方法,则是根据已标注的数据,将数据特征进行抽象,通过概率估计统计模型的参数(例如hmm模型、crf模型等),对于新的未知数据进行分析和预测。

3、基于词典的命名实体识别方法,在构建词典方面需要使用大量的数据库资源,其质量及规模直接影响到识别结果。由于金融领域数据的海量和复杂性,词典难以达到完备。随着时间推移,各种五花八门的新实体出现令词典的维护十分困难。而字符串匹配方面,无论是完全匹配还是模糊匹配的算法,从执行效率方面都难以满足实际需求。

4、基于规则的命名实体识别方法,规则的构建需要大量的人工和时间资源,涉及大量的专业领域知识。金融领域覆盖面广,难以设计出适应性较强的规则。同理,这种人工设计的规则鲁棒性极差,无法适应新出现的命名实体。

5、基于机器学习的命名实体识别方法,尽管相较于前两种方法有可以处理大量数据并对新出现的实体进行分析,但对于对语料特征提取的门槛较高,对数学、统计学专业知识要求较高、实施难度较大。


技术实现思路

1、针对现有技术中存在的至少一个问题,本申请提供一种用于金融业务的命名实体识别方法及装置,既可满足专业领域分支的命名实体识别,又可进行合并预测。

2、根据本申请的第一个方面,提供了一种用于金融业务的命名实体识别方法,该方法包括:

3、确定待识别金融文本对应的业务属性,其中,所述业务属性包括n个业务领域,n为大于0的自然数;

4、以所述待识别金融文本为输入,基于与所述业务属性对应的预先训练的金融命名实体识别模型,输出所述待识别金融文本对应的命名实体识别结果;

5、其中,所述金融命名实体识别模型是基于bio标注体系对各所述业务领域对应的文本数据集进行标注,生成各所述业务领域对应的训练集,并基于各所述业务领域对应的训练集,对原生bert模型执行模型训练操作得到;

6、所述命名实体识别结果包括目标业务领域标签和目标实体识别标签,所述目标业务领域标签用于指示所述待识别金融文本对应的目标业务领域,所述目标实体识别标签用于指示所述待识别金融文本的实体属性。

7、在本实施例的一些可选方式中,响应于所述业务属性为金融产品,所述业务领域包括基金领域、理财领域,保险领域以及存款领域;

8、响应于所述业务属性为金融服务,所述业务领域包括贷款领域、咨询领域以及理财规划领域;

9、响应于所述业务属性为金融市场,所述业务领域包括股票领域、债券领域、外汇领域以及商品领域。

10、在本实施例的一些可选方式中,所述模型训练操作包括语义相关性训练操作,所述对原生bert模型进行执行模型训练操作,包括:

11、获取金融专业语料数据库,并以所述金融专业语料数据库作为输入,对所述原生bert模型执行所述语义相关性训练操作,得到初始化bert模型。

12、在本实施例的一些可选方式中,所述模型训练操作还包括交替联合训练操作,所述基于所述各所述业务领域对应的训练集,对原生bert模型进行执行模型训练操作,包括:

13、将所述各所述业务领域对应的训练集分别划分为m份,其中,所述m为大于0的自然数;

14、将各所述业务领域的m份训练集依次作为输入,对所述初始化bert模型执行所述交替联合训练操作,得到共享bert模型,其中,所述共享bert模型包括共享bert层。

15、在本实施例的一些可选方式中,所述模型训练操作还包括针对性微调训练操作,所述基于所述各所述业务领域对应的训练集,对原生bert模型进行执行模型训练操作,还包括:

16、分别以各所述业务领域对应的训练集作为输入,对所述共享bert模型执行所述针对性微调训练操作,得到各所述业务领域对应的金融命名实体识别子模型;

17、其中,所述金融命名实体识别子模型的数量为n,所述金融命名实体识别模型包括所述n个金融命名实体识别子模型;各所述金融命名实体识别子模型分别有对应的业务领域标签、bert子层和softmax分类层;所述金融命名实体识别子模型的输出为bio标签得分向量。

18、在本实施例的一些可选方式中,所述模型训练操作还包括结果合并训练操作,所述bio标签得分向量包括b标签概率、i标签概率和o标签概率,所述训练集包括多个训练文本字符,所述基于所述各所述业务领域对应的训练集,对原生bert模型进行执行模型训练操作,还包括:

19、对各所述训练文本字符,执行所述结果合并训练操作,得到各训练文本字符的命名实体识别结果,其中,所述结果合并训练操作的步骤包括:

20、确定各金融命名实体识别子模型输出的bio标签得分向量,并根据所述b标签概率、i标签概率和o标签概率,确定所述训练文本字符在各金融命名实体识别子模型下对应的初始实体识别标签;

21、响应于所述初始实体识别标签均为o标签,确定所述训练文本字符的目标实体识别标签为o标签;

22、响应于所述初始实体识别标签不均为o标签,将所述初始实体识别标签中的非o标签,确定为所述训练文本字符的候选实体识别标签,其中,所述非o标签包括b标签或i标签;

23、将所述候选实体识别标签中概率最大的一个,作为所述训练文本字符的目标实体识别标签。

24、在本实施例的一些可选方式中,所述结果合并训练操作的步骤还包括:

25、响应于确定所述训练文本字符的目标实体识别标签为o标签,确定所述训练文本字符的目标业务领域标签为空;

26、响应于确定所述训练文本字符的目本文档来自技高网...

【技术保护点】

1.一种用于金融业务的命名实体识别方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,

3.根据权利要求1所述的方法,其特征在于,所述模型训练操作包括语义相关性训练操作,所述对原生BERT模型进行执行模型训练操作,包括:

4.根据权利要求3所述的方法,其特征在于,所述模型训练操作还包括交替联合训练操作,所述基于所述各所述业务领域对应的训练集,对原生BERT模型进行执行模型训练操作,包括:

5.根据权利要求4所述的方法,其特征在于,所述模型训练操作还包括针对性微调训练操作,所述基于所述各所述业务领域对应的训练集,对原生BERT模型进行执行模型训练操作,还包括:

6.根据权利要求5所述的方法,其特征在于,所述模型训练操作还包括结果合并训练操作,所述BIO标签得分向量包括B标签概率、I标签概率和O标签概率,所述训练集包括多个训练文本字符,所述基于所述各所述业务领域对应的训练集,对原生BERT模型进行执行模型训练操作,还包括:

7.根据权利要求6所述的方法,其特征在于,所述结果合并训练操作的步骤还包括

8.一种用于金融业务的命名实体识别装置,其特征在于,包括:

9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7任一项所述的一种用于金融业务的命名实体识别方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至7任一项所述的一种用于金融业务的命名实体识别方法的步骤。

11.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至7任一项所述的一种用于金融业务的命名实体识别方法的步骤。

...

【技术特征摘要】

1.一种用于金融业务的命名实体识别方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,

3.根据权利要求1所述的方法,其特征在于,所述模型训练操作包括语义相关性训练操作,所述对原生bert模型进行执行模型训练操作,包括:

4.根据权利要求3所述的方法,其特征在于,所述模型训练操作还包括交替联合训练操作,所述基于所述各所述业务领域对应的训练集,对原生bert模型进行执行模型训练操作,包括:

5.根据权利要求4所述的方法,其特征在于,所述模型训练操作还包括针对性微调训练操作,所述基于所述各所述业务领域对应的训练集,对原生bert模型进行执行模型训练操作,还包括:

6.根据权利要求5所述的方法,其特征在于,所述模型训练操作还包括结果合并训练操作,所述bio标签得分向量包括b标签概率、i标签概率和o标签概率,所述训练集包括多个训练文本字...

【专利技术属性】
技术研发人员:侯明烨王凯周洪菊曾文华
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1