基于文本特征的信息抽取方法、装置及电子设备制造方法及图纸

技术编号:34007031 阅读:12 留言:0更新日期:2022-07-02 13:39
本发明专利技术公开了一种基于文本特征的信息抽取方法、装置及电子设备,方法包括:基于预训练模型对待处理的信息文本进行预训练编码,生成文本特征;将文本特征分别输入预先构建的通用域特征抽取器和私有域特征抽取器;分别得到通用域特征和私有域特征,所述通用域特征为通用域特征抽取器的输出,所述私有域特征为私有域特征抽取器的输出;将通用域特征和私有域特征进行耦合,将耦合结果输入混合专家预测器中进行解码,生成对应的信息标签,完成信息抽取操作。本发明专利技术实施例通过通用域和私有域的丰富语义信息,结合CRF进行解码,确保实体抽取任务的准确率,提升了金融信息的抽取效率。提升了金融信息的抽取效率。提升了金融信息的抽取效率。

【技术实现步骤摘要】
基于文本特征的信息抽取方法、装置及电子设备


[0001]本专利技术涉及数据处理
,尤其涉及一种基于文本特征的信息抽取方法、装置及电子设备。

技术介绍

[0002]文本信息抽取在深度学习领域是一个比较成熟的算法技术;它也成功在各种业务场景应用落地。传统的文本信息抽取模型主要是处理单一语言的文本信息抽取任务,效果很好。但是在金融领域,很多数据经常有多种语言混合的问题。比如在现券成交领域,常见的语料有“231587.IB 2.52 2000 Tomorrow A证券TO B证券”;在现券询价领域,常见的语料有“1221+0bid102018647主债rate:AA+/AA+”。可见混合语言数据在金融领域是非常常见的。但是现在的文本抽取模型对混合语言数据的语义理解能力很差,对混合语言的实体识别准确率并不高,因此提高混合语言的文本信息抽取能力是一个具有挑战性的任务。
[0003]传统的文本抽取模型是采用BERT等预训练模型作为底层特征抽取模型,对文本信息进行语义抽取,并采用CRF作为解码器,对每个词进行解码,判别出每个词的实体类别。或者采用softmax采用解码器,对每个词进行解码,判别出每个词的实体类别。
[0004]针对中文的文本信息抽取任务,使用传统的文本抽取模型BERT+CRF会存在实体边界出错的问题。因此针对该问题,研究者提出了Graph4NER模型,其采用图神经网络去构建词语之间的关系矩阵,从而解决实体边界问题。除了Graph4NER模型,还有研究者提出LatticeLSTM模型,该模型在LSTM中引入word信息,增加词的语义信息,进而解决实体边界问题。
[0005]ERNIE针对中文,更改了BERT模型的mask机制,将mask的幅度从单个字修改为整个实体或者短语,从而解决了模型在文本抽取任务的边界问题,增强了模型对于边界的理解能力。但是上述所有模型的修改都是针对单一语言文本抽取任务的优化。在混合语言的任务,现有的模型还是一筹莫展,无法有效提高文本抽取任务的效果。
[0006]在金融领域,很多数据都是多种语言混合的。比如在金融现券成交领域,“231587.IB 2.52 2000 Tomorrow A证券TO B证券”,现有的BERT+CRF模型或者LSTM+CRF模型都很难针对混合语言进行有效的文本抽取,实体识别准确率都很低。
[0007]因此,现有技术还有待于改进和发展。

技术实现思路

[0008]鉴于上述现有技术的不足,本专利技术提供了一种基于文本特征的信息抽取方法、装置及电子设备,旨在解决现有技术中的BERT+CRF模型或者LSTM+CRF模型都很难针对混合语言进行有效的文本抽取,实体识别准确率都很低的问题。
[0009]本专利技术的技术方案如下:
[0010]本专利技术第一实施例提供了一种基于文本特征的信息抽取方法,方法包括:
[0011]基于预训练模型对待处理的信息文本进行预训练编码,生成文本特征;
[0012]将文本特征分别输入预先构建的通用域特征抽取器和私有域特征抽取器;分别得到通用域特征和私有域特征,所述通用域特征为通用域特征抽取器的输出,所述私有域特征为私有域特征抽取器的输出;
[0013]将通用域特征和私有域特征进行耦合,将耦合结果输入混合专家预测器中进行解码,生成对应的信息标签,完成信息抽取操作。
[0014]进一步地,所述基于预训练模型对待处理的信息文本进行预训练编码,生成文本特征,包括:
[0015]基于BERT模型对待处理的信息文本进行预训练编码,生成文本特征,所述文本特征为固定维度的字符向量或词向量。
[0016]进一步地,所述基于BERT模型对待处理的信息文本进行预训练编码,生成文本特征,所述文本特征为固定维度的字符向量或词向量,包括:
[0017]获取信息文本中语言的种数,提取信息文本中每一种语言,生成单一语言对应的文本数据,所述文本数据数目与语言的种数相同;信息文本包括至少两种语言;
[0018]将每一种文本数据分别输入BERT模型,生成对应的文本特征,所述文本特征为固定维度的字符向量或词向量。
[0019]进一步地,所述将文本特征分别输入预先构建的通用域特征抽取器和私有域特征抽取器前,还包括:
[0020]预先构建通用域特征抽取器,所述通用域特征抽取器包括采用LSTM模型的学习器和采用MLP模型的语言判别器。
[0021]进一步地,所述将文本特征分别输入预先构建的通用域特征抽取器和私有域特征抽取器前,还包括:
[0022]预先构建私有域特征抽取器,所述预先构建通用域特征抽取器包括MLP模型。
[0023]进一步地,所述将通用域特征和私有域特征进行耦合,包括:
[0024]将通用域特征和私有域特征按照第一预定权重进行拼接,生成耦合结果。
[0025]进一步地,所述将耦合结果输入混合专家预测器中进行解码,生成对应的信息标签,完成信息抽取操作,包括:
[0026]将耦合结果输入混合专家预测器的MP模型后,按照第二预定权重进行拼接,生成拼接好的特征向量;
[0027]将特征向量输入CRF解码器进行解码,生成对应的信息标签,完成信息抽取操作。
[0028]本专利技术的另一实施例提供了一种基于文本特征的信息抽取装置,装置包括:
[0029]预训练编码模块,用于基于预训练模型对待处理的信息文本进行预训练编码,生成文本特征;
[0030]通用域特征和私有域特征抽取模块,用于将文本特征分别输入预先构建的通用域特征抽取器和私有域特征抽取器;分别得到通用域特征和私有域特征,所述通用域特征为通用域特征抽取器的输出,所述私有域特征为私有域特征抽取器的输出;
[0031]解码模块,用于将通用域特征和私有域特征进行耦合,将耦合结果输入混合专家预测器中进行解码,生成对应的信息标签,完成信息抽取操作。
[0032]本专利技术的另一实施例提供了一种电子设备,所述电子设备包括至少一个处理器;以及,
[0033]与所述至少一个处理器通信连接的存储器;其中,
[0034]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的基于文本特征的信息抽取方法。
[0035]本专利技术的另一实施例还提供了一种非易失性计算机可读存储介质,所述非易失性计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行时,可使得所述一个或多个处理器执行上述的基于文本特征的信息抽取方法。
[0036]有益效果:本专利技术实施例通过通用域和私有域的丰富语义信息,结合CRF进行解码,确保实体抽取任务的准确率,提高了金融信息的抽取效率。
附图说明
[0037]下面将结合附图及实施例对本专利技术作进一步说明,附图中:
[0038]图1为本专利技术一种基于文本特征的信息抽取方法较佳实施例的流程图;
[0039]图2为本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于文本特征的信息抽取方法,其特征在于,所述方法包括:基于预训练模型对待处理的信息文本进行预训练编码,生成文本特征;将文本特征分别输入预先构建的通用域特征抽取器和私有域特征抽取器;分别得到通用域特征和私有域特征,所述通用域特征为通用域特征抽取器的输出,所述私有域特征为私有域特征抽取器的输出;将通用域特征和私有域特征进行耦合,将耦合结果输入混合专家预测器中进行解码,生成对应的信息标签,完成信息抽取操作。2.根据权利要求1所述的方法,其特征在于,所述基于预训练模型对待处理的信息文本进行预训练编码,生成文本特征,包括:基于BERT模型对待处理的信息文本进行预训练编码,生成文本特征,所述文本特征为固定维度的字符向量或词向量。3.根据权利要求2所述的方法,其特征在于,所述基于BERT模型对待处理的信息文本进行预训练编码,生成文本特征,所述文本特征为固定维度的字符向量或词向量,包括:获取信息文本中语言的种数,提取信息文本中每一种语言,生成单一语言对应的文本数据,所述文本数据数目与语言的种数相同;信息文本包括至少两种语言;将每一种文本数据分别输入BERT模型,生成对应的文本特征,所述文本特征为固定维度的字符向量或词向量。4.根据权利要求3所述的方法,其特征在于,所述将文本特征分别输入预先构建的通用域特征抽取器和私有域特征抽取器前,还包括:预先构建通用域特征抽取器,所述通用域特征抽取器包括采用LSTM模型的学习器和采用MLP模型的语言判别器。5.根据权利要求4所述的方法,其特征在于,所述将文本特征分别输入预先构建的通用域特征抽取器和私有域特征抽取器前,还包括:预先构建私有域特征抽取器,所述预先构建通用域特征抽取器包括MLP模型。6.根据权利要求5所述的方法,其特征在...

【专利技术属性】
技术研发人员:林远平甘伟超喻广博邹鸿岳周靖宇
申请(专利权)人:北京快确信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1