基于文本特征的信息抽取方法、装置及电子设备制造方法及图纸

技术编号：34007031 阅读：12 留言：0更新日期：2022-07-02 13:39

本发明专利技术公开了一种基于文本特征的信息抽取方法、装置及电子设备，方法包括：基于预训练模型对待处理的信息文本进行预训练编码，生成文本特征；将文本特征分别输入预先构建的通用域特征抽取器和私有域特征抽取器；分别得到通用域特征和私有域特征，所述通用域特征为通用域特征抽取器的输出，所述私有域特征为私有域特征抽取器的输出；将通用域特征和私有域特征进行耦合，将耦合结果输入混合专家预测器中进行解码，生成对应的信息标签，完成信息抽取操作。本发明专利技术实施例通过通用域和私有域的丰富语义信息，结合CRF进行解码，确保实体抽取任务的准确率，提升了金融信息的抽取效率。提升了金融信息的抽取效率。提升了金融信息的抽取效率。

全部详细技术资料下载

【技术实现步骤摘要】
基于文本特征的信息抽取方法、装置及电子设备

[0001]本专利技术涉及数据处理
，尤其涉及一种基于文本特征的信息抽取方法、装置及电子设备。

技术介绍

[0002]文本信息抽取在深度学习领域是一个比较成熟的算法技术；它也成功在各种业务场景应用落地。传统的文本信息抽取模型主要是处理单一语言的文本信息抽取任务，效果很好。但是在金融领域，很多数据经常有多种语言混合的问题。比如在现券成交领域，常见的语料有“231587.IB 2.52 2000 Tomorrow A证券TO B证券”；在现券询价领域，常见的语料有“1221+0bid102018647主债rate:AA+/AA+”。可见混合语言数据在金融领域是非常常见的。但是现在的文本抽取模型对混合语言数据的语义理解能力很差，对混合语言的实体识别准确率并不高，因此提高混合语言的文本信息抽取能力是一个具有挑战性的任务。
[0003]传统的文本抽取模型是采用BERT等预训练模型作为底层特征抽取模型，对文本信息进行语义抽取，并采用CRF作为解码器，对每个词进行解码，判别出每个词的实体类别。或者采用softmax采用解码器，对每个词进行解码，判别出每个词的实体类别。
[0004]针对中文的文本信息抽取任务，使用传统的文本抽取模型BERT+CRF会存在实体边界出错的问题。因此针对该问题，研究者提出了Graph4NER模型，其采用图神经网络去构建词语之间的关系矩阵，从而解决实体边界问题。除了Graph4NER模型，还有研究者提出LatticeLSTM模型，该模型在LS...

【技术保护点】

【技术特征摘要】
1.一种基于文本特征的信息抽取方法,其特征在于,所述方法包括：基于预训练模型对待处理的信息文本进行预训练编码，生成文本特征；将文本特征分别输入预先构建的通用域特征抽取器和私有域特征抽取器；分别得到通用域特征和私有域特征，所述通用域特征为通用域特征抽取器的输出，所述私有域特征为私有域特征抽取器的输出；将通用域特征和私有域特征进行耦合，将耦合结果输入混合专家预测器中进行解码，生成对应的信息标签，完成信息抽取操作。2.根据权利要求1所述的方法，其特征在于，所述基于预训练模型对待处理的信息文本进行预训练编码，生成文本特征，包括：基于BERT模型对待处理的信息文本进行预训练编码，生成文本特征，所述文本特征为固定维度的字符向量或词向量。3.根据权利要求2所述的方法，其特征在于，所述基于BERT模型对待处理的信息文本进行预训练编码，生成文本特征，所述文本特征为固定维度的字符向量或词向量，包括：获取信息文本中语言的种数，提取信息文本中每一种语言，生成单一语言对应的文本数据，所述文本数据数目与语言的种数相同；信息文本包括至少两种语言；将每一种文本数据分别输入BERT模型，生成对应的文本特征，所述文本特征为固定维度的字符向量或词向量。4.根据权利要求3所述的方法，其特征在于，所述将文本特征分别输入预先构建的通用域特征抽取器和私有域特征抽取器前，还包括：预先构建通用域特征抽取器，所述通用域特征抽取器包括采用LSTM模型的学习器和采用MLP模型的语言判别器。5.根据权利要求4所述的方法，其特征在于，所述将文本特征分别输入预先构建的通用域特征抽取器和私有域特征抽取器前，还包括：预先构建私有域特征抽取器，所述预先构建通用域特征抽取器包括MLP模型。6.根据权利要求5所述的方法，其特征在...

【专利技术属性】
技术研发人员：林远平，甘伟超，喻广博，邹鸿岳，周靖宇，
申请(专利权)人：北京快确信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人