文本信息抽取方法、装置、设备及存储介质制造方法及图纸

技术编号:37438720 阅读:13 留言:0更新日期:2023-05-06 09:10
本公开提供了一种文本信息抽取方法、装置、设备及存储介质,可以应用于自然语言处理技术领域和金融技术领域。该方法包括:确定文本信息中的词信息和与词信息对应的词向量;对词信息中结构相似对象进行字符级特征提取,得到字符级特征向量;对词向量中语义相似对象进行单词级特征提取,得到单词级特征向量;基于多功能注意力机制,根据字符级特征向量和单词级特征向量,得到特征向量矩阵;以及根据特征向量矩阵,得到文本信息抽取结果。得到文本信息抽取结果。得到文本信息抽取结果。

【技术实现步骤摘要】
文本信息抽取方法、装置、设备及存储介质


[0001]本公开涉及自然语言处理
和金融
,尤其涉及一种文本信息抽取方法、装置、设备、介质和程序产品。

技术介绍

[0002]信息抽取作为自然语言处理中的一个子领域,其主要目的就是将文本、图像、声音等非结构化信息通过结构化处理,变成与表格一样的组织形式的结构化信息,从而得到新的信息点,将信息点从各种各样的文档中抽取出来,并以统一形式集成在一起。
[0003]相关技术中,针对例如银行办公文本中事件结构的复杂性和银行办公文本内容的特殊性,对文本信息进行抽取时,存在难以准确识别和区分出文本中的形近字和同义词的问题。

技术实现思路

[0004]鉴于上述问题,本公开提供了一种文本信息抽取文本识别方法、装置、设备、介质和程序产品。
[0005]根据本公开的第一个方面,提供了一种文本信息抽取方法,包括:
[0006]确定文本信息中的词信息和与上述词信息对应的词向量;
[0007]对上述词信息中结构相似对象进行字符级特征提取,得到字符级特征向量;
[0008]对上述词向量中语义相似对象进行单词级特征提取,得到单词级特征向量;
[0009]基于多功能注意力机制,根据上述字符级特征向量和上述单词级特征向量,得到特征向量矩阵;以及
[0010]根据上述特征向量矩阵,得到文本信息抽取结果。
[0011]根据本公开的实施例,上述基于多功能注意力机制,根据上述字符级特征向量和上述单词级特征向量,得到特征向量矩阵,包括:
[0012]基于字符级注意力机制,根据上述字符级特征向量和上述词向量,得到第一向量;
[0013]基于字级注意力机制,根据上述单词级特征向量和上述第一向量,得到第二向量;以及
[0014]基于段落级注意力机制,根据上述第二向量,得到特征向量矩阵。
[0015]根据本公开的实施例,上述基于字符级注意力机制,根据上述字符级特征向量和上述词向量,得到第一向量,包括:
[0016]基于上述字符级注意力机制,根据上述字符级特征向量,得到上述结构相似对象对应的权重;以及
[0017]根据上述词向量和上述结构相似对象对应的权重,得到上述第一向量。
[0018]根据本公开的实施例,上述基于字级注意力机制,根据上述单词级特征向量和上述第一向量,得到第二向量,包括:
[0019]基于上述字级注意力机制,根据上述单词级特征向量,得到上述语义相似对象对
应的权重;以及
[0020]根据上述第一向量和上述语义相似对象对应的权重,得到上述第二向量。
[0021]根据本公开的实施例,上述基于段落级注意力机制,根据上述第二向量,得到特征矩阵,包括:
[0022]对上述第二向量中的向量进行拼接,得到句子级特征向量矩阵;
[0023]基于上述段落级注意力机制,根据上述句子级特征向量矩阵,得到第三向量;以及
[0024]对上述第三向量进行上述降维操作和上述非线性激活运算,得到上述特征向量矩阵。
[0025]根据本公开的实施例,上述基于上述段落级注意力机制,根据上述句子级特征向量矩阵,得到第三向量,包括:
[0026]基于上述段落级注意力机制,根据上述句子级特征矩阵,得到句子对应的权重;以及
[0027]根据上述句子级特征矩阵和上述句子对应的权重,得到上述第三向量。
[0028]根据本公开的实施例,上述结构相似对象包括形近字,上述字符级特征向量包括上述形近字的偏旁特征向量和部首特征向量,上述语义相似对象包括同义词。
[0029]本公开的第二方面提供了一种文本信息抽取装置,包括:确定模块、第一提取模块、第二提取模块和获得模块。其中,确定模块,用于确定文本信息中的词信息和与词信息对应的词向量。第一提取模块,用于对上述词信息中结构相似对象进行字符级特征提取,得到字符级特征向量。第二提取模块,用于对上述词向量中语义相似对象进行单词级特征提取,得到单词级特征向量。获得模块,用于基于多功能注意力机制,根据上述字符级特征向量和上述单词级特征向量,得到特征向量矩阵。抽取模块,用于根据上述特征向量矩阵,得到文本信息抽取结果。
[0030]本公开的第三方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得一个或多个处理器执行上述方法。
[0031]本公开的第四方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述方法。
[0032]本公开的第五方面还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述方法。
[0033]根据本公开提供的文本信息抽取方法、装置、设备、介质和程序产品,对词信息中结构相似对象进行字符级特征提取,能够得到字符级特征向量,对词向量中语义相似对象进行单词级特征提取,能够得到单词级特征向量,并基于多功能注意力机制,根据字符级特征向量和单词级特征向量,能够得到特征向量矩阵,最后根据特征向量矩阵,可以得到文本信息抽取结果,由于对词信息中结构相似对象进行字符级特征提取,对词向量中语义相似对象进行单词级特征提取,能够在文本信息抽取过程中对结构相似对象以及语义相似对象进行识别和区分,提高文本信息抽取的准确率。
附图说明
[0034]通过以下参照附图对本公开实施例的描述,本公开的上述内容以及其他目的、特
征和优点将更为清楚,在附图中:
[0035]图1示意性示出了根据本公开实施例的文本信息抽取方法、装置、设备、介质和程序产品的应用场景图;
[0036]图2示意性示出了根据本公开实施例的文本信息抽取方法的流程图;
[0037]图3示意性示出了根据本公开实施例的构建词向量的示意图;
[0038]图4示意性示出了根据本公开实施例的得到特征向量矩阵的流程图;
[0039]图5示意性示出了根据本公开实施例的多功能注意力机制的示意图;
[0040]图6示意性示出了根据本公开实施例的文本信息抽取方法的示意图;
[0041]图7示意性示出了根据本公开实施例的文本信息抽取文本识别装置的结构框图;以及
[0042]图8示意性示出了根据本公开实施例的适于实现文本信息抽取文本识别方法的电子设备的方框图。
具体实施方式
[0043]以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
[0044]在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本信息抽取方法,包括:确定文本信息中的词信息和与所述词信息对应的词向量;对所述词信息中结构相似对象进行字符级特征提取,得到字符级特征向量;对所述词向量中语义相似对象进行单词级特征提取,得到单词级特征向量;基于多功能注意力机制,根据所述字符级特征向量和所述单词级特征向量,得到特征向量矩阵;以及根据所述特征向量矩阵,得到文本信息抽取结果。2.根据权利要求1所述的方法,其中,所述基于多功能注意力机制,根据所述字符级特征向量和所述单词级特征向量,得到特征向量矩阵,包括:基于字符级注意力机制,根据所述字符级特征向量和所述词向量,得到第一向量;基于字级注意力机制,根据所述单词级特征向量和所述第一向量,得到第二向量;以及基于段落级注意力机制,根据所述第二向量,得到特征向量矩阵。3.根据权利要求2所述的方法,其中,所述基于字符级注意力机制,根据所述字符级特征向量和所述词向量,得到第一向量,包括:基于所述字符级注意力机制,根据所述字符级特征向量,得到所述结构相似对象对应的权重;以及根据所述词向量和所述结构相似对象对应的权重,得到所述第一向量。4.根据权利要求2所述的方法,其中,所述基于字级注意力机制,根据所述单词级特征向量和所述第一向量,得到第二向量,包括:基于所述字级注意力机制,根据所述单词级特征向量,得到所述语义相似对象对应的权重;以及根据所述第一向量和所述语义相似对象对应的权重,得到所述第二向量。5.根据权利要求2所述的方法,其中,所述基于段落级注意力机制,根据所述第二向量,得到特征矩阵,包括:对所述第二向量中的向量进行拼接,得到句子级特征向量矩阵;基于所述段落级注意力机制,根据...

【专利技术属性】
技术研发人员:于博
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1