一种基于多特征融合的实体关系联合抽取方法及装置制造方法及图纸

技术编号:38152018 阅读:13 留言:0更新日期:2023-07-13 09:16
本发明专利技术提供了一种基于多特征融合的实体关系联合抽取方法及装置,该方法能将预训练BERT(Bidirectional Encoder Representation from Transformers,基于Transformer的双向编码器)模型提取的上下文语义特征与通过GCN训练字邻接图得到的句法结构特征进行自适应参数融合,融合过程会通过门网络结构自主学习融合权重来实现,融合后的特征可用于实体与实体间关系的联合抽取;在抽取关系前还要将待判定的关系特征嵌入通过关系选择器中的强化学习进行特征强化,用于进一步提升关系抽取的准确率。率。率。

【技术实现步骤摘要】
一种基于多特征融合的实体关系联合抽取方法及装置


[0001]本专利技术涉及自然语言处理
,具体涉及一种基于多特征融合的实体关系联合抽取方法及装置。

技术介绍

[0002]文本嵌入是自然语言处理(Natural Language Processing,NLP)中语言模型与表征学习技术的统称,也称为文本的分布式表示,概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。目前,文本嵌入作为输入特征已被证明在许多自然语言处理任务中都是有效的,如提取文本词干、命名实体识别、文本分类和机器翻译等。
[0003]当前一部分主流的文本嵌入模型,如RNN(Recurrent Neural Network,循环神经网络)、BiLSTM(Bi

directional Long Short

Term Memory,双向长短期记忆网络)、IDCNN(Improved Deep Convolutional Neural Network,改进型深度卷积神经网络)、textCNN(text Convolutional Neural Network,文本分类卷积神经网络)等主要将文本看作一串字词序列来进行处理,这样就会导致词语之间或者字词的联系基本上依靠字词本身在文本中的位置顺序关系。现有研究通过注意力机制获得每个词语之间的关注关联,但是这样学习方式忽略了句法规则对词语的结构影响。同时,由于注意力机制能够捕捉到句子边缘的文本特征,在一定程度上,这些边缘词的语义特征对中心词的特征提取有一定影响。

技术实现思路

[0004]有鉴于此,有必要提供一种基于多特征融合的实体关系联合抽取方法及装置,用以解决现有技术中文本嵌入模型依靠字词本身在文本中的位置顺序关系,忽略了句法规则对词语的结构影响,导致文本嵌入中关系分类任务的准确率低的技术问题。
[0005]为解决上述技术问题,第一方面,本专利技术提供了一种基于多特征融合的实体关系联合抽取方法,包括:
[0006]根据预训练的BERT模型对原始文本的文本序列进行编码,得到原始文本的上下文语义特征;
[0007]根据原始文本中词与词之间的依赖关系构建改进的中文依存句法树,在所述改进的中文依存句法树中增加CLS标识符号的对应节点与所有分词之间的依赖关系,所述CLS标识符号为BERT模型进行编码时添加在所述原始文本序列上的;将所述改进的中文依存句法树中词与词之间的依赖关系转换为字与字之间的依赖关系,得到字邻接图;将所述字邻接图输入至预训练的图卷积神经网络GCN模型,得到词与词之间、字与字之间的句法结构特征;
[0008]通过自学习权重的门网络结构融合所述上下文语义特征和所述句法结构特征,得到联合特征,根据所述联合特征识别文本中的实体并判断实体间的关系类型。
[0009]在一些可能的实现方式中,所述根据预训练的BERT模型对原始文本的文本序列进
行编码,得到原始文本的上下文语义特征,包括:
[0010]获取所述原始文本的文本序列,在所述文本序列的首部添加CLS标识符号,在所述文本序列的尾部添加SEP标识符号;
[0011]将所述文本序列输入至预训练BERT模型,提取所述文本序列中每个字对应的上下文语义特征。
[0012]在一些可能的实现方式中,所述根据原始文本中词与词之间的依赖关系构建改进的中文依存句法树,在所述中文依存句法树中增加CLS标识符号的对应节点与所有分词之间的依赖关系,所述CLS标识符号为BERT模型进行编码时添加在所述原始文本序列上的;将所述改进的中文依存句法树中词与词之间的依赖关系转换为字与字之间的依赖关系,得到字邻接图,包括:
[0013]基于自然语言处理工具包spacy提取所述原始文本的文本分词,构建所述文本分词的原始句法依赖树;
[0014]在所述原始句法依赖树中增加CLS节点与所有分词之间的依赖关系,得到改进句法依赖树;所述CLS节点为CLS标识符号的对应节点;
[0015]根据所述改进句法依赖树、所述文本分词之间的依赖关系,以及CLS节点与分词之间的关系,以及文本分词中字与字之间的关系,生成文本序列的字邻接图。
[0016]在一些可能的实现方式中,所述基于自然语言处理工具包spacy提取所述原始文本的文本分词,构建所述文本分词的改进句法依赖树,包括:
[0017]对所述原始文本进行分词,提取文本分词,在原始文本首部添加一个CLS标识符号;
[0018]以实有向边表示文本分词之间的依赖关系,以虚有向边表示每个文本分词与CLS标识符号的依赖关系,生成文本分词的改进句法依赖树。
[0019]在一些可能的实现方式中,所述根据所述改进句法依赖树、所述文本分词之间的依赖关系,以及分词与CLS节点的依赖关系,以及文本分词中字与字之间的关系,生成文本序列的字邻接图,包括:
[0020]以无向实线表示文本分词中字与字之间的字依赖边;
[0021]将所述改进句法依赖树中文本分词间的实有向边改为无向实线,以生成句法依赖边;其中,无向实线的第一端连接实有向边的起始文本分词的最后一个字,无向实线的第二端连接实有向边的指向文本分词的第一个字;
[0022]以无向虚线表示每个字与CLS标识符号的全文依赖边,得到字邻接图。
[0023]在一些可能的实现方式中,所述将所述字邻接图输入至图卷积神经网络GCN模型,得到文本序列的句法结构特征,包括:
[0024]构建所述字邻接图的字邻接矩阵,其中,所述字邻接矩阵的每一行/列对应原始文本的一个字;若判断任一行、列对应的两个字之间有依赖关系,则在所述字邻接矩阵中对应区域赋值1,所述依赖关系还包括行、列上同一字之间的自依赖关系;若判断任一行、列上两个字之间没有依赖关系,则在所述字邻接矩阵中对应区域赋值0;
[0025]根据GCN模型对所述字邻接矩阵进行编码,得到序列文本的句法结构特征。
[0026]在一些可能的实现方式中,所述根据所述联合特征识别实体并判断实体间的关系类别,包括:
[0027]根据所述上下文语义特征与所述句法结构特征进行特征融合得到每个字的联合特征,融合权重由门网络结构自学习得到;
[0028]在进行实体识别时,将所述每个字的联合特征再通过双向GRU编码器进行编码,再计算每个字所属的标识概率;
[0029]在进行实体间关系的判断时,根据所述联合特征中的任意两个实体特征或字特征进行拼接,将拼接后的拼接特征输入到关系选择器中,由关系选择器根据不同的拼接特征从自定义的关系中选择一种关系的嵌入作为补充,然后再经过关系分类器进行实体关系判断;所述关系选择器由自定义reward函数的强化学习模型训练得到,自定义reward函数对每次关系迭代的结果进行正确与错误的奖励,以此生成强化后的关系嵌入;以所述联合特征作为关系选择器的输入、以所述自定义关系的嵌入作为关系选择器的补充输入,通过强本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多特征融合的实体关系联合抽取方法,其特征在于,包括:根据预训练的BERT模型对原始文本的文本序列进行编码,得到原始文本的上下文语义特征;根据原始文本中词与词之间的依赖关系构建改进的中文依存句法树,在所述改进的中文依存句法树中增加CLS标识符号的对应节点与所有分词之间的依赖关系,所述CLS标识符号为BERT模型进行编码时添加在所述原始文本序列上的;将所述改进的中文依存句法树中词与词之间的依赖关系转换为字与字之间的依赖关系,得到字邻接图;将所述字邻接图输入至预训练的图卷积神经网络GCN模型,得到词与词之间、字与字之间的句法结构特征;通过自学习权重的门网络结构融合所述上下文语义特征和所述句法结构特征,得到联合特征,根据所述联合特征识别文本中的实体并判断实体间的关系类型。2.根据权利要求1所述的基于多特征融合的实体关系联合抽取方法,其特征在于,所述根据预训练的BERT模型对原始文本的文本序列进行编码,得到原始文本的上下文语义特征,包括:获取所述原始文本的文本序列,在所述文本序列的首部添加CLS标识符号,在所述文本序列的尾部添加SEP标识符号;将所述文本序列输入至预训练BERT模型,提取所述文本序列中每个字对应的上下文语义特征。3.根据权利要求1所述的基于多特征融合的实体关系联合抽取方法,其特征在于,所述根据原始文本中词与词之间的依赖关系构建改进的中文依存句法树,在所述中文依存句法树中增加CLS标识符号的对应节点与所有分词之间的依赖关系,所述CLS标识符号为BERT模型进行编码时添加在所述原始文本序列上的;将所述改进的中文依存句法树中词与词之间的依赖关系转换为字与字之间的依赖关系,得到字邻接图,包括:基于自然语言处理工具包spacy提取所述原始文本的文本分词,构建所述文本分词的原始句法依赖树;在所述原始句法依赖树中增加CLS节点与所有分词之间的依赖关系,得到改进句法依赖树;所述CLS节点为CLS标识符号的对应节点;根据所述改进句法依赖树、所述文本分词之间的依赖关系,以及CLS节点与分词之间的关系,以及文本分词中字与字之间的关系,生成文本序列的字邻接图。4.根据权利要求3所述的基于多特征融合的实体关系联合抽取方法,其特征在于,所述基于自然语言处理工具包spacy提取所述原始文本的文本分词,构建所述文本分词的改进句法依赖树,包括:对所述原始文本进行分词,提取文本分词,在原始文本首部添加一个CLS标识符号;以实有向边表示文本分词之间的依赖关系,以虚有向边表示每个文本分词与CLS标识符号的依赖关系,生成文本分词的改进句法依赖树。5.根据权利要求3所述的基于多特征融合的实体关系联合抽取方法,其特征在于,所述根据所述改进句法依赖树、所述文本分词之间的依赖关系,以及分词与CLS节点的依赖关系,以及文本分词中字与字之间的关系,生成文本序列的字邻接图,包括:以无向实线表示文本分词中字与字之间的字依赖边;将所述改进句法依赖树中文本分词间的实有向边改为无向实线,以生成句法依赖边;
其中,无向实线的第一端连接实有向边的起始文本分词的最后一个字,无向实线的第二端连接实有向边的指向文本分词的第一个字;以无向虚线表示每个字与CLS标识符号的全文依赖边,得到字邻接图。6.根据权利要求5所述的基于多特征融合的实体关系联合抽取方法,其特征在于...

【专利技术属性】
技术研发人员:秦丽郝志刚刘冲
申请(专利权)人:华中农业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1