一种基于多特征融合的实体关系联合抽取方法及装置制造方法及图纸

技术编号：38152018 阅读：13 留言：0更新日期：2023-07-13 09:16

本发明专利技术提供了一种基于多特征融合的实体关系联合抽取方法及装置，该方法能将预训练BERT(Bidirectional Encoder Representation from Transformers，基于Transformer的双向编码器)模型提取的上下文语义特征与通过GCN训练字邻接图得到的句法结构特征进行自适应参数融合，融合过程会通过门网络结构自主学习融合权重来实现，融合后的特征可用于实体与实体间关系的联合抽取；在抽取关系前还要将待判定的关系特征嵌入通过关系选择器中的强化学习进行特征强化，用于进一步提升关系抽取的准确率。率。率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多特征融合的实体关系联合抽取方法及装置

[0001]本专利技术涉及自然语言处理
，具体涉及一种基于多特征融合的实体关系联合抽取方法及装置。

技术介绍

[0002]文本嵌入是自然语言处理(Natural Language Processing，NLP)中语言模型与表征学习技术的统称，也称为文本的分布式表示，概念上而言，它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中，每个单词或词组被映射为实数域上的向量。目前，文本嵌入作为输入特征已被证明在许多自然语言处理任务中都是有效的，如提取文本词干、命名实体识别、文本分类和机器翻译等。
[0003]当前一部分主流的文本嵌入模型，如RNN(Recurrent Neural Network,循环神经网络)、BiLSTM(Bi
‑
directional Long Short
‑
Term Memory，双向长短期记忆网络)、IDCNN(Improved Deep Convolutional Neural Network，改进型深度卷积神经网络)、textCNN(text Convolutional Neural Network，文本分类卷积神经网络)等主要将文本看作一串字词序列来进行处理，这样就会导致词语之间或者字词的联系基本上依靠字词本身在文本中的位置顺序关系。现有研究通过注意力机制获得每个词语之间的关注关联，但是这样学习方式忽略了句法规则对词语的结构影响。同时，由于注意力机制能够捕捉到句子边缘的文本...

【技术保护点】

【技术特征摘要】
1.一种基于多特征融合的实体关系联合抽取方法，其特征在于，包括：根据预训练的BERT模型对原始文本的文本序列进行编码，得到原始文本的上下文语义特征；根据原始文本中词与词之间的依赖关系构建改进的中文依存句法树，在所述改进的中文依存句法树中增加CLS标识符号的对应节点与所有分词之间的依赖关系，所述CLS标识符号为BERT模型进行编码时添加在所述原始文本序列上的；将所述改进的中文依存句法树中词与词之间的依赖关系转换为字与字之间的依赖关系，得到字邻接图；将所述字邻接图输入至预训练的图卷积神经网络GCN模型，得到词与词之间、字与字之间的句法结构特征；通过自学习权重的门网络结构融合所述上下文语义特征和所述句法结构特征，得到联合特征，根据所述联合特征识别文本中的实体并判断实体间的关系类型。2.根据权利要求1所述的基于多特征融合的实体关系联合抽取方法，其特征在于，所述根据预训练的BERT模型对原始文本的文本序列进行编码，得到原始文本的上下文语义特征，包括：获取所述原始文本的文本序列，在所述文本序列的首部添加CLS标识符号，在所述文本序列的尾部添加SEP标识符号；将所述文本序列输入至预训练BERT模型，提取所述文本序列中每个字对应的上下文语义特征。3.根据权利要求1所述的基于多特征融合的实体关系联合抽取方法，其特征在于，所述根据原始文本中词与词之间的依赖关系构建改进的中文依存句法树，在所述中文依存句法树中增加CLS标识符号的对应节点与所有分词之间的依赖关系，所述CLS标识符号为BERT模型进行编码时添加在所述原始文本序列上的；将所述改进的中文依存句法树中词与词之间的依赖关系转换为字与字之间的依赖关系，得到字邻接图，包括：基于自然语言处理工具包spacy提取所述原始文本的文本分词，构建所述文本分词的原始句法依赖树；在所述原始句法依赖树中增加CLS节点与所有分词之间的依赖关系，得到改进句法依赖树；所述CLS节点为CLS标识符号的对应节点；根据所述改进句法依赖树、所述文本分词之间的依赖关系，以及CLS节点与分词之间的关系，以及文本分词中字与字之间的关系，生成文本序列的字邻接图。4.根据权利要求3所述的基于多特征融合的实体关系联合抽取方法，其特征在于，所述基于自然语言处理工具包spacy提取所述原始文本的文本分词，构建所述文本分词的改进句法依赖树，包括：对所述原始文本进行分词，提取文本分词，在原始文本首部添加一个CLS标识符号；以实有向边表示文本分词之间的依赖关系，以虚有向边表示每个文本分词与CLS标识符号的依赖关系，生成文本分词的改进句法依赖树。5.根据权利要求3所述的基于多特征融合的实体关系联合抽取方法，其特征在于，所述根据所述改进句法依赖树、所述文本分词之间的依赖关系，以及分词与CLS节点的依赖关系，以及文本分词中字与字之间的关系，生成文本序列的字邻接图，包括：以无向实线表示文本分词中字与字之间的字依赖边；将所述改进句法依赖树中文本分词间的实有向边改为无向实线，以生成句法依赖边；
其中，无向实线的第一端连接实有向边的起始文本分词的最后一个字，无向实线的第二端连接实有向边的指向文本分词的第一个字；以无向虚线表示每个字与CLS标识符号的全文依赖边，得到字邻接图。6.根据权利要求5所述的基于多特征融合的实体关系联合抽取方法，其特征在于...

【专利技术属性】
技术研发人员：秦丽，郝志刚，刘冲，
申请(专利权)人：华中农业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人