一种基于多依存关系表示机制的图卷积网络关系抽取方法技术

技术编号：29614670 阅读：39 留言：0更新日期：2021-08-10 18:29

本发明专利技术提出了一种基于多依存关系表示机制的图卷积网络关系抽取方法，对采集到的非结构化文本开展预处理，包括分句、分词、词性标注、实体类型标注、关系类型标注，生成每个分词的语义嵌入向量，对句子进行依存关系分析，生成依存关系树；基于双向长短期记忆循环神经网络捕捉句子的上下文语义特征；根据依存关系树生成全邻接矩阵、集中邻接矩阵和距离权重邻接矩阵，结合句子的上下文语义特征，对邻接矩阵、集中邻接矩阵和距离权重邻接矩阵进行卷积运算，再对卷积运算后的结果进行最大池化处理，获得句子表示向量；基于前馈神经网络获取实体关系特征信息，进行实体关系分类。本发明专利技术能够更好地辅助关系抽取，提升了识别精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多依存关系表示机制的图卷积网络关系抽取方法
本专利技术涉及自然语言处理领域，具体涉及一种基于多依存关系表示机制的图卷积网络关系抽取方法。
技术介绍
大数据时代，互联网信息激增，如何有效地从海量非结构化文本中挖掘出高质量、结构化的知识信息，是自然语言处理技术研究的难点。关系抽取是信息抽取的一项重要环节，其目的是对文本中的实体进行语义关系分类。关系分类分为有监督分类法、无监督分类法、半监督分类法以及开放域分类法。目前，基于深度神经网络的有监督式抽取方式是关系抽取的主流。深度神经网络可习得文本的语义特征。近年来，由于图卷积网络(GraphConvolutionalNetwork,GCN)在表征句子结构及语义依存关系方面的强大优势，被广泛应用于关系抽取、文本分类、情感分类。并且，其并行式的运算框架，使模型在运算效率上得到大幅提升。关系抽取中，句子通常含有指示实体关系的特征词，如“马云创建阿里巴巴”中的“创建”。通过句法分析构建句子依存关系树(图)，并通过一定方式筛选出依存关系树(图)上的关系指示词，可帮助关系抽取模型提升分类效果。因此，有些学者通过抽取最短依存路径上节点作为关系关键词辅助关系抽取；有些则将最短依存路径上的节点信息扩展到其所连接的子树；还有则是通过设定依存关系树的层数来控制输入节点数量。以上方法都是基于预定义的依存路径方式来获取表征实体关系的关键词，它潜在假设关系关键词一定会在预先设定的依存路径上出现，但由于语言的多样性以及句式结构的复杂性，使得这种预定义的筛选方式适用性不强，导致模型容易忽略掉...

【技术保护点】
1.一种基于多依存关系表示机制的图卷积网络关系抽取方法，其特征在于，包括如下步骤：/n步骤1，对采集到的非结构化文本开展预处理，包括分句、分词、词性标注、实体类型标注、关系类型标注，生成每个分词的语义嵌入向量，对句子进行依存关系分析，生成依存关系树；/n步骤2，基于双向长短期记忆循环神经网络捕捉句子的上下文语义特征；/n步骤3，根据依存关系树生成全邻接矩阵、集中邻接矩阵和距离权重邻接矩阵，结合句子的上下文语义特征，对全邻接矩阵、集中邻接矩阵和距离权重邻接矩阵进行卷积运算，再对卷积运算后的结果进行最大池化处理，获得句子表示向量；/n步骤4，基于前馈神经网络获取实体关系特征信息，进行实体关系分类。/n

【技术特征摘要】
1.一种基于多依存关系表示机制的图卷积网络关系抽取方法，其特征在于，包括如下步骤：
步骤1，对采集到的非结构化文本开展预处理，包括分句、分词、词性标注、实体类型标注、关系类型标注，生成每个分词的语义嵌入向量，对句子进行依存关系分析，生成依存关系树；
步骤2，基于双向长短期记忆循环神经网络捕捉句子的上下文语义特征；
步骤3，根据依存关系树生成全邻接矩阵、集中邻接矩阵和距离权重邻接矩阵，结合句子的上下文语义特征，对全邻接矩阵、集中邻接矩阵和距离权重邻接矩阵进行卷积运算，再对卷积运算后的结果进行最大池化处理，获得句子表示向量；
步骤4，基于前馈神经网络获取实体关系特征信息，进行实体关系分类。

2.根据权利要求1所述的基于多依存关系表示机制的图卷积网络关系抽取方法，其特征在于，步骤1中，对采集到的非结构化文本开展预处理，包括分词、词性标注、实体类型标注、关系类型标注，并将这些词转化为计算机可处理的嵌入向量编码，具体方法为：
步骤1.1，首先，以句号为分隔符，对文本开展分句；其次，对句子进行分词、词性分析、依存关系分析；然后，以句子为单位，标注实体对和实体关系类型，形成有标注的句子语料；
步骤1.2，将经过预处理的语句分词映射到语义向量空间中的一个d维子空间，即语义嵌入，具体过程按照以下公式进行：

其中，et是嵌入后对应于每个分词的语义嵌入向量，分别为词嵌入向量、实体类别嵌入向量、词性嵌入向量，为向量连接运算，词嵌入向量由语言模型生成的编码库表生成，实体类型嵌入向量和词性嵌入向量则是根据文本预处理中实体识别和词性分析的结果进行编码而得。

3.根据权利要求1所述的基于多依存关系表示机制的图卷积网络关系抽取方法，其特征在于，步骤2中，基于双向长短期记忆循环神经网络捕捉句子的上下文语义特征，具体方法为：
双向长短期记忆循环神经网络分别由一个正向LSTM网络传播层和一个反向LSTM网络传播层叠加而成，其各自网络的隐藏层状态向量计算如下：

其中，LSTM(·)为长短期记忆单元运算，et是每个分词的语义嵌入向量，和分别为对应于各分词的正向和反向循环神经网络隐藏层状态向量，ht为对应于各分词在双向长短期记忆循环神经网络中的输出向量，也即句子的上下文语义特征。

4.根据权利要求1所述的基于多依存关系表示机制的图卷积网络关系抽取方法，其特征在于，步骤3中，基于依存关系树生成全邻接矩阵、集中邻接矩阵和距离权重邻接矩阵，结合句子的上下文语义特征，对全邻接矩阵、集中邻接矩阵和距离权重邻接矩阵进行卷积运算，再对卷积运算后的结果进行最大池化处理，获得句子表示向量，具体方法为：
1)依存关系结构的矩阵表示
a)构建全邻接矩阵
全邻接矩阵用于表征依存关系树上所有节点之间的邻接关系，具体地，具有n个节点的图或树的全邻接矩阵定义为n阶方阵A＝(aij)n×n，其中：

b)构建集中邻接矩阵
将最短依存路径上的节点信息作为反映实体关系的强特征信息，将最短依存路径提供的节点信息用集中邻接矩阵表示，具体地，...

【专利技术属性】
技术研发人员：沈红，刘欣，刘午凌，罗晋，彭晨，闵飞，乔雪，
申请(专利权)人：中国科学院电子学研究所苏州研究院，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人