当前位置: 首页 > 专利查询>江南大学专利>正文

基于去噪卷积神经网络的远程监督实体关系抽取方法技术

技术编号:23983753 阅读:43 留言:0更新日期:2020-04-29 12:32
基于去噪卷积神经网络的远程监督实体关系抽取方法,属于自然语言处理、实体关系抽取领域。本发明专利技术提出了一种去噪卷积神经网络的模型来进行实体的关系进行抽取。使用特征缩放层对词向量在各语义空间进行有效缩放,同时通过对卷积网络中各卷积核进行注意力权重计算,使网络可以自己学习到不同卷积核的重要性,进而进一步降低噪声的影响,达到改善模型抽取能力的目的。

Remote supervised entity relation extraction method based on denoising convolution neural network

【技术实现步骤摘要】
基于去噪卷积神经网络的远程监督实体关系抽取方法
本专利技术属于自然语言处理、实体关系抽取领域,提出一种去噪卷积神经网络模型,可以有效分析复杂文本中实体对之间的关系,从而能对实体之间的关系进行预测。
技术介绍
随着互联网的高速发展,网络中包含大量信息,但是很多信息是非结构化信息,无法被有效利用。在构建知识图谱过程中,结构化信息是十分关键的信息,而如何从大量非结构化数据中抽取结构化数据是一大难题。实体关系抽取作为信息抽取的重要任务,是指在实体识别的基础上,从非结构化文本中抽取出预先定义的实体关系。实体对的关系可被形式化描述为关系三元组<e1,r,e2>,其中,e1和e2是实体,r属于目标关系集R{r1,r2,r3,...,rn}。关系抽取的任务是从自然语言文本中抽取出关系三元组<e1,r,e2>,从而提取文本信息。基于深度学习的关系抽取依赖大量人工标注的数据集,然而人工标注耗时费力,Mintz首次提出不依赖人工标注的关系抽取,把远程监督应用到关系抽取上,从而实现利用知识库(Freebase)对数据进行自动对齐的一种标注方法。虽然这样节省了大量人工标注的时间,但是同时给远程监督的数据带来了大量噪声,如何降低相关噪声的影响成为解决该问题的主流方法。解决该问题的方法主要通过改进特征提取器和抑制错误标签。在特征提取器方面主要通过CNN或者RNN以及相关网络变体进行表示学习,由于RNN的自身特性导致其无法并行计算,同时在训练过程中容易出现梯度消失或者梯度爆炸,因而在远程监督关系抽取中一般使用CNN网络及其变体进行表示学习。PCNN(PiecewiseConvolutionNeuralNetwork)拥有良好的效果,但是由于其仅仅使用单层的卷积网络和单层的全连接网络,无法有效的对句子中无效信息进行滤除。由于深度学习中对文本进行表示是通过词向量的形式,而词向量是将文本信息映射到语义空间中进行表示的。获取词向量的方法是通过对大量文本数据进行无监督训练,从而实现对文本进行表示。这种方法虽然使得词向量有更丰富的表达,但是在类似关系抽取这种特定任务中,一些语义空间中的信息会成为噪声,进而影响模型的性能。
技术实现思路
针对上述存在问题,本专利技术提出了一种去噪卷积神经网络(DenoisingConvolutionNeuralNetwork)的模型来进行实体的关系进行抽取。使用特征缩放层对词向量在各语义空间进行有效缩放,同时通过对卷积网络中各卷积核进行注意力权重计算,使网络可以自己学习到不同卷积核的重要性,进而进一步降低噪声的影响,达到改善模型抽取能力的目的。本专利技术的技术方案:基于去噪卷积神经网络的远程监督实体关系抽取方法,步骤如下:步骤一、远程监督构建数据集首先对于原始非结构化数据使用NLP工具包对其进行命名实体标注,当一个句子中含有两个实体,且这两个实体在Freebase中是一个关系对时,那么将Freebase中的结构数据与非结构文本进行自动对齐,产生标注数据,进而构建完成远程监督数据集;步骤二、词向量以及位置信息的输入设句子表示为:Xinput={w1,w2,...,wi,...,wm},其中da是词向量的维度,db是位置信息的维度;位置信息是直接拼接在原始词向量上,位置信息主要描述当前词与两个实体的相对位置信息,由当前词与实体的相对位置在db维度进行词嵌入获取。步骤三、特征缩放及提取(1)给输入句子矩阵Xinput插入“学习”通道进行学习:Xi=WiXinput+bi(1)其中,Wi表示第i个学习通道的权重,bi表示第i个学习通道的偏置,在n维语义空间下的学习矩阵为:H=[X1,X2,...,Xi,...,Xn](2)训练时将学习矩阵H进行稀疏表示:HS=H⊙Sn(3)其中,Sn是维度为n,概率为0.5的伯努利随机变量的向量;(2)对于n个卷积核的特征输入C={p1,p2,...,pi,...,pn},其中l是句子长度,d是词向量维度,首先获取通道特征,使用该通道的特征图的平均值作为通道特征:C={Avg(p1),Avg(p2),...,Avg(pn)}(4)(3)训练过程中对通道特征进行稀疏表示:Cs=C⊙Sn(5)其中Sn是维度为n,概率为0.5的伯努利随机变量的向量;(4)对稀疏表示的通道特征进行压缩编码(5)对编码后的信息使用激活函数GELU进行非线性变换后进行解码encoder和decoder是互为可逆的网络操作,对通道特征经行sigmoid输出权重为0~1的注意力权重。(6)由公式(3)得知HS={Xs1,Xs2,...,Xsi,...,Xsn},其中Xsi为Xi的稀疏表示,通过获取的注意力权重矩阵Attention,对由公式(3)获取的Hs的数据流进行控制,其中,是对Hs进行注意力缩放后的特征表示;(7)将从n维语义空间学习到的特征值进行压缩,其中,W[1,2,...,n]是压缩层n个可学习权重,b是压缩层的可学习偏置,作用在于将n维的通过网络学习压缩至原始维度,O为通过特征缩放后的输出;对经过特征缩放的O使用k个卷积核进行卷积操作Oc=Conv(O)(11)其中,conv表示卷积操作,步骤四、计算权值Attention通过公式(4)-(8)计算注意力权值Attention,随后对提取的特征使用Attention权重按其重要程度进行过滤或者缩放;其中是卷积后的特征输出,其中oi是每个卷积核卷积后的特征表示,通过两个实体的位置将特征表示分为3个部分{oi1,oi2,oi3};步骤五、通过分段最大值池化将每个句子提取出3个主要特征:pij=max(oij),1≤i≤k,1≤j≤3(13)其中max是最大值池化操作,获取一个3维向量pi={pi1,pi2,pi3},然后将所有向量进行拼接得到p1:k,进行非线性激活:g=tanh(P1:k)(14)其中tanh是非线性激活函数Tanh,P1:k是每个句子特征分段池化后的3个句子特征,是最后的句子特征表示;步骤六、接上全连接层,进行关系分类vi=Wlg+bl(15)其中,Wl是全连接层的可学习权重,bl是全连接层的可学习偏置,vi是最后的特征表示;设有|y|个类别,经过softmax预测输出:最后目标函数优化其中θ是网络中所有可学习参数,λ是L2正则化的超参数,yi是标签,是模型预测输出。本专利技术的有益效果:提出了一种基于去噪卷积网络的远程监督关系抽取方法,旨在利用特征缩放层以及不同学习通道间的注意力来降低关系抽取任务中输入的噪音对模型关系抽取的影响。附图说明图1为本专利技术总体模型训练流程图;图2为网络中特征缩放的结构示意图;本文档来自技高网
...

【技术保护点】
1.基于去噪卷积神经网络的远程监督实体关系抽取方法,其特征在于,步骤如下:/n步骤一、远程监督构建数据集/n首先对于原始非结构化数据使用NLP工具包对其进行命名实体标注,当一个句子中含有两个实体,且这两个实体在Freebase中是一个关系对时,那么将Freebase中的结构数据与非结构文本进行自动对齐,产生标注数据,进而构建完成远程监督数据集;/n步骤二、词向量以及位置信息的输入/n设句子表示为:X

【技术特征摘要】
1.基于去噪卷积神经网络的远程监督实体关系抽取方法,其特征在于,步骤如下:
步骤一、远程监督构建数据集
首先对于原始非结构化数据使用NLP工具包对其进行命名实体标注,当一个句子中含有两个实体,且这两个实体在Freebase中是一个关系对时,那么将Freebase中的结构数据与非结构文本进行自动对齐,产生标注数据,进而构建完成远程监督数据集;
步骤二、词向量以及位置信息的输入
设句子表示为:Xinput={w1,w2,...,wi,...,wm},其中da是词向量的维度,db是位置信息的维度;位置信息是直接拼接在原始词向量上,位置信息主要描述当前词与两个实体的相对位置信息,由当前词与实体的相对位置在db维度进行词嵌入获取;
步骤三、特征缩放及提取
(1)给输入句子矩阵Xinput插入学习通道进行学习:
Xi=WiXinput+bi(1)
其中,Wi表示第i个学习通道的权重,bi表示第i个学习通道的偏置,在n维语义空间下的学习矩阵为:
H=[X1,X2,...,Xi,...,Xn](2)
训练时将学习矩阵H进行稀疏表示:
HS=H⊙Sn(3)
其中,Sn是维度为n,概率为0.5的伯努利随机变量的向量;
(2)对于n个卷积核的特征输入C={p1,p2,...,pi,...,pn},其中l是句子长度,d是词向量维度,首先获取通道特征,使用该通道的特征图的平均值作为通道特征:
C={Avg(p1),Avg(p2),...,Avg(pn)}(4)
(3)训练过程中对通道特征进行稀疏表示:
Cs=C⊙Sn(5)
其中Sn是维度为n,概率为0.5的伯努利随机变量的向量;
(4)对稀疏表示的通道特征进行压缩编码



(5)对编码后的信息使用激活函数GELU进行非线性变换后进行解码



encoder和decoder是互为可逆的网络操作,对通道特征经行sigmoid输出权重为0~1的注意力权重;

【专利技术属性】
技术研发人员:宋威朱富鑫
申请(专利权)人:江南大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1