当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于多实例协同对抗训练的远程监督关系抽取方法技术

技术编号:26531450 阅读:28 留言:0更新日期:2020-12-01 14:12
本发明专利技术公开了一种基于多实例协同对抗训练的远程监督关系抽取方法,以解决远程监督关系抽取任务中传统多实例学习框架存在的较低的数据使用效率的问题。数据使用率较低的问题是由多实例学习框架倾向于只关注包内的高质量语句,而忽视大量的潜在噪声语句造成的。而本发明专利技术的方法协同虚拟对抗训练和对抗训练,分别约束包内的噪声样本和包级的准确特征,在解决数据利用率问题的同时进一步强化模型性能。该方法在效果上优于近些年来一些主流的相关算法。

【技术实现步骤摘要】
一种基于多实例协同对抗训练的远程监督关系抽取方法
本专利技术涉及自然语言处理,尤其涉及一种基于多实例协同对抗训练的远程监督关系抽取方法。
技术介绍
自然语言处理(NatureLanguageProcessing,简称NLP)是一门集语言学与计算机科学为一体的交叉学科。关系抽取(RelationExtraction,简称RE)作为信息抽取中的关键子任务,其在自动化知识库构建过程中扮演着至关重要的角色。它的主要目标是基于给出的上下文(Context)句子和指定的实体(Entity)对,判断实体对之间的关系类别。对于无关系的实体对,一般用特殊的关系类别(NA)来指代。传统的关系抽取模型依赖于大量人工标注的数据,这些数据的获取过程往往是极其费时费力的。因此,远程监督方法被自然地引入到关系抽取任务当中,通过外部知识库自动构建训练语料。其具体做法是将无标注语料中的实体对与已存在的知识库事实(KBFact)对齐,启发式地赋予无标注语料以标签。但是基于远程监督构建的语料往往存在着数据噪声问题,简单的启发式匹配往往会导致错误标签的引入(FalsePositive&FalseNegative),这给构建一个准确而稳定的关系抽取模型带来了挑战。为了缓解噪声问题,主流方法通常采用多实例学习(Multi-InstanceLearning),将包含相同实体对的句子归并为包(Bag)作为新的训练单元。在包内,模型会根据当前的后验信息,动态选择赋予不同质量的句子以不同的权重,从而形成一个较为准确的包级特征表达,模型最终将基于这个包层级的准确表达进行后续训练。虽然多实例学习一定程度上缓解了数据噪声问题,但是实际上它牺牲了一定的数据利用率。具体而言,为了得到一个较为可靠的包级表达,多实例学习只关注了那些具有高注意力分数的句子,并没有充分发挥大量低注意力分数句子的作用。而事实上包内句子的注意力分数分布是一个长尾分布,大部分包内句子的注意力分数都比较低,这意味着有大量潜在的信息未被多实例学习框架利用。
技术实现思路
本专利技术的目的是为了克服现有技术的不足,提供一种基于协同对抗训练的远程监督关系抽取方法。本专利技术具体通过以下技术方案实现:一种基于多实例协同对抗训练的远程监督关系抽取方法,其包括以下步骤:S1:获取由句子实例构成的训练数据,并通过远程监督使其对齐到知识库,将含有相同实体对的句子实例构建成包,每个包中的所有句子实例具有相同的关系标签;S2:针对S1中构建的每个包,基于多实例学习框架中蕴含的注意力信号,对包内所有句子实例的特征进行加权,获得包级特征并计算交叉熵损失约束,同时根据注意力信号确定潜在的包内噪声实例;S3:针对S1中构建的每个包,在其包级特征的对抗方向上添加第一扰动向量,使扰动向量添加前后多实例学习框架输出的关系标签变化量最大,再计算在第一扰动向量添加后每个包的局部光滑度约束;S4:针对S1中构建的每个包,在输入层向每个包内噪声实例添加虚拟对抗方向上的第二扰动向量,使扰动向量添加前后多实例学习框架输出的条件概率变化量最大,再计算第二扰动向量添加后每个包的局部平滑性约束;S5:对S2中得到的交叉熵损失约束、S3中得到的局部光滑度约束和S4中得到的局部平滑性约束进行加权求和,作为协同多实例协同对抗学习的综合约束;以最小化所述训练数据中所有包的综合约束平均值为目标,利用随机梯度下降对多实例学习框架进行不断优化直至收敛,得到优化后的最终模型参数;S6:将待预测的句子实例以包的形式输入基于所述最终模型参数的多实例学习框架中,输出包内句子实例的关系标签。作为优选,所述S2的具体实现步骤包括:S21:针对S1中构建的每个包,将每个包内的句子实例分别经过编码器,得到对应的特征向量;再利用多实例学习框架基于包内的关系标签计算出每个句子实例的注意力分数,以句子实例的注意力分数为该句子实例的特征向量权重值,分别对每个包内所有句子实例的特征向量进行加权求和,得到每个包的包级特征;S22:根据预设的分数阈值,将每个包内注意力分数低于分数阈值的所有句子实例提取为需要额外进行学习的包内噪声实例;S23:针对每个包,基于其对应的包级特征z和关系标签r,利用交叉熵损失函数约束模型,其中交叉熵损失为:式中:θ为多实例学习框架的模型参数,为多实例学习框架在模型参数θ和包级特征z下预测得到关系标签为rj的概率值,rj为第j个关系标签,M为所述训练数据中关系标签的总数。进一步的,所述S3的具体实现步骤包括:S31:针对S1中构建的每个包,在其包级特征的不同方向上添加扰动向量且扰动向量的长度均等于第一邻域半径,找到添加扰动向量后多实例学习框架输出的关系标签最偏离关系标签r的一个方向,将其作为对抗方向并得到对抗方向上长度等于第一邻域半径的第一扰动向量dadv;S32:根据确定的对抗方向上的第一扰动向量dadv,计算在第一扰动向量添加后每个包的局部光滑度约束LDSZ(θ):其中:表示多实例学习框架在模型参数θ和添加扰动向量后的包级特征z+dadv下预测得到关系标签为r的概率值。进一步的,所述S4的具体实现步骤包括:S41:针对S1中构建的每个包,在输入层中向包内每个噪声实例x添加的不同方向上的扰动向量且扰动向量的长度均等于第二邻域半径,找到添加扰动向量后多实例学习框架输出的条件概率最偏离添加扰动向量前多实例学习框架输出的条件概率的一个方向,将其作为虚拟对抗方向并得到虚拟对抗方向上长度等于第二邻域半径的第二扰动向量dv-adv;S42:根据确定的虚拟对抗方向上的第二扰动向量dv-adv,计算在第二扰动向量添加后每个包的局部平滑性约束LDSX(θ):其中:Xnoisy表示包内的所有噪声实例,表示计算和之间的KL散度,表示添加第二扰动向量前多实例学习框架输出的条件概率,表示添加第二扰动向量后多实例学习框架输出的条件概率。进一步的,所述S5中,协同多实例协同对抗学习的综合约束L的计算式为:其中β1和β2均为权重系数。进一步的,所述S6中,待预测的句子实例以包的形式输入基于所述最终模型参数θ*的多实例学习框架后,由多实例学习框架计算器包级特征z*,并选择条件概率最大的关系标签作为输出的关系标签预测值r*:其中:表示多实例学习框架在模型参数θ*和包级特征z*下预测得到关系标签为rj的概率值。进一步的,所述的编码器为卷积神经网络或循环神经网络。进一步的,所述的第一扰动向量dadv采用在L2范数下的线性逼近,其取值为:式中:||||2表示L2范数,表示包级特征z的梯度,表示第一邻域半径。进一步的,所述的第二扰动向量dv-adv采用在L2范数下的线性逼近,其取值为:式中:||||2表示L2范数,表示噪声实例x的梯度,表示第二邻域半径。...

【技术保护点】
1.一种基于多实例协同对抗训练的远程监督关系抽取方法,其特征在于,包括以下步骤:/nS1:获取由句子实例构成的训练数据,并通过远程监督使其对齐到知识库,将含有相同实体对的句子实例构建成包,每个包中的所有句子实例具有相同的关系标签;/nS2:针对S1中构建的每个包,基于多实例学习框架中蕴含的注意力信号,对包内所有句子实例的特征进行加权,获得包级特征并计算交叉熵损失约束,同时根据注意力信号确定潜在的包内噪声实例;/nS3:针对S1中构建的每个包,在其包级特征的对抗方向上添加第一扰动向量,使扰动向量添加前后多实例学习框架输出的关系标签变化量最大,再计算在第一扰动向量添加后每个包的局部光滑度约束;/nS4:针对S1中构建的每个包,在输入层向每个包内噪声实例添加虚拟对抗方向上的第二扰动向量,使扰动向量添加前后多实例学习框架输出的条件概率变化量最大,再计算第二扰动向量添加后每个包的局部平滑性约束;/nS5:对S2中得到的交叉熵损失约束、S3中得到的局部光滑度约束和S4中得到的局部平滑性约束进行加权求和,作为协同多实例协同对抗学习的综合约束;以最小化所述训练数据中所有包的综合约束平均值为目标,利用随机梯度下降对多实例学习框架进行不断优化直至收敛,得到优化后的最终模型参数;/nS6:将待预测的句子实例以包的形式输入基于所述最终模型参数的多实例学习框架中,输出包内句子实例的关系标签。/n...

【技术特征摘要】
1.一种基于多实例协同对抗训练的远程监督关系抽取方法,其特征在于,包括以下步骤:
S1:获取由句子实例构成的训练数据,并通过远程监督使其对齐到知识库,将含有相同实体对的句子实例构建成包,每个包中的所有句子实例具有相同的关系标签;
S2:针对S1中构建的每个包,基于多实例学习框架中蕴含的注意力信号,对包内所有句子实例的特征进行加权,获得包级特征并计算交叉熵损失约束,同时根据注意力信号确定潜在的包内噪声实例;
S3:针对S1中构建的每个包,在其包级特征的对抗方向上添加第一扰动向量,使扰动向量添加前后多实例学习框架输出的关系标签变化量最大,再计算在第一扰动向量添加后每个包的局部光滑度约束;
S4:针对S1中构建的每个包,在输入层向每个包内噪声实例添加虚拟对抗方向上的第二扰动向量,使扰动向量添加前后多实例学习框架输出的条件概率变化量最大,再计算第二扰动向量添加后每个包的局部平滑性约束;
S5:对S2中得到的交叉熵损失约束、S3中得到的局部光滑度约束和S4中得到的局部平滑性约束进行加权求和,作为协同多实例协同对抗学习的综合约束;以最小化所述训练数据中所有包的综合约束平均值为目标,利用随机梯度下降对多实例学习框架进行不断优化直至收敛,得到优化后的最终模型参数;
S6:将待预测的句子实例以包的形式输入基于所述最终模型参数的多实例学习框架中,输出包内句子实例的关系标签。


2.如权利要求1所述的基于多实例协同对抗训练的远程监督关系抽取方法,其特征在于,所述S2的具体实现步骤包括:
S21:针对S1中构建的每个包,将每个包内的句子实例分别经过编码器,得到对应的特征向量;再利用多实例学习框架基于包内的关系标签计算出每个句子实例的注意力分数,以句子实例的注意力分数为该句子实例的特征向量权重值,分别对每个包内所有句子实例的特征向量进行加权求和,得到每个包的包级特征;
S22:根据预设的分数阈值,将每个包内注意力分数低于分数阈值的所有句子实例提取为需要额外进行学习的包内噪声实例;
S23:针对每个包,基于其对应的包级特征z和关系标签r,利用交叉熵损失函数约束模
型,其中交叉熵损失为:



式中:θ为多实例学习框架的模型参数,为多实例学习框架在模型参数θ和包
级特征z下预测得到关系标签为rj的概率值,rj为第j个关系标签,M为所述训练数据中关系
标签的总数。


3.如权利要求2所述的基于多实例协同对抗训练的远程监督关系抽取方法,其特征在于,所述S3的具体实现步骤包括:
S31:针对S1中构建的每个包,在其包级特征的不同方向上添加扰动向量且扰动向量的长度均等于第一邻域半径,找到添加扰动向量后多实例学习框架输出的关系标签最偏离关系标签r的一个方向,将其作为对抗方向并得到对抗方向上长度等于第一邻域半径的第一扰动向量dadv;
S32:根据确定的对抗方向上的第一扰动向量dadv,计算在第一扰动...

【专利技术属性】
技术研发人员:庄越挺汤斯亮肖俊陈涛吴飞李晓林谭炽烈蒋韬
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1