一种基于多实例协同对抗训练的远程监督关系抽取方法技术

技术编号：26531450 阅读：28 留言：0更新日期：2020-12-01 14:12

本发明专利技术公开了一种基于多实例协同对抗训练的远程监督关系抽取方法，以解决远程监督关系抽取任务中传统多实例学习框架存在的较低的数据使用效率的问题。数据使用率较低的问题是由多实例学习框架倾向于只关注包内的高质量语句，而忽视大量的潜在噪声语句造成的。而本发明专利技术的方法协同虚拟对抗训练和对抗训练，分别约束包内的噪声样本和包级的准确特征，在解决数据利用率问题的同时进一步强化模型性能。该方法在效果上优于近些年来一些主流的相关算法。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多实例协同对抗训练的远程监督关系抽取方法
本专利技术涉及自然语言处理，尤其涉及一种基于多实例协同对抗训练的远程监督关系抽取方法。
技术介绍
自然语言处理(NatureLanguageProcessing，简称NLP)是一门集语言学与计算机科学为一体的交叉学科。关系抽取(RelationExtraction，简称RE)作为信息抽取中的关键子任务，其在自动化知识库构建过程中扮演着至关重要的角色。它的主要目标是基于给出的上下文(Context)句子和指定的实体(Entity)对，判断实体对之间的关系类别。对于无关系的实体对，一般用特殊的关系类别(NA)来指代。传统的关系抽取模型依赖于大量人工标注的数据，这些数据的获取过程往往是极其费时费力的。因此，远程监督方法被自然地引入到关系抽取任务当中，通过外部知识库自动构建训练语料。其具体做法是将无标注语料中的实体对与已存在的知识库事实(KBFact)对齐，启发式地赋予无标注语料以标签。但是基于远程监督构建的语料往往存在着数据噪声问题，简单的启发式匹配往往会导致错误标签的引入(FalsePositive&FalseNegative)，这给构建一个准确而稳定的关系抽取模型带来了挑战。为了缓解噪声问题，主流方法通常采用多实例学习(Multi-InstanceLearning)，将包含相同实体对的句子归并为包(Bag)作为新的训练单元。在包内，模型会根据当前的后验信息，动态选择赋予不同质量的句子以不同的权重，从而形成一个较为准确的包级特征表达，模型最终将基于

【技术保护点】
1.一种基于多实例协同对抗训练的远程监督关系抽取方法，其特征在于，包括以下步骤：/nS1：获取由句子实例构成的训练数据，并通过远程监督使其对齐到知识库，将含有相同实体对的句子实例构建成包，每个包中的所有句子实例具有相同的关系标签；/nS2：针对S1中构建的每个包，基于多实例学习框架中蕴含的注意力信号，对包内所有句子实例的特征进行加权，获得包级特征并计算交叉熵损失约束，同时根据注意力信号确定潜在的包内噪声实例；/nS3：针对S1中构建的每个包，在其包级特征的对抗方向上添加第一扰动向量，使扰动向量添加前后多实例学习框架输出的关系标签变化量最大，再计算在第一扰动向量添加后每个包的局部光滑度约束；/nS4：针对S1中构建的每个包，在输入层向每个包内噪声实例添加虚拟对抗方向上的第二扰动向量，使扰动向量添加前后多实例学习框架输出的条件概率变化量最大，再计算第二扰动向量添加后每个包的局部平滑性约束；/nS5：对S2中得到的交叉熵损失约束、S3中得到的局部光滑度约束和S4中得到的局部平滑性约束进行加权求和，作为协同多实例协同对抗学习的综合约束；以最小化所述训练数据中所有包的综合约束平均值为目标，利用随...

【技术特征摘要】
1.一种基于多实例协同对抗训练的远程监督关系抽取方法，其特征在于，包括以下步骤：
S1：获取由句子实例构成的训练数据，并通过远程监督使其对齐到知识库，将含有相同实体对的句子实例构建成包，每个包中的所有句子实例具有相同的关系标签；
S2：针对S1中构建的每个包，基于多实例学习框架中蕴含的注意力信号，对包内所有句子实例的特征进行加权，获得包级特征并计算交叉熵损失约束，同时根据注意力信号确定潜在的包内噪声实例；
S3：针对S1中构建的每个包，在其包级特征的对抗方向上添加第一扰动向量，使扰动向量添加前后多实例学习框架输出的关系标签变化量最大，再计算在第一扰动向量添加后每个包的局部光滑度约束；
S4：针对S1中构建的每个包，在输入层向每个包内噪声实例添加虚拟对抗方向上的第二扰动向量，使扰动向量添加前后多实例学习框架输出的条件概率变化量最大，再计算第二扰动向量添加后每个包的局部平滑性约束；
S5：对S2中得到的交叉熵损失约束、S3中得到的局部光滑度约束和S4中得到的局部平滑性约束进行加权求和，作为协同多实例协同对抗学习的综合约束；以最小化所述训练数据中所有包的综合约束平均值为目标，利用随机梯度下降对多实例学习框架进行不断优化直至收敛，得到优化后的最终模型参数；
S6：将待预测的句子实例以包的形式输入基于所述最终模型参数的多实例学习框架中，输出包内句子实例的关系标签。

2.如权利要求1所述的基于多实例协同对抗训练的远程监督关系抽取方法，其特征在于，所述S2的具体实现步骤包括：
S21：针对S1中构建的每个包，将每个包内的句子实例分别经过编码器，得到对应的特征向量；再利用多实例学习框架基于包内的关系标签计算出每个句子实例的注意力分数，以句子实例的注意力分数为该句子实例的特征向量权重值，分别对每个包内所有句子实例的特征向量进行加权求和，得到每个包的包级特征；
S22：根据预设的分数阈值，将每个包内注意力分数低于分数阈值的所有句子实例提取为需要额外进行学习的包内噪声实例；
S23：针对每个包，基于其对应的包级特征z和关系标签r，利用交叉熵损失函数约束模
型，其中交叉熵损失为：

式中：θ为多实例学习框架的模型参数，为多实例学习框架在模型参数θ和包
级特征z下预测得到关系标签为rj的概率值，rj为第j个关系标签，M为所述训练数据中关系
标签的总数。

3.如权利要求2所述的基于多实例协同对抗训练的远程监督关系抽取方法，其特征在于，所述S3的具体实现步骤包括：
S31：针对S1中构建的每个包，在其包级特征的不同方向上添加扰动向量且扰动向量的长度均等于第一邻域半径，找到添加扰动向量后多实例学习框架输出的关系标签最偏离关系标签r的一个方向，将其作为对抗方向并得到对抗方向上长度等于第一邻域半径的第一扰动向量dadv；
S32：根据确定的对抗方向上的第一扰动向量dadv，计算在第一扰动...

【专利技术属性】
技术研发人员：庄越挺，汤斯亮，肖俊，陈涛，吴飞，李晓林，谭炽烈，蒋韬，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人