一种用于含噪稀疏文本的语义关系抽取方法技术

技术编号:23085466 阅读:24 留言:0更新日期:2020-01-11 01:17
本发明专利技术公开了一种用于含噪稀疏文本的语义关系抽取方法,包括以下步骤:建立训练样本集;构建语义关系抽取模型;训练语义关系抽取模型;建立待抽取语义的数据集;利用训练好的语义关系抽取模型从待抽取语义的数据集中提取语义关系。本发明专利技术方法采用不同的卷积神经网络分别提取分词序列和对应依存路径的特征,避免了错误积累,比传统基于特征和核的关系抽取方法,有明显的效果提升;充分利用关系实例的两种信息表示,通过特征融合层将二者有效结合,为准确预测目标实体对的语义关系提供更全面的信息;加入多实例学习方法,用于在样本稀疏条件下的噪声抑制,与注意力机制相比,该机制不存在欠拟合问题,更适合稀疏样本下的语义关系抽取问题。

【技术实现步骤摘要】
一种用于含噪稀疏文本的语义关系抽取方法
本专利技术属于中文文本语义关系抽取领域,具体涉及一种在含有噪声的稀疏中文文本中进行实体语义关系抽取的方法。
技术介绍
近年来,知识图谱在一系列知识驱动的应用中发挥极其重要的作用,例如,机器翻译、推荐系统和问答系统等,而关系抽取技术是知识图谱自动构建的关键一环,具有重要的现实意义。关系抽取是通过理解非结构化文本所包含的语义信息,获得标注实体对的语义关系的过程。当前,主流的关系抽取方法是基于有监督和远程监督的关系抽取方法。传统的有监督关系抽取方法受自然语言处理工具中错误累积的影响,为了避免这一问题,神经网络开始广泛用于文本的嵌入表示,自动提取文本语义特征。监督方法需要明确的人工注释文本,标注过程耗时耗力。为了解决这一问题,提出了一种替代范式,即远程监督。该范式利用现有知识图谱Freebase提供监督,启发式地将文本与Freebase对齐,来生成大量弱注释数据。很明显,这种启发式对齐方法会带来噪声数据,这会严重影响关系抽取器的性能。为了解决错误的注释问题,多实例学习方法被提出可以用来缓解远程监督下的错误标注问题,另外,选择性注意机制具有可训练的参数,通过学习,拟合在噪声上的概率分布,并动态地去削弱噪声实例影响。然而,在数据稀疏情况下,传统的注意力机制和多实例学习并不能很好地拟合在噪声数据上的概率分布,使得从含噪的稀疏文本中对语义关系进行抽取的效果并不理想。另外,现有的关系抽取方法在英文语料上发展较为先进,而在中文语料的关系抽取研究相对落后。
技术实现思路
有鉴于此,本专利技术的目的在于提出一种用于含噪稀疏文本的语义关系抽取方法,用于从非结构的语料中抽取结构化的知识,特别是从含噪稀疏的中文文本中进行语义关系抽取。基于上述目的,本专利技术提供的一种用于含噪稀疏文本的语义关系抽取方法,包括以下步骤:步骤1,建立中文文本训练样本集;步骤2,构建语义关系抽取模型;步骤3,训练语义关系抽取模型;步骤4,建立待抽取语义的数据集;步骤5,利用训练好的语义关系抽取模型从待抽取语义的数据集中提取语义关系。所述的训练样本集是利用知识图谱远程监督维基百科上的语料自动生成弱标注的数据,每条训练实例包含目标实体对、分词序列、依存路径和弱监督标签;所述的依存路径为最短依存路径,定义为:在句法分析依存树中实体对之间的最短路径。进一步地,所述的语义关系抽取模型包括输入层、嵌入层、卷积层、特征融合层、全连接层,上述各层先后依次连接,所述输入层为描述某一实体对的全部分词序列和对应依存路径所构成的实例包提供一个输入接口;所述嵌入层将所输入的分词序列和对应依存路径通过表示学习方式映射到低维向量空间;所述卷积层为两个独立的卷积网络,分别用于提取实例包中所有分词序列和所有对应依存路径的语义特征;所述特征融合层将来自分词序列和对应依存路径两方面的互补语义特征进行融合;所述全连接层将实例映射至已定义的关系集合上,获得实体对之间的语义关系。进一步地,所述的语义关系抽取模型还包括多实例学习机制模块,从全连接层中获取数据,将学习的结果反馈到卷积层,指导卷积层的计算操作;所述的多实例学习机制模块在模型学习过程中选择实例包中最好的实例作为训练和预测实例,丢弃其他实例,抑制噪声实例影响。具体地,步骤3中,训练语义关系抽取模型的过程为:初始化后,以交叉熵作为损失函数,通过多实例学习方法,采用随机梯度下降法对所述的语义关系抽取模型进行迭代更新模型参数,每迭代一次检验一次梯度,以寻求各网络层权重和偏置的最优解,迭代多次后得到本次训练的最优语义关系抽取模型。由此,在步骤5中,利用训练好的语义关系抽取模型,对含有噪声的中文文本进行语义关系抽取,从非结构文本数据中获得结构化知识。与现有技术相比,本专利技术以下优点和有益效果:(1)本专利技术采用不同的卷积神经网络分别提取分词序列和对应依存路径的特征,自动生成嵌入表示,避免了错误积累,比传统基于特征和核的关系抽取方法,有明显的效果提升。(2)本专利技术充分利用关系实例的两种信息表示,即分词序列和依存路径,通过特征融合层将二者有效结合,为准确预测目标实体对的语义关系提供更全面的信息。(3)本专利技术在模型基础上,加入多实例学习方法,用于在中文样本稀疏条件下的噪声抑制,与注意力机制相比,该机制不存在欠拟合问题,更适合稀疏样本下的语义关系抽取问题。本专利技术方法针对现有技术中数据构造依赖人力、去噪方法在中文样本稀疏情况下欠拟合和没有充分利用语义信息等问题,分别提出了具体的解决方法,可以更加有效减少噪声影响,更加充分获取语义信息,从而更准确地预测关系,可靠性强。附图说明图1为本专利技术实施例的整体流程示意图;图2为本专利技术的语义关系抽取模型的结构示意图。具体实施方式下面结合附图对本专利技术作进一步的说明,但不以任何方式对本专利技术加以限制,基于本专利技术教导所作的任何变换或替换,均属于本专利技术的保护范围。如图1所示,一种用于含噪稀疏文本的语义关系抽取方法,包括以下步骤:步骤1,建立中文文本训练样本集;步骤2,构建语义关系抽取模型;步骤3,训练语义关系抽取模型;步骤4,建立待抽取语义的数据集;步骤5,利用训练好的语义关系抽取模型从待抽取语义的数据集中提取语义关系。所述的训练样本集是利用知识图谱远程监督维基百科上的语料自动生成弱标注的数据,每条训练实例包含目标实体对、分词序列、依存路径和弱监督标签。对于每一条中文文本,预先确定其中包含的实体对,通过分词工具得到原文本的分词序列,通过句法分析工具得到句法分析树,并从中提取出依存路径。将相同实体对的实例放在一起,成为一个实例包,为后续的多实例学习机制的去噪做数据准备。所述的依存路径为最短依存路径,定义为:在句法分析依存树中实体对之间的最短路径。如图2所示,所述的语义关系抽取模型包括输入层、嵌入层、卷积层、特征融合层、全连接层,上述各层先后依次连接,所述输入层为描述某一实体对的全部分词序列和对应依存路径所构成的实例包提供一个输入接口;所述嵌入层将所输入的分词序列和对应依存路径通过表示学习方式映射到低维向量空间;所述卷积层为两个独立的卷积网络,分别用于提取实例包中所有分词序列和所有对应依存路径的语义特征;所述特征融合层将来自分词序列和对应依存路径两方面的互补语义特征进行融合;所述全连接层将实例映射至已定义的关系集合上,获得实体对之间的语义关系。所述的语义关系抽取模型还包括多实例学习机制模块,从全连接层中获取数据,将学习的结果反馈到卷积层,指导卷积层的计算操作;所述的多实例学习机制模块在模型学习过程中选择实例包中最好的实例作为训练和预测实例,丢弃其他实例,抑制噪声实例影响。具体地,所述输入层为描述某一实体对的全部分词序列和对应依存路径所构成的实例包提供一个输入接口,在本实施例下,输入接口数量为2,分别对应分词序列和依存路径,每一条实例的输入定义如下:其中,x代表本文档来自技高网...

【技术保护点】
1.一种用于含噪稀疏文本的语义关系抽取方法,其特征在于,包括以下步骤:/n步骤1,建立中文文本训练样本集;/n步骤2,构建语义关系抽取模型;/n步骤3,训练语义关系抽取模型;/n步骤4,建立待抽取语义的数据集;/n步骤5,利用训练好的语义关系抽取模型从待抽取语义的数据集中提取语义关系。/n所述的训练样本集是利用知识图谱远程监督维基百科上的语料自动生成弱标注的数据,每条训练实例包含目标实体对、分词序列、依存路径和弱监督标签;/n所述的依存路径为最短依存路径,定义为:在句法分析依存树中实体对之间的最短路径。/n

【技术特征摘要】
1.一种用于含噪稀疏文本的语义关系抽取方法,其特征在于,包括以下步骤:
步骤1,建立中文文本训练样本集;
步骤2,构建语义关系抽取模型;
步骤3,训练语义关系抽取模型;
步骤4,建立待抽取语义的数据集;
步骤5,利用训练好的语义关系抽取模型从待抽取语义的数据集中提取语义关系。
所述的训练样本集是利用知识图谱远程监督维基百科上的语料自动生成弱标注的数据,每条训练实例包含目标实体对、分词序列、依存路径和弱监督标签;
所述的依存路径为最短依存路径,定义为:在句法分析依存树中实体对之间的最短路径。


2.根据权利要求1所述的语义关系抽取方法,其特征在于,所述的语义关系抽取模型包括输入层、嵌入层、卷积层、特征融合层、全连接层,上述各层先后依次连接,所述输入层为描述某一实体对的全部分词序列和对应依存路径所构成的实例包提供一个输入接口;所述嵌入层将所输入的分词序列和对应依存路径通过表示学习方式映射到低维向量空间;所述卷积层为两个独立的卷积网络,分别用于提取实例包中所有分词序列和所有对应依存路径的语义特征;所述特征融合层将来自分词序列和对应依存路径两方面的互补语义特征进行融合;所述全连接层将实例映射至已定义的关系集合上,获得实体对之间的语义关系。


3.根据权利要求2所述的语义关系抽取方法,其特征在于,所述的语义关系抽取模型还包括多实例学习机制模块,从全连接层中获取数据,将学习的结果反馈到卷积层,指导卷积层的计算操作;所述的多实例学习机制模块在模型学习过程中选择实例包中最好的实例作为训练和预测实例,丢弃其他实例,抑制噪声实例影响。


4.根据权利要求3所述的语义关系抽取方法,其特征在于,训练语义关系抽取模型的过程为:初始化后,以交叉熵作为损失函数,通过多实例学习方法,采用随机梯度下降法对所述的语义关系抽取模型进行迭代更新模型参数,每迭代一次检验一次梯度,以寻求各网络层权重和偏置的最优解,迭代多次后得到本次训练的最优语义关系抽取模型。


5.根据权利要求2或3所述的语义关系抽取方法,其特征在于,所述输入层的输入接口数量为2,分别对应分词序列和依存路径,每一条实例的输入定义如下:其中,x代表输入的分词序列,代表分词序列中的第i个分词,s代表输入的依存路径,代表依存路径上的第i个分词;
所述的嵌入层分别将输入的分词序列和依存路径上的每一个分词映射为向量表示,每个分词的向量表示包含词向量、位置向量和词性标注向量三部分,其中词向量通过Word2Vec算法预先训练得到,包含分词的语义信息,位置向量通过随机初始化得到,包含分词在分词序列或依存路径中的位置信息,词性标注向量表示为单位向量...

【专利技术属性】
技术研发人员:赵翔庞宁谭真郭爱博殷风景唐九阳葛斌肖卫东
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利