一种用于含噪稀疏文本的语义关系抽取方法技术

技术编号：23085466 阅读：24 留言：0更新日期：2020-01-11 01:17

本发明专利技术公开了一种用于含噪稀疏文本的语义关系抽取方法，包括以下步骤：建立训练样本集；构建语义关系抽取模型；训练语义关系抽取模型；建立待抽取语义的数据集；利用训练好的语义关系抽取模型从待抽取语义的数据集中提取语义关系。本发明专利技术方法采用不同的卷积神经网络分别提取分词序列和对应依存路径的特征，避免了错误积累，比传统基于特征和核的关系抽取方法，有明显的效果提升；充分利用关系实例的两种信息表示，通过特征融合层将二者有效结合，为准确预测目标实体对的语义关系提供更全面的信息；加入多实例学习方法，用于在样本稀疏条件下的噪声抑制，与注意力机制相比，该机制不存在欠拟合问题，更适合稀疏样本下的语义关系抽取问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种用于含噪稀疏文本的语义关系抽取方法
本专利技术属于中文文本语义关系抽取领域，具体涉及一种在含有噪声的稀疏中文文本中进行实体语义关系抽取的方法。
技术介绍
近年来，知识图谱在一系列知识驱动的应用中发挥极其重要的作用，例如，机器翻译、推荐系统和问答系统等，而关系抽取技术是知识图谱自动构建的关键一环，具有重要的现实意义。关系抽取是通过理解非结构化文本所包含的语义信息，获得标注实体对的语义关系的过程。当前，主流的关系抽取方法是基于有监督和远程监督的关系抽取方法。传统的有监督关系抽取方法受自然语言处理工具中错误累积的影响，为了避免这一问题，神经网络开始广泛用于文本的嵌入表示，自动提取文本语义特征。监督方法需要明确的人工注释文本，标注过程耗时耗力。为了解决这一问题，提出了一种替代范式，即远程监督。该范式利用现有知识图谱Freebase提供监督，启发式地将文本与Freebase对齐，来生成大量弱注释数据。很明显，这种启发式对齐方法会带来噪声数据，这会严重影响关系抽取器的性能。为了解决错误的注释问题，多实例学习方法被提出可以用来缓解远程监督下的错误标注问题，另外，选择性注意机制具有可训练的参数，通过学习，拟合在噪声上的概率分布，并动态地去削弱噪声实例影响。然而，在数据稀疏情况下，传统的注意力机制和多实例学习并不能很好地拟合在噪声数据上的概率分布，使得从含噪的稀疏文本中对语义关系进行抽取的效果并不理想。另外，现有的关系抽取方法在英文语料上发展较为先进，而在中文语料的关系抽取研究相对落后。
技术实现思路
...

【技术保护点】
1.一种用于含噪稀疏文本的语义关系抽取方法，其特征在于，包括以下步骤：/n步骤1，建立中文文本训练样本集；/n步骤2，构建语义关系抽取模型；/n步骤3，训练语义关系抽取模型；/n步骤4，建立待抽取语义的数据集；/n步骤5，利用训练好的语义关系抽取模型从待抽取语义的数据集中提取语义关系。/n所述的训练样本集是利用知识图谱远程监督维基百科上的语料自动生成弱标注的数据，每条训练实例包含目标实体对、分词序列、依存路径和弱监督标签；/n所述的依存路径为最短依存路径，定义为：在句法分析依存树中实体对之间的最短路径。/n

【技术特征摘要】
1.一种用于含噪稀疏文本的语义关系抽取方法，其特征在于，包括以下步骤：
步骤1，建立中文文本训练样本集；
步骤2，构建语义关系抽取模型；
步骤3，训练语义关系抽取模型；
步骤4，建立待抽取语义的数据集；
步骤5，利用训练好的语义关系抽取模型从待抽取语义的数据集中提取语义关系。
所述的训练样本集是利用知识图谱远程监督维基百科上的语料自动生成弱标注的数据，每条训练实例包含目标实体对、分词序列、依存路径和弱监督标签；
所述的依存路径为最短依存路径，定义为：在句法分析依存树中实体对之间的最短路径。

2.根据权利要求1所述的语义关系抽取方法，其特征在于，所述的语义关系抽取模型包括输入层、嵌入层、卷积层、特征融合层、全连接层，上述各层先后依次连接，所述输入层为描述某一实体对的全部分词序列和对应依存路径所构成的实例包提供一个输入接口；所述嵌入层将所输入的分词序列和对应依存路径通过表示学习方式映射到低维向量空间；所述卷积层为两个独立的卷积网络，分别用于提取实例包中所有分词序列和所有对应依存路径的语义特征；所述特征融合层将来自分词序列和对应依存路径两方面的互补语义特征进行融合；所述全连接层将实例映射至已定义的关系集合上，获得实体对之间的语义关系。

3.根据权利要求2所述的语义关系抽取方法，其特征在于，所述的语义关系抽取模型还包括多实例学习机制模块，从全连接层中获取数据，将学习的结果反馈到卷积层，指导卷积层的计算操作；所述的多实例学习机制模块在模型学习过程中选择实例包中最好的实例作为训练和预测实例，丢弃其他实例，抑制噪声实例影响。

4.根据权利要求3所述的语义关系抽取方法，其特征在于，训练语义关系抽取模型的过程为：初始化后，以交叉熵作为损失函数，通过多实例学习方法，采用随机梯度下降法对所述的语义关系抽取模型进行迭代更新模型参数，每迭代一次检验一次梯度，以寻求各网络层权重和偏置的最优解，迭代多次后得到本次训练的最优语义关系抽取模型。

5.根据权利要求2或3所述的语义关系抽取方法，其特征在于，所述输入层的输入接口数量为2，分别对应分词序列和依存路径，每一条实例的输入定义如下：其中，x代表输入的分词序列，代表分词序列中的第i个分词，s代表输入的依存路径，代表依存路径上的第i个分词；
所述的嵌入层分别将输入的分词序列和依存路径上的每一个分词映射为向量表示，每个分词的向量表示包含词向量、位置向量和词性标注向量三部分，其中词向量通过Word2Vec算法预先训练得到，包含分词的语义信息，位置向量通过随机初始化得到，包含分词在分词序列或依存路径中的位置信息，词性标注向量表示为单位向量...

【专利技术属性】
技术研发人员：赵翔，庞宁，谭真，郭爱博，殷风景，唐九阳，葛斌，肖卫东，
申请(专利权)人：中国人民解放军国防科技大学，
类型：发明
国别省市：湖南;43

全部详细技术资料下载我是这个专利的主人