当前位置: 首页 > 专利查询>贵州大学专利>正文

一种结合神经网络和特征演算的关系抽取方法技术

技术编号:24456161 阅读:54 留言:0更新日期:2020-06-10 15:36
本发明专利技术公开了一种结合神经网络和特征演算的关系抽取方法,所述方法包括如下步骤:步骤一:基于随机字向量对文本进行向量映射;步骤二:提取句子中的原子特征并对这些原子特征进行特征演算得到复合特征,将这些复合特征进行向量映射;步骤三:通过神经网络对字向量矩阵进行卷积池化操作提取特征;步骤四:将卷积池化后的结果与句子中的复合特征向量进行拼接;步骤五:全连接、Softmax层预测结果。在充分利用句子文本完整信息的基础上,结合特征演算方法获取到的结构及语义信息。同时引入神经网络技术,充分发挥神经网络分层自动提取高维抽象特征的特点,通过将句子字向量输入卷积池化层后得到的结果与复合特征向量相结合,这在一定程度上避免句子中字数量有限而产生的特征稀疏问题,从而有效提高关系抽取任务的实验性能。

A relation extraction method combining neural network and feature calculus

【技术实现步骤摘要】
一种结合神经网络和特征演算的关系抽取方法
本专利技术涉及一种卷积神经网络,尤其涉及一种结合神经网络和特征演算的关系抽取方法,属于自然语言处理

技术介绍
随着计算机技术的快速发展,网络中的数据量也呈指数级增长,如何从这些数据中快速、准确地分析出用户所需信息,成为人们日益关注的问题,而这正是信息抽取领域所研究的内容。信息抽取就是从结构化、半结构化或非结构化的文本中抽取出特定的信息后,保存到结构化的数据库中。关系抽取是信息抽取的子任务,是信息抽取领域的重要研究课题。关系抽取作为信息抽取研究领域的子任务,一直受到研究者们的高度重视,并进行了许多研究。关系抽取的主要目的是抽取句子中已标记实体对之间的语义关系,即在实体识别的基础上确定实体对间的关系类别,并形成结构化的数据以便用户存储和取用。关系抽取在自动问答、知识库自动构建和机器翻译等领域都有着重要研究意义。关系抽取方法可以分为基于规则和基于机器学习的方法。基于规则的方法通过人工构造规则和模式进行匹配。它的优点就是准确率高,其缺点就是需要人工构造,依赖于特定领域,且较难扩展和维护。基于机器学习的方法将关系抽取看成是一个分类问题。可以分为三种方法,无监督的、弱监督的以及有监督的。基于无监督的方法假设拥有相同语义关系的实体对拥有相似的上下文信息。因此可以利用每个实体对应上下文信息来代表该实体对的语义关系,然后对所有实体对的语义关系进行聚类。基于弱监督的方法就是对于要抽取的关系,首先手工设定若干种子实例,然后迭代地从数据中抽取关系对应的关系模板和更多的实例。有监督的方法根据训练数据设计有效的特征,从而学习各种分类模型,然后使用训练好的分类器预测关系。在这三种方法中由于有监督的方法能够抽取并有效利用特征,因此召回率和准确率更有优势,因此是该领域研究最广泛的一类方法,也是本专利技术所采用的方法。它也还可以细分为基于特征向量、核函数以及神经网络三种方法。基于特征向量的方法需要显示地将关系实例转换成分类器可以接受的特征向量。基于核函数的方法直接以结构树为处理对象,在计算关系之间距离的时候不再使用特征向量的内积而是用核函数。基于神经网络的方法直接从输入的文本中自动学习有效的特征表示。研究表明,复合特征对于关系提取任务非常有用。主要原因是具有均匀分布的高频特征对于预测关系类型作用不大,但将这些特征与其他特征相互组合会产生偏态分布,这对于识别特定的关系类型更有用。Chen等2017年提出了一种形式且系统的特征演算方法生成复合特征,其能有效获取句子中的结构及语义信息,而句子的结构及语义信息对于关系抽取任务至关重要。Chen等2019年进一步丰富了特征演算方法理论,并将该方法应用在关系抽取和实体识别任务上,通过构建最大熵分类器,取得了很好的实验性能。本专利技术在此研究基础上,将特征演算方法与神经网络相结合,发挥两者的优势,并按照“理论支撑→实证应用”的路线来展开研究。
技术实现思路
本专利技术要解决的技术问题是:提供一种结合神经网络和特征演算的关系抽取方法,在充分利用文本句子中的语义信息的基础上,利用特征演算方法获取复合特征,该复合特征能够有效获取句子中的结构及语义信息。然后利用神经网络技术分层自动提取高维抽象特征的特点,将句子中的字进行卷积池化操作之后,将得到的卷积池化结果与复合特征向量进行拼接再进行全连接、Softmax输出结果。通过利用句子中复合特征的结构及语义信息并把这些信息整合到神经网络模型中,这在一定程度上减少了由于句子中字的数量有限而产生的特征稀疏问题,从而有效提高关系抽取的性能,并解决了上述存在的部分问题。本专利技术的技术方案为:一种结合神经网络和特征演算的关系抽取方法,所述方法包括如下步骤:步骤一:基于随机字向量对文本进行向量映射;步骤二:提取句子中的原子特征并对这些原子特征进行特征演算得到复合特征,将这些复合特征进行向量映射;步骤三:通过神经网络对字向量矩阵进行卷积池化操作提取特征;步骤四:将卷积池化后的结果与句子中的复合特征向量进行拼接;步骤五:全连接、Softmax层预测结果。所述步骤一中,基于神经网络模型,使用自然语言处理中的字向量特征对文本进行向量映射,得到文本字向量矩阵。原始语句为S:S=(w1,w2,…,wi,…,wn),其中,wi表示原始句子中的字,将其用字向量映射为X:X=(x1,x2,…,xi,…,xn)。所述步骤二中,识别出实体的位置,并利用两个实体识别出句子中的其他结构及语义信息特征,这些特征可视为原子特征。然后利用特征演算方法生成复合特征,将这些复合特征进行向量映射得到文本复合特征向量矩阵。原始语句为S:S=(w1,wi+1,…,wi+k,…,wj+1,…,wj+t,…,wn),其中wi+1,…,wi+k和wj+1,…,wj+t表示原始句子中的两个实体。利用两个实体的位置识别实体左边字及其POS标记,实体之间的字及其POS标记,实体右边字及其POS标记。同时两个实体的类型,子类型及两实体相对位置信息等原子特征。然后对这些原子特征进行特征演算后生成复合特征,如实体一和实体二的类型分别表示成为‘Type1’,‘Type2’,进行特征连接操作后就能得到Z=‘Type1_Type2’复合特征。将得到的所有复合特征映射成向量后得到F=Emb(Z)。所述步骤三中,对通过预训练字向量映射之后的向量矩阵X进行卷积操作,卷积结果为C:C=Conv(X),然后再将卷积后的结果进行池化得到P=Pool(C)。将池化后的结果进行拼接操作得到H=Concat(P)。所述步骤四中,对卷积池化后产生的结果与句子中的复合特征进行拼接得到H1=Concat(H,F)。步骤五是整个神经网络模型中的最终部分,通过其之前的向量化、卷积操作、池化以及拼接操作后会得到H1,将得到的H1进行全连接、Softmax操作,最后得出神经网络的输出结果。本方案在卷积池化层之后得到的向量与复合特征向量进行拼接,这也是该方案的创新之处。因为复合特征已经很好地捕获到句子的结构及语义信息,因此我们将其与卷积神经网络的输出结果做拼接而不是将其作为神经网络的输入,这样能够更好地利用句子中的结构及语义信息,且能够有效将其与神经网络提取到的抽象特征相结合进行关系抽取,以达到一个较好的性能。本专利技术的有益效果是:与现有技术相比,采用本专利技术的技术方案,在充分利用文本句子中的字信息的基础上,再识别出句子中的实体,然后识别实体之间的结构及语义信息,获取原子特征,通过利用特征演算对原子特征进行组合得到复合特征。在这些过程中引入神经网络技术,充分发挥神经网络分层自动提取高维抽象特征的特点,并将卷积池化层得到的向量与复合特征向量相结合,这在一定程度上减少了由于句子中字的数量有限而产生的特征稀疏问题,从而提高关系抽取的性能,将神经网络分层次自动抽取抽象特征的特点和特征演算能够有效获取句子结构及语义信息的优势相结合,在关系抽取任务上取得较好的实验性能。附图说明图1为本专利技术的抽取技术路线图;图2为本专利技术的抽取模型图;具体本文档来自技高网
...

【技术保护点】
1.一种结合神经网络和特征演算的关系抽取方法,其特征在于:所述方法包括如下步骤:步骤一:基于随机字向量对文本进行向量映射;步骤二:提取句子中的原子特征并对这些原子特征进行特征演算得到复合特征,将这些复合特征进行向量映射;步骤三:通过神经网络对字向量矩阵进行卷积池化操作提取特征;步骤四:将卷积池化后的结果与句子中的复合特征向量进行拼接;步骤五:全连接、Softmax层预测结果。/n

【技术特征摘要】
1.一种结合神经网络和特征演算的关系抽取方法,其特征在于:所述方法包括如下步骤:步骤一:基于随机字向量对文本进行向量映射;步骤二:提取句子中的原子特征并对这些原子特征进行特征演算得到复合特征,将这些复合特征进行向量映射;步骤三:通过神经网络对字向量矩阵进行卷积池化操作提取特征;步骤四:将卷积池化后的结果与句子中的复合特征向量进行拼接;步骤五:全连接、Softmax层预测结果。


2.根据权利要求1所述的结合神经网络和特征演算的关系抽取方法,其特征在于:所述步骤一中,基于神经网络模...

【专利技术属性】
技术研发人员:黄瑞章王国蓉陈艳平秦永彬唐瑞雪
申请(专利权)人:贵州大学
类型:发明
国别省市:贵州;52

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1