本发明专利技术提供一种基于知识增强的文本生成模型,用于根据输入文本序列生成与之相关的文本序列,该模型包括编码模块和解码模块,编码模块包括:编码单元,用于将输入文本序列中的每个词编码为隐藏向量,根据每个词隐藏向量得到该词的第一语义向量;知识图谱注意力单元,用于基于知识图谱获得与每个词对应的知识图谱向量,并将每个词的知识图谱向量与该词的第一语义向量拼接得到每个词的第二语义向量;第一变分采样单元,用于对第二语义向量进行变分采样,得到第一隐空间向量;回归采样变换单元,用于对第一隐空间向量进行自回归采样,得到第二隐空间向量;解码模块包括:解码单元,用于根据第二隐空间向量进行解码生成与输入文本序列相关的文本序列。列相关的文本序列。列相关的文本序列。
【技术实现步骤摘要】
一种基于知识增强的文本生成模型及其训练方法
[0001]本专利技术涉及自然语言处理
,具体来说涉及一种基于知识增强的文本生成模型及其训练方法。
技术介绍
[0002]在自然语言生成中,生成问题一直都是自然语言处理的一大挑战,而深度学习的应用在自然语言生成中起到了重大作用。虽然针对自然语言生成提出的模型很多,但是大部分模型的实际应用效果都不理想。其中,导致模型生成文本的效果不理想的问题的根本原因如下:
[0003]1)在小数据集的背景下训练得到的大部分模型的实际生成的文本单一枯燥、文本不够准确。一方面,通过简单的模型堆叠且仅用数据集监督训练得到的模型,导致生成文本序列趋于数据集的文字风格,文本单一枯燥,没有新颖的、脱离数据集的文字,并且生成的文本不可控。另一方面,小数据集下训练的模型会导致模型收敛太慢,很难准确获取数据中的普遍特征。因此,大部分模型初始化的参数无法契合基于小数据集的训练,会导致最终模型收敛慢、不准确,同时,还会导致生成的文本单一枯燥。
[0004]2)现有基于Encoder
‑
Decoder的框架下衍生出一代经典的序列到序列(Seq
‑
to
‑
Seq)模型实际生成的文本不准确。该序列到序列模型将序列输入到其编码器进行编码,通过解码器解码获得目标序列,这一方式类似于压缩解压的过程,中间难免会有语义的缺失,导致最终测试生成文本不准确,实际应用中往往不理想。
[0005]现有技术中为了克服以上文本输出不准确的问题,在序列到序列模型中会加入多个记忆网络(如LSTM等记忆网络)形成的长期记忆网络组件,目的是为了解决循环神经网络RNN在处理长期记忆(Long Term Memory)的不足导致生成文本不准确的问题;或是加入GRU网络以提升文本准确性并在一定程度上减少运算量。但是这些改进方法都是从输入文本的内部处理角度去生成,没有外部知识的加持,使得模型生成的文本格式依旧单一且枯燥,因此,亟需一种既能保障生成文本的准确性,也能提高生成文本的多样性的文本生成模型。
技术实现思路
[0006]因此,本专利技术的目的在于克服上述现有技术的缺陷,提供一种基于知识增强的文本生成模型及其训练方法。
[0007]本专利技术的目的是通过以下技术方案实现的:
[0008]根据本专利技术的第一方面,提供一种基于知识增强的文本生成模型,用于根据输入文本序列生成与之相关的文本序列,所述模型包括编码模块和解码模块,其中:所述编码模块包括:编码单元,用于将输入文本序列中的每个词编码为隐藏向量,根据每个词的隐藏向量得到该词对应的第一语义向量;知识图谱注意力单元,用于基于知识图谱获得与输入文本序列中每个词对应的知识图谱向量,并将每个词的知识图谱向量与该词对应的第一语义向量拼接,得到每个词对应的第二语义向量;第一变分采样单元,用于对输入文本序列中所
有词的第二语义向量进行变分采样,得到第一隐空间向量;回归采样变换单元,用于对第一隐空间向量进行自回归采样,得到第二隐空间向量;所述解码模块包括:解码单元,用于根据第二隐空间向量进行解码得到隐藏状态信息,并基于隐藏状态信息生成与输入文本序列相关的文本序列。
[0009]在本专利技术的一些实施例中,所述知识图谱注意力单元包括:嵌入注意力层,用于获取与输入文本序列中的每个词相关联的知识图谱,基于每个词对应的知识图谱得到每个词的用于增强语义结构化信息的语义关系图向量;图注意力层,用于基于每个词的第一语义向量和语义关系图向量,得到对应词的知识图谱向量;其中,知识图谱注意力单元将每个词的知识图谱向量与该词对应的第一语义向量拼接,得到每个词的第二语义向量。
[0010]在本专利技术的一些实施例中,所述回归采样变换单元包括全连接神经网络层,全连接神经网络层用于对第一隐空间向量进行自回归采样,得到第二隐空间向量。
[0011]在本专利技术的一些实施例中,所述第一变分采样单元用于基于高斯分布的方式对输入文本序列中所有词的第二语义向量进行变分采样,以得到第一隐空间向量,其中,所述第一变分采样单元包括:第一噪声网络层,用于生成满足高斯分布的第一噪声值;第一取均值网络层,用于确定输入文本序列中所有词的第二语义向量的均值;第一取方差网络层,用于确定输入文本序列中所有词的第二语义向量的方差值;第一变分采样层,用于基于第一噪声值、输入文本序列中所有词的第二语义向量的均值和方差值对多个第二语义向量进行变分采样操作,得到第一隐空间向量。
[0012]在本专利技术的一些实施例中,所述模型还包括:注意力机制单元,利用注意力机制基于每个词的隐藏向量对解码得到的隐藏状态信息进行处理,得到每个词的上下文语义向量;第二变分采样单元,用于基于高斯分布的方式对所有词的上下文语义向量进行变分采样,得到第三隐空间向量;其中,所述解码单元用于根据第二隐空间向量和第三隐空间向量进行解码生成与输入文本序列相关的文本序列。
[0013]在本专利技术的一些实施例中,所述第二变分采样单元包括:第二噪声网络层,用于生成满足高斯分布的第二噪声值;第二取均值网络层,用于确定所有词的上下文语义向量的均值;第二取方差网络层,用于确定所有词的上下文语义向量的方差值;第二变分采样层,用于基于第二噪声值、所有词的上下文语义向量的均值和方差值对上下文语义向量进行变分采样操作,得到第三隐空间向量。
[0014]根据本专利技术的第一方面,提供一种用于本专利技术第一方面的文本生成模型的训练方法,所述方法包括对模型进行多次迭代训练,其中,每次迭代训练包括:获取训练集,其中,训练集中的样本数据为输入文本序列,标签为与输入文本序列相关的文本序列;利用训练集训练文本生成模型根据样本的输入文本序列学习生成与该输入文本序列相关的文本序列;基于当轮全部样本的标签和生成的文本序列间的差异以及输入文本序列对应的隐空间向量的真实分布与预设的先验分布间的差异,计算总损失;根据总损失进行反向传播更新文本生成模型的参数。
[0015]在本专利技术的一些实施例中,所述总损失通过以下方式进行计算:
[0016][0017]其中,表示总损失,表示基于输入文本序列x生成的文本序列y和标签之间的差异值,表示第一隐空间向量z服从先验分布服从先验分布表示第三隐空间向量att服从先验分布γ
KL
表示权重参数,α
kg
表示权重参数,表示第三隐空间向量att的先验分布和其真实分布p(att)间的差异值,KL(
·
)表示散度,β
att
表示权重参数,表示第一隐空间向量z的先验分布和其真实分布p(z)间的差异值,其中,α
kg
大于β
att
,α
kh
+β
att
=1。
[0018]根据本专利技术的第三方面,提供一种用于文本生成的方法,所述方法包括:利用本专利技术第二方面所述方法训练的文本生成模型对输入文本序列进行处理,生成与输入文本序列相关的文本序列。
[0019]根据本专利技术的第四方面,提本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于知识增强的文本生成模型,用于根据输入文本序列生成与之相关的文本序列,其特征在于,所述模型包括编码模块和解码模块,其中:所述编码模块包括:编码单元,用于将输入文本序列中的每个词编码为隐藏向量,根据每个词的隐藏向量得到该词对应的第一语义向量;知识图谱注意力单元,用于基于知识图谱获得与输入文本序列中每个词对应的知识图谱向量,并将每个词的知识图谱向量与该词对应的第一语义向量拼接,得到每个词对应的第二语义向量;第一变分采样单元,用于对输入文本序列中所有词的第二语义向量进行变分采样,得到第一隐空间向量;回归采样变换单元,用于对第一隐空间向量进行自回归采样,得到第二隐空间向量;所述解码模块包括:解码单元,用于根据第二隐空间向量进行解码得到隐藏状态信息,并基于隐藏状态信息生成与输入文本序列相关的文本序列。2.根据权利要求1所述的模型,其特征在于,所述知识图谱注意力单元包括:嵌入注意力层,用于获取与输入文本序列中的每个词相关联的知识图谱,基于每个词对应的知识图谱得到每个词的用于增强语义结构化信息的语义关系图向量;图注意力层,用于基于每个词的第一语义向量和语义关系图向量,得到对应词的知识图谱向量;其中,知识图谱注意力单元将每个词的知识图谱向量与该词对应的第一语义向量拼接,得到每个词的第二语义向量。3.根据权利要求1所述的模型,其特征在于,所述回归采样变换单元包括全连接神经网络层,全连接神经网络层用于对第一隐空间向量进行自回归采样,得到第二隐空间向量。4.根据权利要求1所述的模型,其特征在于,所述第一变分采样单元用于基于高斯分布的方式对输入文本序列中所有词的第二语义向量进行变分采样,以得到第一隐空间向量,其中,所述第一变分采样单元包括:第一噪声网络层,用于生成满足高斯分布的第一噪声值;第一取均值网络层,用于确定输入文本序列中所有词的第二语义向量的均值;第一取方差网络层,用于确定输入文本序列中所有词的第二语义向量的方差值;第一变分采样层,用于基于第一噪声值、输入文本序列中所有词的第二语义向量的均值和方差值对多个第二语义向量进行变分采样操作,得到第一隐空间向量。5.根据权利要求1
‑
4任一项所述的模型,其特征在于,所述模型还包括:注意力机制单元,利用注意力机制基于每个词的隐藏向量对解码得到的隐藏状态信息进行处理,得到每个词的上下文语义向量;第二变分采样单元,用于基于高斯分布的方式对所有词的上下文语义向量进行变分采样,得到第三隐空间向量;其中,所述解码单元用于根据第二隐空间向量和第三隐空...
【专利技术属性】
技术研发人员:姜怀臣,张毅阳,李冬冬,
申请(专利权)人:临沂中科好孕智能技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。