一种文本序列生成方法及其系统技术方案

技术编号:23890823 阅读:46 留言:0更新日期:2020-04-22 06:23
本发明专利技术实施例提供的文本序列生成方法及其系统,包括:对抗网络模型包括生成器和判别器;生成器中包含特征反馈网络模块,用于从判别器中调取高阶特征,以生成指导特征向量;生成器基于指导特征向量,生成预输出文本序列的下一个词;判别器根据新构建的预输出文本序列和初始文本序列更新高阶特征;迭代执行上述步骤,直至新构建的预生成文本序列的总词数达到设定阈值时,输入至判别器进行判别,并根据分类判别结果计算更新梯度;根据更新梯度更新生成器的参数;迭代执行上述步骤直至生成器和判别器均收敛后,输出目标文本序列。本发明专利技术实施例通过增添特征转换反馈模块,将判别器提取到的特征向量输送至生成器作为指导信号,改善了生成器的生成质量。

A text sequence generation method and its system

【技术实现步骤摘要】
一种文本序列生成方法及其系统
本专利技术涉及计算机
,尤其涉及一种文本序列生成方法及其系统。
技术介绍
近年来,随着人工智能的不断发展,自然语言处理也受到了广泛关注。其中,文本生成作为自然语言处理领域中长期研究的课题之一,被应用于多种技术,如机器翻译、文本摘要、自动问答、智能客服等。文本生成旨在于连续的具体语境下,预测生成语法和语义正确的单词序列,是交互式人工智能系统不可或缺的组成部分。目前,已有许多学者在在文本生成上取得了非凡的成就。在实现文本生成任务时,我们常采用前馈神经网络和循环神经网络。然而,基本的循环神经网络往往会对训练数据的分布过分依赖,而若采用人工模板提高文本生成的质量,则其通用性和扩展性都会大大降低。目前,完全基于数据科学的文本生成方法还没能取得令人满意的成果。例如,现有技术中存在的一种应用于终端设备发布社交消息的场景中的文本生成方法及终端设备,通过对目标图像进行识别,得到该目标图像的内容信息;根据用户的用词习惯,生成与该内容信息对应的文本信息。该方法及装置主要用于解决用户为待发布的图像添加一段描述性的文本信息,导致发布消息的过程耗时较长的问题。上述方案存在如下缺陷:该方案采用深度学习模型,能根据目标图像和用户的用词习惯生成与内容信息对应的文本信息,可以减少用户构思并编辑文本信息的时间。但该方案只提出了一种可能的文本生成解决方案,并没有给出具体的算法,其文本生成的效果尚未明确。再例如,现有技术中还存在一种医疗文本的生成方法,通过利用词向量表示医疗文档的词汇并对医疗文档进行文本分类;获得医疗文档的最佳的输出序列标注;获得医疗文档的关键词集的索引,将索引随机打乱顺序,得到新的医疗文档及其对应的序列标注;采用基于生成式对抗网络的生成模型训练生成并输出医疗文本;获取生成的医疗文本的BLEU参数;对生成的医疗文本进行评估,最终得到目标医疗文本。但是该方案也存在着不可克服的缺陷,表现在:该方案利用词向量对文本进行标注并获得关键词集的索引;随后随机打乱索引,得到新的对应的序列标注;最后,基于生成式对抗网络的生成模型训练生成输出新的目标文本。这一方案,通过先获得词集的索引,然后仅根据随机打乱的索引生成新的文本,并不具有很强的自我文本生成能力,模板痕迹过重,扩展性不高。
技术实现思路
有鉴于此,本专利技术实施例提供一种文本序列生成方法及其系统,用以解决现有技术中对于生成对抗网络模型中的判别器反馈信号弱,导致生成器接收标量信号并不能有效地指导网络往正确的方向进行更新,导致收敛性差的缺陷。第一方面,本专利技术实施例提供一种文本序列生成方法,包括以下步骤:S1:将初始文本序列输入至对抗网络模型,该对抗网络模型包括生成器和判别器,该生成器中包含至少一个特征反馈网络模块。S2:特征反馈网络模块用于从判别器中调取高阶特征,并基于高阶特征生成指导特征向量。S3:生成器基于指导特征向量,生成预输出文本序列中的下一个词,并将新构建的预输出文本序列输入至判别器中。S4:判别器根据新构建的预输出文本序列和初始文本序列更新高阶特征。S5:迭代执行上述步骤S2-S4,直至新构建的预生成文本序列的总词数达到设定阈值,将预生成文本序列输入至判别器进行判别,并根据分类判别结果计算更新梯度。S6:根据更新梯度更新生成器的参数,并再次输入初始文本序列至更新后的生成器中。S7:迭代执行上述步骤S2至S6直至生成器和判别器均收敛后,输出目标文本序列。进一步地,在将初始文本序列输入至对抗网络模型之前,还包括:基于长短期记忆神经网络并利用交叉熵作为损失函数,构建生成器;基于卷积神经网络网络,构建判别器;反馈网络模块也是基于长短期记忆神经网络所构建;分别对生成器和所述判别器进行预训练。进一步地,上述生成器的优化目标函数为:其中,Y1:T为生成器生成的文本序列;Dφ为判别器参数;log[Dφ(Y1:T)]为生成序列在判别器输出给生成器的奖励函数;为对所述奖励函数进行期望值计算的函数,θ为生成器的参数。进一步地,上述特征反馈网络模块用于从判别器中调取高阶特征,包括以下步骤:判别器的词嵌入层将输入的文本转换成对应的文本向量;以步长为1的卷积层代替经典的CNN模型的池化层,利用卷积层对所述文本向量进行特征提取,获取与文本向量相对应的特征向量;该特征向量用于表征所述高阶特征。进一步地,上述并基于所述高阶特征生成指导特征向量,包括:基于长短期记忆神经网络获取当前时间步的特征转换向量;根据特征转换向量获取维度变换向量;根据维度变换向量与当前时间步的序列,获取指导特征向量;该指导特征向量用于表征词库中各个词被选择的概率。进一步地,上述生成器基于指导特征向量,生成预输出文本序列中的下一个词,包括:将指导特征向量输入至生成器的softmax层中,以根据词库中各个词被选择的概率,选择概率最大的词作为预输出文本序列中的下一个词。进一步地,上述基于长短期记忆神经网络获取当前时间步的特征转换向量的计算方法为:zt,htC=Cδ(ft,ht-1C);上述根据特征转换向量获取维度变换向量的计算方法为:第二方面,本专利技术实施例提供一种文本序列生成系统,包括:生成器模块、判别器模块、特征反馈网络模块、第一判断循环模块以及第二判断循环模块,其中:生成器运算模块用于接收初始文本序列,并对初始文本序列进行运算,并将运算结果输入至判别器模块中;特征反馈网络模块用于从判别器模块中调取高阶特征,并基于高阶特征生成指导特征向量;生成器模块用于接收初始文本序列并结合所述指导特征向量,生成预输出文本序列中的下一个词,并将新构建的预输出文本序列输入至判别器中;判别器模块根据新构建的预输出文本序列和初始文本序列更新高阶特征。第一判断循环模块用于控制生成器模块、特征反馈网络模块以及判别器模块,直至新构建的预生成文本序列的总词数达到设定阈值时,将新构建的预生成文本序列输入至判别器进行判别,并根据分类判别结果计算更新梯度;生成器模块用于根据所述更新梯度更新生成器的参数,并再次输入初始文本序列至更新后的生成器中。第二判断循环模块用于控制生成器模块、特征反馈网络模块以及判别器模块,直至生成器和判别器的运算结果均收敛后,由生成器模块输出目标文本序列。第三方面,本专利技术实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上述第一方面任一项所述的文本序列生成方法的步骤。第四方面,本专利技术实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面任一项所述的文本序列生成方法的步骤。本专利技术实施例提供的文本序列生成方法及其系统,通过在生成器中增加一个特征反馈网络模块,并利用该模块从判别器中提取出的特征对生成器的下一个序列生成进行辅助决策的方法,有效的克服了现有的生成对抗神经本文档来自技高网
...

【技术保护点】
1.一种文本序列生成方法,其特征在于,包括:/nS1:将初始文本序列输入至对抗网络模型,所述对抗网络模型包括生成器和判别器,所述生成器中包含至少一个特征反馈网络模块;/nS2:所述特征反馈网络模块用于从所述判别器中调取高阶特征,并基于所述高阶特征生成指导特征向量;/nS3:所述生成器基于所述指导特征向量,生成预输出文本序列中的下一个词,并将新构建的预输出文本序列输入至所述判别器中;/nS4:所述判别器根据所述新构建的预输出文本序列和所述初始文本序列更新所述高阶特征;/nS5:迭代执行步骤S2-S4,直至所述新构建的预生成文本序列的总词数达到设定阈值时,将所述预生成文本序列输入至所述判别器进行判别,并根据分类判别结果计算更新梯度;/nS6:根据所述更新梯度更新所述生成器的参数,并再次输入所述初始文本序列至更新后的生成器中;/nS7:迭代执行步骤S2至S6直至所述生成器和判别器均收敛后,输出目标文本序列。/n

【技术特征摘要】
1.一种文本序列生成方法,其特征在于,包括:
S1:将初始文本序列输入至对抗网络模型,所述对抗网络模型包括生成器和判别器,所述生成器中包含至少一个特征反馈网络模块;
S2:所述特征反馈网络模块用于从所述判别器中调取高阶特征,并基于所述高阶特征生成指导特征向量;
S3:所述生成器基于所述指导特征向量,生成预输出文本序列中的下一个词,并将新构建的预输出文本序列输入至所述判别器中;
S4:所述判别器根据所述新构建的预输出文本序列和所述初始文本序列更新所述高阶特征;
S5:迭代执行步骤S2-S4,直至所述新构建的预生成文本序列的总词数达到设定阈值时,将所述预生成文本序列输入至所述判别器进行判别,并根据分类判别结果计算更新梯度;
S6:根据所述更新梯度更新所述生成器的参数,并再次输入所述初始文本序列至更新后的生成器中;
S7:迭代执行步骤S2至S6直至所述生成器和判别器均收敛后,输出目标文本序列。


2.根据权利要求1所述的文本序列生成方法,其特征在于,在所述将初始文本序列输入至对抗网络模型之前,还包括:
基于长短期记忆神经网络并利用交叉熵作为损失函数,构建所述生成器;基于卷积神经网络,构建所述判别器;
所述反馈网络模块也是基于长短期记忆神经网络所构建;
分别对所述生成器和所述判别器进行预训练。


3.根据权利要求2所述的文本序列生成方法,其特征在于,所述生成器的优化目标函数为:



其中,Y1:T为生成器生成的文本序列;Dφ为判别器参数;log[Dφ(Y1:T)]为生成序列在判别器输出给生成器的奖励函数;为对所述奖励函数进行期望值计算的函数,θ为生成器的参数。


4.根据权利要求2所述的文本序列生成方法,其特征在于,所述特征反馈网络模块用于从所述判别器中调取高阶特征,包括以下步骤:
所述判别器的词嵌入层将输入的文本转换成对应的文本向量;
以步长为1的卷积层代替经典的CNN模型的池化层,利用卷积层对所述文本向量进行特征提取,获取与所述文本向量相对应的特征向量;
所述特征向量用于表征所述高阶特征。


5.根据权利要求2所述的文本序列生成方法,其特征在于,所述并基于所述高阶特征生成指导特征向量,包括:
基于所述长短期记忆神经网络获取当前时间步的特征转换向量;
根据所述特征转换向量获取维度变换向量;
根据所述维度变换向量与当前时间步的序列,获取所述指导特征向量;
所述指导特征向量用于表征词库中各个词被选择的概率。


6.根据权利要求5所述的文本序列生成方法,其特征在于,所述生成器基于所述指导特征向量,生...

【专利技术属性】
技术研发人员:杨杨丹晓东房超高志鹏邵苏杰杨会峰高丽芳王静于海涛赵倩张艺馨石晓丹
申请(专利权)人:北京邮电大学北京智芯微电子科技有限公司国网河北省电力有限公司信息通信分公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1