基于类标序列生成式对抗模型的文本自动生成方法技术

技术编号:24457789 阅读:23 留言:0更新日期:2020-06-10 16:04
本发明专利技术公开了一种基于类标序列生成式对抗模型的文本自动生成方法,包括步骤:基于生成式对抗模型构建文本生成器;利用所述文本生成器生成基于真实文本的生成文本;调整所述生成文本的文本长度;对调整过文本长度的生成文本进行关键词替换,获得最终生成文本。该文本自动生成方法能够生成完善的文本内容,提高文本的针对性和多样化程度。

An automatic text generation method based on the generation model of class mark sequence

【技术实现步骤摘要】
基于类标序列生成式对抗模型的文本自动生成方法
本专利技术属于深度学习自然语言处理领域,具体涉及一种基于类标序列生成式对抗模型的文本自动生成方法。
技术介绍
深度学习受神经科学启发而来,通过对大量数据进行学习,在自然语言处理领域获得了更好的效果。具体表现在语音识别、机器翻译、摘要生成、自然语言生成等各种自然语言相关的应用领域。为了能够真正应用到相关应用领域中,生成自然语言的准确性以及合理性越发不可忽视,人们对自然语言处理领域的其他发展抱有越来越高的期望,这要求对自然语言生成质量的更高要求。文本自动生成是自然语言处理领域的一个重要技术体现,自动生成的文本质量的好坏也标志着人工智能是否成熟的。文本生成任务的最终目的是让计算机能写出像人类写出的高质量的自然语言作品,并且能在学习的过程中排查生成文本中的语法错误、情感不当等各种人类写作时会出现的问题。文本自动生成技术的发展,可以帮助我们实现更加智能和自然的人机交互;通过文本自动生成系统,实现新闻的自动编辑,大大减少了编辑的工作量。在给人类生活带来便利的同时,更高质量的自动生成文本,也可能被用于对人类认知进行欺骗,例如生成各类以假乱真的虚假政治新闻或评价文本,对大众的认知产生误导效果。现有的自动文本生成技术已经有效提高了机器翻译、自动问答、图像描述生成等应用的效果,虽然将深度学习运用在自动文本生成任务中已经能完成一部分机器翻译任务,并且在生成诗句和文本摘要等方面有不错的表现,但传统的文本生成方法大多只能生成定长文本,且面临长文本生成任务时生成的文本质量较低,难以生成符合真实人类书写的文本。生成的文本往往没有具体的细节,难以应用于实际领域。对于一些文本生成算法而言,往往需要输入一段确定的文本作为训练,多次训练后得到一个可以生成对应文本的模型。需要生成另一类文本则需要重新选择数据集进行训练,并且重新保存模型等待生成,训练的过程较为繁琐。专利公布号为CN109299211A的专利申请公开了一种基于Char-RNN模型的文本自动生成方法,该方法使用向量矩阵来表示字母或者汉字,通过Char-RNN模型中训练,得到每一个字符对应的下一个字符的概率,以输入的关键字词作为起始字符,使用训练好的模型结果来得到对应下一个字符的概率并输出,并以此作为下一步的字符输入,依次类推生成一段文本。该方法将关键词作为起始字符,很多情况下不合符人类的写作习惯。
技术实现思路
为了提高生成文本的质量,本专利技术提供了一种基于类标序列生成式对抗模型的文本自动生成方法,该文本自动生成方法能够生成完善的文本内容,提高文本的针对性和多样化程度。本专利技术提供的技术方案为:一种基于类标序列生成式对抗模型的文本自动生成方法,包括步骤:基于生成式对抗模型构建文本生成器;利用所述文本生成器生成基于真实文本的生成文本;调整所述生成文本的文本长度;对调整过文本长度的生成文本进行关键词替换,获得最终生成文本。优选地,所述文本生成器的构建过程包括:以LSeqGAN模型作为文本生成器的构建系统,LSeqGAN由生成器G和判别器D,其中,生成器G用于根据输入的真实文本输出指定类型的生成文本;判别器D用于判别真实文本和生成文本的真假;以公式(1)作为优化目标,对LSeqGAN模型进行迭代优化,直到收敛,提取收敛时生成器G和对应的网络参数作为文本生成器;其中,s表示当前的生成文本序列,总长度设定为t,序列结束也用0填满至长度t,label表示生成文本序列的原始类标,a=yt表示下一个生成的文本序列,表示到T时刻为止,由Gβ生成的序列,表示在原始类标label下,预测为真实类标的概率;表示在类标label下,N次带roll-out策略的Gβ次的蒙特卡洛搜索。优选地,所述生成器G包括长短期记忆网络和softmax激活层,其中,长短期记忆网络用于根据输入的真实文本产生生成文本,所述softmax激活层用于根据所述生成文本产生指定类型的生成文本。优选地,所述真实文本在输入至生成器G之前,需要对真实文本进行编码成文本矩阵,并用零补添所述文本矩阵到固定长度。优选地,所述判别器D包括特征提取单元和softmax激活层,其中,所述特征提取单元用于提取输入的真实文本和生成文本的特征,所述softmax激活层用于对提取的特征进行激活映射,输出真实文本和生成文本的预测标签。优选地,所述调整所述生成文本的文本长度包括:检测所述生成文本中的零,删除零之后的文本序列,以调整生成文本的文本长度。优选地,所述对调整过文本长度的生成文本进行关键词替换包括:选定关键词,并从数据集中选择与关键词相似度高的一组词汇作为替换词;根据关键词在所述生成文本中选择与关键词相似度高的一组词汇作为被替换词;从替换词中抽样替换生成文本中的被替换词,以获得最终生成文本。具体地,通过WordNet计算词汇相似度,并利用给定的相似阈值筛选词汇相似度较高的一组作为替换词和/或被替换词。本专利技术的有益效果主要表现在:通过带有类标条件的LSTM作为生成器G用以生成文本序列,可以根据指定类标,生成该类标下的具有针对性的具体文本内容;用特征提取单元和softmax激活层作为判别器D,对真实文本和虚假文本的判别具有较好的效果,为生成器G提供有效的反馈,使生成的文本更具真实性。生成高质量文本后,进一步选取同一类文本中的关键词,通过WordNet计算词汇相似度,对相似度高的关键词进行替换,确保了生成文本的多样性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。图1是实施例提供的LSeqGAN模型的结构示意图;图2是实施例提供的生成器G的结构示意图;图3是实施例提供的判别器D的结构示意图;图4是实施例提供的关键词替换过程示意图。具体实施方式为使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本专利技术进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本专利技术,并不限定本专利技术的保护范围。参见图1~图4,实施例提供的一种基于类标序列生成式对抗模型的文本自动生成方法,包括以下步骤:S101,基于生成式对抗模型构建文本生成器。如图1所示,以LSeqGAN模型作为文本生成器的构建系统,LSeqGAN由生成器G和判别器D,其中,生成器G用于根据输入的真实文本输出指定类型的生成文本;判别器D用于判别真实文本和生成文本的真假。如图2所示,生成器G包括长短期记忆网络(LSTM)和softmax激活层,其中,生成器G输入真实文本的one-hot编码,以给定类标为条件,使用LSTM用于生成文本序列,softmax函数作为本文档来自技高网
...

【技术保护点】
1.一种基于类标序列生成式对抗模型的文本自动生成方法,其特征在于,包括步骤:/n基于生成式对抗模型构建文本生成器;/n利用所述文本生成器生成基于真实文本的生成文本;/n调整所述生成文本的文本长度;/n对调整过文本长度的生成文本进行关键词替换,获得最终生成文本。/n

【技术特征摘要】
1.一种基于类标序列生成式对抗模型的文本自动生成方法,其特征在于,包括步骤:
基于生成式对抗模型构建文本生成器;
利用所述文本生成器生成基于真实文本的生成文本;
调整所述生成文本的文本长度;
对调整过文本长度的生成文本进行关键词替换,获得最终生成文本。


2.如权利要求1所述的基于类标序列生成式对抗模型的文本自动生成方法,其特征在于,所述文本生成器的构建过程包括:
以LSeqGAN模型作为文本生成器的构建系统,LSeqGAN由生成器G和判别器D,其中,生成器G用于根据输入的真实文本输出指定类型的生成文本;判别器D用于判别真实文本和生成文本的真假;
以公式(1)作为优化目标,对LSeqGAN模型进行迭代优化,直到收敛,提取收敛时生成器G和对应的网络参数作为文本生成器;



其中,s表示当前的生成文本序列,总长度设定为t,序列结束也用0填满至长度t,label表示生成文本序列的原始类标,a=yt表示下一个生成的文本序列,表示到T时刻为止,由Gβ生成的序列,表示在原始类标label下,预测为真实类标的概率;表示在类标label下,N次带roll-out策略的Gβ次的蒙特卡洛搜索。


3.如权利要求2所述的基于类标序列生成式对抗模型的文本自动生成方法,其特征在于,所述生成器G包括长短期记忆网络和softmax激活层,其中,长短期记忆网络用于根据输入的真实文本产生生成文本,所述softmax激活层用于根据所述生成文本产生...

【专利技术属性】
技术研发人员:陈晋音张敦杰王雪柯吴洋洋
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1