基于类标序列生成式对抗模型的文本自动生成方法技术

技术编号：24457789 阅读：23 留言：0更新日期：2020-06-10 16:04

本发明专利技术公开了一种基于类标序列生成式对抗模型的文本自动生成方法，包括步骤：基于生成式对抗模型构建文本生成器；利用所述文本生成器生成基于真实文本的生成文本；调整所述生成文本的文本长度；对调整过文本长度的生成文本进行关键词替换，获得最终生成文本。该文本自动生成方法能够生成完善的文本内容，提高文本的针对性和多样化程度。

An automatic text generation method based on the generation model of class mark sequence

全部详细技术资料下载

【技术实现步骤摘要】
基于类标序列生成式对抗模型的文本自动生成方法
本专利技术属于深度学习自然语言处理领域，具体涉及一种基于类标序列生成式对抗模型的文本自动生成方法。
技术介绍
深度学习受神经科学启发而来，通过对大量数据进行学习，在自然语言处理领域获得了更好的效果。具体表现在语音识别、机器翻译、摘要生成、自然语言生成等各种自然语言相关的应用领域。为了能够真正应用到相关应用领域中，生成自然语言的准确性以及合理性越发不可忽视，人们对自然语言处理领域的其他发展抱有越来越高的期望，这要求对自然语言生成质量的更高要求。文本自动生成是自然语言处理领域的一个重要技术体现，自动生成的文本质量的好坏也标志着人工智能是否成熟的。文本生成任务的最终目的是让计算机能写出像人类写出的高质量的自然语言作品，并且能在学习的过程中排查生成文本中的语法错误、情感不当等各种人类写作时会出现的问题。文本自动生成技术的发展，可以帮助我们实现更加智能和自然的人机交互；通过文本自动生成系统，实现新闻的自动编辑，大大减少了编辑的工作量。在给人类生活带来便利的同时，更高质量的自动生成文本，也可能被用于对人类认知进行欺骗，例如生成各类以假乱真的虚假政治新闻或评价文本，对大众的认知产生误导效果。现有的自动文本生成技术已经有效提高了机器翻译、自动问答、图像描述生成等应用的效果，虽然将深度学习运用在自动文本生成任务中已经能完成一部分机器翻译任务，并且在生成诗句和文本摘要等方面有不错的表现，但传统的文本生成方法大多只能生成定长文本，且面临长文本生成任务时生成的文本质量较低，难以生...

【技术保护点】
1.一种基于类标序列生成式对抗模型的文本自动生成方法，其特征在于，包括步骤：/n基于生成式对抗模型构建文本生成器；/n利用所述文本生成器生成基于真实文本的生成文本；/n调整所述生成文本的文本长度；/n对调整过文本长度的生成文本进行关键词替换，获得最终生成文本。/n

【技术特征摘要】
1.一种基于类标序列生成式对抗模型的文本自动生成方法，其特征在于，包括步骤：
基于生成式对抗模型构建文本生成器；
利用所述文本生成器生成基于真实文本的生成文本；
调整所述生成文本的文本长度；
对调整过文本长度的生成文本进行关键词替换，获得最终生成文本。

2.如权利要求1所述的基于类标序列生成式对抗模型的文本自动生成方法，其特征在于，所述文本生成器的构建过程包括：
以LSeqGAN模型作为文本生成器的构建系统，LSeqGAN由生成器G和判别器D，其中，生成器G用于根据输入的真实文本输出指定类型的生成文本；判别器D用于判别真实文本和生成文本的真假；
以公式(1)作为优化目标，对LSeqGAN模型进行迭代优化，直到收敛，提取收敛时生成器G和对应的网络参数作为文本生成器；

其中，s表示当前的生成文本序列，总长度设定为t，序列结束也用0填满至长度t，label表示生成文本序列的原始类标，a＝yt表示下一个生成的文本序列，表示到T时刻为止，由Gβ生成的序列，表示在原始类标label下，预测为真实类标的概率；表示在类标label下，N次带roll-out策略的Gβ次的蒙特卡洛搜索。

3.如权利要求2所述的基于类标序列生成式对抗模型的文本自动生成方法，其特征在于，所述生成器G包括长短期记忆网络和softmax激活层，其中，长短期记忆网络用于根据输入的真实文本产生生成文本，所述softmax激活层用于根据所述生成文本产生...

【专利技术属性】
技术研发人员：陈晋音，张敦杰，王雪柯，吴洋洋，
申请(专利权)人：浙江工业大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人