一种文本序列生成方法及其系统技术方案

技术编号：23890823 阅读：46 留言：0更新日期：2020-04-22 06:23

本发明专利技术实施例提供的文本序列生成方法及其系统，包括：对抗网络模型包括生成器和判别器；生成器中包含特征反馈网络模块，用于从判别器中调取高阶特征，以生成指导特征向量；生成器基于指导特征向量，生成预输出文本序列的下一个词；判别器根据新构建的预输出文本序列和初始文本序列更新高阶特征；迭代执行上述步骤，直至新构建的预生成文本序列的总词数达到设定阈值时，输入至判别器进行判别，并根据分类判别结果计算更新梯度；根据更新梯度更新生成器的参数；迭代执行上述步骤直至生成器和判别器均收敛后，输出目标文本序列。本发明专利技术实施例通过增添特征转换反馈模块，将判别器提取到的特征向量输送至生成器作为指导信号，改善了生成器的生成质量。

A text sequence generation method and its system

全部详细技术资料下载

【技术实现步骤摘要】
一种文本序列生成方法及其系统
本专利技术涉及计算机
，尤其涉及一种文本序列生成方法及其系统。
技术介绍
近年来，随着人工智能的不断发展，自然语言处理也受到了广泛关注。其中，文本生成作为自然语言处理领域中长期研究的课题之一，被应用于多种技术，如机器翻译、文本摘要、自动问答、智能客服等。文本生成旨在于连续的具体语境下，预测生成语法和语义正确的单词序列，是交互式人工智能系统不可或缺的组成部分。目前，已有许多学者在在文本生成上取得了非凡的成就。在实现文本生成任务时，我们常采用前馈神经网络和循环神经网络。然而，基本的循环神经网络往往会对训练数据的分布过分依赖，而若采用人工模板提高文本生成的质量，则其通用性和扩展性都会大大降低。目前，完全基于数据科学的文本生成方法还没能取得令人满意的成果。例如，现有技术中存在的一种应用于终端设备发布社交消息的场景中的文本生成方法及终端设备，通过对目标图像进行识别，得到该目标图像的内容信息；根据用户的用词习惯，生成与该内容信息对应的文本信息。该方法及装置主要用于解决用户为待发布的图像添加一段描述性的文本信息，导致发布消息的过程耗时较长的问题。上述方案存在如下缺陷：该方案采用深度学习模型，能根据目标图像和用户的用词习惯生成与内容信息对应的文本信息，可以减少用户构思并编辑文本信息的时间。但该方案只提出了一种可能的文本生成解决方案，并没有给出具体的算法，其文本生成的效果尚未明确。再例如，现有技术中还存在一种医疗文本的生成方法，通过利用词向量表示医疗文档的词汇并对医疗...

【技术保护点】
1.一种文本序列生成方法，其特征在于，包括：/nS1：将初始文本序列输入至对抗网络模型，所述对抗网络模型包括生成器和判别器，所述生成器中包含至少一个特征反馈网络模块；/nS2：所述特征反馈网络模块用于从所述判别器中调取高阶特征，并基于所述高阶特征生成指导特征向量；/nS3：所述生成器基于所述指导特征向量，生成预输出文本序列中的下一个词，并将新构建的预输出文本序列输入至所述判别器中；/nS4：所述判别器根据所述新构建的预输出文本序列和所述初始文本序列更新所述高阶特征；/nS5：迭代执行步骤S2-S4，直至所述新构建的预生成文本序列的总词数达到设定阈值时，将所述预生成文本序列输入至所述判别器进行判别，并根据分类判别结果计算更新梯度；/nS6：根据所述更新梯度更新所述生成器的参数，并再次输入所述初始文本序列至更新后的生成器中；/nS7：迭代执行步骤S2至S6直至所述生成器和判别器均收敛后，输出目标文本序列。/n

【技术特征摘要】
1.一种文本序列生成方法，其特征在于，包括：
S1：将初始文本序列输入至对抗网络模型，所述对抗网络模型包括生成器和判别器，所述生成器中包含至少一个特征反馈网络模块；
S2：所述特征反馈网络模块用于从所述判别器中调取高阶特征，并基于所述高阶特征生成指导特征向量；
S3：所述生成器基于所述指导特征向量，生成预输出文本序列中的下一个词，并将新构建的预输出文本序列输入至所述判别器中；
S4：所述判别器根据所述新构建的预输出文本序列和所述初始文本序列更新所述高阶特征；
S5：迭代执行步骤S2-S4，直至所述新构建的预生成文本序列的总词数达到设定阈值时，将所述预生成文本序列输入至所述判别器进行判别，并根据分类判别结果计算更新梯度；
S6：根据所述更新梯度更新所述生成器的参数，并再次输入所述初始文本序列至更新后的生成器中；
S7：迭代执行步骤S2至S6直至所述生成器和判别器均收敛后，输出目标文本序列。

2.根据权利要求1所述的文本序列生成方法，其特征在于，在所述将初始文本序列输入至对抗网络模型之前，还包括：
基于长短期记忆神经网络并利用交叉熵作为损失函数，构建所述生成器；基于卷积神经网络，构建所述判别器；
所述反馈网络模块也是基于长短期记忆神经网络所构建；
分别对所述生成器和所述判别器进行预训练。

3.根据权利要求2所述的文本序列生成方法，其特征在于，所述生成器的优化目标函数为：

其中，Y1:T为生成器生成的文本序列；Dφ为判别器参数；log[Dφ(Y1:T)]为生成序列在判别器输出给生成器的奖励函数；为对所述奖励函数进行期望值计算的函数，θ为生成器的参数。

4.根据权利要求2所述的文本序列生成方法，其特征在于，所述特征反馈网络模块用于从所述判别器中调取高阶特征，包括以下步骤：
所述判别器的词嵌入层将输入的文本转换成对应的文本向量；
以步长为1的卷积层代替经典的CNN模型的池化层，利用卷积层对所述文本向量进行特征提取，获取与所述文本向量相对应的特征向量；
所述特征向量用于表征所述高阶特征。

5.根据权利要求2所述的文本序列生成方法，其特征在于，所述并基于所述高阶特征生成指导特征向量，包括：
基于所述长短期记忆神经网络获取当前时间步的特征转换向量；
根据所述特征转换向量获取维度变换向量；
根据所述维度变换向量与当前时间步的序列，获取所述指导特征向量；
所述指导特征向量用于表征词库中各个词被选择的概率。

6.根据权利要求5所述的文本序列生成方法，其特征在于，所述生成器基于所述指导特征向量，生...

【专利技术属性】
技术研发人员：杨杨，丹晓东，房超，高志鹏，邵苏杰，杨会峰，高丽芳，王静，于海涛，赵倩，张艺馨，石晓丹，
申请(专利权)人：北京邮电大学，北京智芯微电子科技有限公司，国网河北省电力有限公司信息通信分公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人