一种限定采样文本序列生成方法及其系统技术方案

技术编号：23853083 阅读：69 留言：0更新日期：2020-04-18 09:40

本发明专利技术实施例提供的限定采样文本序列生成方法及系统，该方法包括：将初始文本序列输入对抗网络模型，获取预输出文本序列的第一个词；基于词表掩模的方法，利用生成器根据第一个词，从字典数据库中选取第一个词的下一个词，构成预输出文本序列；基于词表掩模的方法，根据预输出文本序列，继续选取预输出文本序列的下一个词，获取新的预输出文本序列，直至总词数达到设定阈值，将其输入至判别器进行判别，并根据分类判别结果计算更新梯度；更新生成器的参数，并再次输入初始文本序列至更新后的生成器中；直至生成器和判别器均收敛后，输出目标文本序列。本实施例提供的方法及系统，通过改进制定文本规则精简了采样空间，改善了生成文本质量。

A method and system for generating limited sampling text sequence

全部详细技术资料下载

【技术实现步骤摘要】
一种限定采样文本序列生成方法及其系统
本专利技术涉及计算机
，尤其涉及一种限定采样文本序列生成方法及其系统。
技术介绍
近年来，随着人工智能的不断发展，自然语言处理也受到了广泛关注。其中，文本生成作为自然语言处理领域中长期研究的课题之一，被应用于多种技术，如机器翻译、文本摘要、自动问答、智能客服等。文本生成旨在于连续的具体语境下，预测生成语法和语义正确的单词序列，是交互式人工智能系统不可或缺的组成部分。目前，已有许多学者在在文本生成上取得了非凡的成就。在实现文本生成任务时，我们常采用前馈神经网络和循环神经网络。然而，基本的循环神经网络往往会对训练数据的分布过分依赖，而若采用人工模板提高文本生成的质量，则其通用性和扩展性都会大大降低。目前，完全基于数据科学的文本生成方法还没能取得令人满意的成果。例如，现有技术中存在的一种应用于终端设备发布社交消息的场景中的文本生成方法及终端设备，通过对目标图像进行识别，得到该目标图像的内容信息；根据用户的用词习惯，生成与该内容信息对应的文本信息。该方法及装置主要用于解决用户为待发布的图像添加一段描述性的文本信息，导致发布消息的过程耗时较长的问题。上述方案存在如下缺陷：该方案采用深度学习模型，能根据目标图像和用户的用词习惯生成与内容信息对应的文本信息，可以减少用户构思并编辑文本信息的时间。但该方案只提出了一种可能的文本生成解决方案，并没有给出具体的算法，其文本生成的效果尚未明确。再例如，现有技术中还存在一种医疗文本的生成方法，通过利用词向量表示医疗文...

【技术保护点】
1.一种限定采样文本序列生成方法，其特征在于，包括：/nS1：将初始文本序列输入至训练好的对抗网络模型，获取预输出文本序列的第一个词，所述对抗网络模型包括生成器和判别器；/nS2：基于词表掩模的方法，利用所述生成器根据所述第一个词，从字典数据库中选取所述第一个词的下一个词，构成预输出文本序列；/nS3：基于词表掩模的方法，根据所述预输出文本序列，继续选取所述预输出文本序列的下一个词，获取新的预输出文本序列；/nS4：迭代执行步骤S2-S3，直至所述新的预输出文本序列的总词数达到设定阈值时，将所述新的预生成文本序列输入至所述判别器进行判别，并根据分类判别结果计算更新梯度；/nS5：根据所述更新梯度更新所述生成器的参数，并再次输入所述初始文本序列至更新后的生成器中；/nS6：迭代执行步骤S2-S5直至所述生成器和判别器均收敛后，输出目标文本序列。/n

【技术特征摘要】
1.一种限定采样文本序列生成方法，其特征在于，包括：
S1：将初始文本序列输入至训练好的对抗网络模型，获取预输出文本序列的第一个词，所述对抗网络模型包括生成器和判别器；
S2：基于词表掩模的方法，利用所述生成器根据所述第一个词，从字典数据库中选取所述第一个词的下一个词，构成预输出文本序列；
S3：基于词表掩模的方法，根据所述预输出文本序列，继续选取所述预输出文本序列的下一个词，获取新的预输出文本序列；
S4：迭代执行步骤S2-S3，直至所述新的预输出文本序列的总词数达到设定阈值时，将所述新的预生成文本序列输入至所述判别器进行判别，并根据分类判别结果计算更新梯度；
S5：根据所述更新梯度更新所述生成器的参数，并再次输入所述初始文本序列至更新后的生成器中；
S6：迭代执行步骤S2-S5直至所述生成器和判别器均收敛后，输出目标文本序列。

2.根据权利要求1所述的限定采样文本序列生成方法，其特征在于，所述基于词表掩模的方法，根据所述预输出文本序列，继续选取所述预输出文本序列的下一个词，获取新的预输出文本序列，包括：
利用Word2Vector语言模型，将所述字典数据库中的每个文本数据转换成对应的词向量，获取字典向量集；
计算所述字典向量集中的每个词向量的词掩模向量；
根据所述预输出文本序列中最新生成的m个词的词掩模向量，获取当前时间步的掩模向量；
根据所述当前时间步的掩模向量，确定所述预输出文本序列的下一个词，获取新的预输出文本序列。

3.根据权利要求2所述的限定采样文本序列生成方法，其特征在于，所述计算所述字典向量集中的每个词向量的词掩模向量，包括：
计算每个所述词向量在真实序列中，后面出现的k个邻近词向量与所述字典向量集中所有词向量之间的相似度，其中k≥1；
若所述k个邻近词向量中任一邻近词向量的所有相似度均小于设定阈值，则在所述词向量的掩模向量上置0，否则置1，从而获取每个所述任一邻近词向量的掩模向量；
根据所有所述邻近词向量的掩模向量确定所述词向量的掩模向量。

4.根据权利要求3所述的限定采样文本序列生成方法，其特征在于，所述计算每个所述词向量在真实序列中，后面出现的k个邻近词向量与所述字典向量集中所有词向量之间的相似度，包括：

其中，A和B分别表示k个邻近词向量中任一邻近词向量以及字典向量集中的任一词向量；n为词向量的维度。

5.根据权利要求3所述的限定采样文本序列生成方法，其特征在于，所述根据所有所述邻近词向量的掩模向量确定所述词向量的掩模向量，包括：

其中，为邻近词向量的掩模向量，Mword为词向量的掩模向量，为对k个邻近词向量的...

【专利技术属性】
技术研发人员：杨杨，丹晓东，房超，喻鹏，徐思雅，邵苏杰，郭少勇，陶卓，董婧，王建鑫，刘祖龙，
申请(专利权)人：北京邮电大学，北京智芯微电子科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人