一种限定采样文本序列生成方法及其系统技术方案

技术编号:23853083 阅读:69 留言:0更新日期:2020-04-18 09:40
本发明专利技术实施例提供的限定采样文本序列生成方法及系统,该方法包括:将初始文本序列输入对抗网络模型,获取预输出文本序列的第一个词;基于词表掩模的方法,利用生成器根据第一个词,从字典数据库中选取第一个词的下一个词,构成预输出文本序列;基于词表掩模的方法,根据预输出文本序列,继续选取预输出文本序列的下一个词,获取新的预输出文本序列,直至总词数达到设定阈值,将其输入至判别器进行判别,并根据分类判别结果计算更新梯度;更新生成器的参数,并再次输入初始文本序列至更新后的生成器中;直至生成器和判别器均收敛后,输出目标文本序列。本实施例提供的方法及系统,通过改进制定文本规则精简了采样空间,改善了生成文本质量。

A method and system for generating limited sampling text sequence

【技术实现步骤摘要】
一种限定采样文本序列生成方法及其系统
本专利技术涉及计算机
,尤其涉及一种限定采样文本序列生成方法及其系统。
技术介绍
近年来,随着人工智能的不断发展,自然语言处理也受到了广泛关注。其中,文本生成作为自然语言处理领域中长期研究的课题之一,被应用于多种技术,如机器翻译、文本摘要、自动问答、智能客服等。文本生成旨在于连续的具体语境下,预测生成语法和语义正确的单词序列,是交互式人工智能系统不可或缺的组成部分。目前,已有许多学者在在文本生成上取得了非凡的成就。在实现文本生成任务时,我们常采用前馈神经网络和循环神经网络。然而,基本的循环神经网络往往会对训练数据的分布过分依赖,而若采用人工模板提高文本生成的质量,则其通用性和扩展性都会大大降低。目前,完全基于数据科学的文本生成方法还没能取得令人满意的成果。例如,现有技术中存在的一种应用于终端设备发布社交消息的场景中的文本生成方法及终端设备,通过对目标图像进行识别,得到该目标图像的内容信息;根据用户的用词习惯,生成与该内容信息对应的文本信息。该方法及装置主要用于解决用户为待发布的图像添加一段描述性的文本信息,导致发布消息的过程耗时较长的问题。上述方案存在如下缺陷:该方案采用深度学习模型,能根据目标图像和用户的用词习惯生成与内容信息对应的文本信息,可以减少用户构思并编辑文本信息的时间。但该方案只提出了一种可能的文本生成解决方案,并没有给出具体的算法,其文本生成的效果尚未明确。再例如,现有技术中还存在一种医疗文本的生成方法,通过利用词向量表示医疗文档的词汇并对医疗文档进行文本分类;获得医疗文档的最佳的输出序列标注;获得医疗文档的关键词集的索引,将索引随机打乱顺序,得到新的医疗文档及其对应的序列标注;采用基于生成式对抗网络的生成模型训练生成并输出医疗文本;获取生成的医疗文本的BLEU参数;对生成的医疗文本进行评估,最终得到目标医疗文本。但是该方案也存在着不可克服的缺陷,表现在:该方案利用词向量对文本进行标注并获得关键词集的索引;随后随机打乱索引,得到新的对应的序列标注;最后,基于生成式对抗网络的生成模型训练生成输出新的目标文本。这一方案,通过先获得词集的索引,然后仅根据随机打乱的索引生成新的文本,并不具有很强的自我文本生成能力,模板痕迹过重,扩展性不高。
技术实现思路
有鉴于此,本专利技术实施例提供一种限定采样文本序列生成方法及其系统,用以解决现有技术中解决在生成式对抗网络中离散文本无法反向传播梯度的缺陷。第一方面,本专利技术实施例提供一种限定采样文本序列生成方法,包括以下步骤:S1:将初始文本序列输入至训练好的对抗网络模型,获取预输出文本序列的第一个词,对抗网络模型包括生成器和判别器。S2:基于词表掩模的方法,利用生成器根据第一个词,从字典数据库中选取所述第一个词的下一个词,构成预输出文本序列。S3:基于词表掩模的方法,根据预输出文本序列,继续选取预输出文本序列的下一个词,获取新的预输出文本序列。S4:迭代执行步骤S2-S3,直至新的预输出文本序列的总词数达到设定阈值时,将新的预生成文本序列输入至判别器进行判别,并根据分类判别结果计算更新梯度。S5:根据更新梯度更新所述生成器的参数,并再次输入初始文本序列至更新后的生成器中。S6:迭代执行步骤S2-S5直至生成器和判别器均收敛后,输出目标文本序列。进一步地,上述基于词表掩模的方法,根据所述预输出文本序列,继续选取所述预输出文本序列的下一个词,获取新的预输出文本序列,包括:利用Word2Vector语言模型,将字典数据库中的每个文本数据转换成对应的词向量,获取字典向量集;计算字典向量集中的每个词向量的词掩模向量;根据预输出文本序列中最新生成的m个词的词掩模向量,获取当前时间步的掩模向量;根据当前时间步的掩模向量,确定预输出文本序列的下一个词,获取新的预输出文本序列。进一步地,上述计算字典向量集中的每个词向量的词掩模向量,包括:计算每个词向量在真实序列中,后面出现的k个邻近词向量与字典向量集中所有词向量之间的相似度,其中k≥1;若k个邻近词向量中任一邻近词向量的所有相似度均小于设定阈值,则在词向量的掩模向量M上置0,否则置1,从而获取每个任一邻近词向量的掩模向量;根据所有邻近词向量的掩模向量确定词向量的掩模向量。进一步地,上述计算每个词向量在真实序列中,后面出现的k个邻近词向量与字典向量集中所有词向量之间的相似度,包括:其中,A和B分别表示k个邻近词向量中任一邻近词向量以及字典向量集中的任一词向量;n为词向量的维度。进一步地,上述根据所有邻近词向量的掩模向量确定词向量的掩模向量,包括:其中,为邻近词向量的掩模向量,Mword为词向量的掩模向量,为对k个邻近词向量的掩模向量进行或运算。进一步地,上述根据预输出文本序列中最新生成的m个词的词掩模向量,获取当前时间步的掩模向量,包括:其中,Mt为当前时间步的掩模向量,为对预输出文本序列中最新生成的m个词的词掩模向量进行或运算。进一步地,上述根据当前时间步的掩模向量,确定预输出文本序列的下一个词,获取新的预输出文本序列,包括:利用当前时间步的掩模向量对字典向量集中的每个词向量进行过滤,获取过滤后的字典向量集;利用生成器从过滤后的字典向量集中选择预输出文本序列的下一个词。进一步地,在上述将初始文本序列输入至训练好的对抗网络模型之前,还包括对于对抗网络模型进行预训练,其中:生成器的优化目标函数为:其中,Y1:T为生成器生成的文本序列;Dφ为判别器参数;log[Dφ(Y1:T)]为生成序列在判别器输出给生成器的奖励函数;为对奖励函数进行期望值计算的函数,θ为生成器的参数;判别器的优化目标函数为:其中,其中,Y~Pdata为真实数据正样本;Y~Gθ为生成器产生的负样本,Dφ(Y)为经判别器的输出结果,E为期望值计算函数,φ为生成器的参数。第二方面,本专利技术实施例提供一种限定采样文本序列生成系统,包括:第一运算单元、第二运算模块、第三运算模块、第一判断循环模块、第四运算模块以及第二判断循环模块,其中:第一运算单元,用于将初始文本序列输入至训练好的对抗网络模型,获取预输出文本序列的第一个词,所述对抗网络模型包括生成器和判别器;第二运算模块,用于基于词表掩模的方法,利用所述生成器根据所述第一个词,从字典数据库中选取所述第一个词的下一个词,构成预输出文本序列;第三运算模块,用于基于词表掩模的方法,根据所述预输出文本序列,继续选取所述预输出文本序列的下一个词,获取新的预输出文本序列;第一判断循环模块,用于判断所述新的预输出文本序列的总词数是否达到设定阈值。其中,阈值的设定可根据BoxMuller随机生成方法在15至25之间来模拟生成,达到与真实数据集序列长度相似的效果;若达到设定阈值,则将所述新的预生成文本序列输入至所述判别器进行本文档来自技高网
...

【技术保护点】
1.一种限定采样文本序列生成方法,其特征在于,包括:/nS1:将初始文本序列输入至训练好的对抗网络模型,获取预输出文本序列的第一个词,所述对抗网络模型包括生成器和判别器;/nS2:基于词表掩模的方法,利用所述生成器根据所述第一个词,从字典数据库中选取所述第一个词的下一个词,构成预输出文本序列;/nS3:基于词表掩模的方法,根据所述预输出文本序列,继续选取所述预输出文本序列的下一个词,获取新的预输出文本序列;/nS4:迭代执行步骤S2-S3,直至所述新的预输出文本序列的总词数达到设定阈值时,将所述新的预生成文本序列输入至所述判别器进行判别,并根据分类判别结果计算更新梯度;/nS5:根据所述更新梯度更新所述生成器的参数,并再次输入所述初始文本序列至更新后的生成器中;/nS6:迭代执行步骤S2-S5直至所述生成器和判别器均收敛后,输出目标文本序列。/n

【技术特征摘要】
1.一种限定采样文本序列生成方法,其特征在于,包括:
S1:将初始文本序列输入至训练好的对抗网络模型,获取预输出文本序列的第一个词,所述对抗网络模型包括生成器和判别器;
S2:基于词表掩模的方法,利用所述生成器根据所述第一个词,从字典数据库中选取所述第一个词的下一个词,构成预输出文本序列;
S3:基于词表掩模的方法,根据所述预输出文本序列,继续选取所述预输出文本序列的下一个词,获取新的预输出文本序列;
S4:迭代执行步骤S2-S3,直至所述新的预输出文本序列的总词数达到设定阈值时,将所述新的预生成文本序列输入至所述判别器进行判别,并根据分类判别结果计算更新梯度;
S5:根据所述更新梯度更新所述生成器的参数,并再次输入所述初始文本序列至更新后的生成器中;
S6:迭代执行步骤S2-S5直至所述生成器和判别器均收敛后,输出目标文本序列。


2.根据权利要求1所述的限定采样文本序列生成方法,其特征在于,所述基于词表掩模的方法,根据所述预输出文本序列,继续选取所述预输出文本序列的下一个词,获取新的预输出文本序列,包括:
利用Word2Vector语言模型,将所述字典数据库中的每个文本数据转换成对应的词向量,获取字典向量集;
计算所述字典向量集中的每个词向量的词掩模向量;
根据所述预输出文本序列中最新生成的m个词的词掩模向量,获取当前时间步的掩模向量;
根据所述当前时间步的掩模向量,确定所述预输出文本序列的下一个词,获取新的预输出文本序列。


3.根据权利要求2所述的限定采样文本序列生成方法,其特征在于,所述计算所述字典向量集中的每个词向量的词掩模向量,包括:
计算每个所述词向量在真实序列中,后面出现的k个邻近词向量与所述字典向量集中所有词向量之间的相似度,其中k≥1;
若所述k个邻近词向量中任一邻近词向量的所有相似度均小于设定阈值,则在所述词向量的掩模向量上置0,否则置1,从而获取每个所述任一邻近词向量的掩模向量;
根据所有所述邻近词向量的掩模向量确定所述词向量的掩模向量。


4.根据权利要求3所述的限定采样文本序列生成方法,其特征在于,所述计算每个所述词向量在真实序列中,后面出现的k个邻近词向量与所述字典向量集中所有词向量之间的相似度,包括:



其中,A和B分别表示k个邻近词向量中任一邻近词向量以及字典向量集中的任一词向量;n为词向量的维度。


5.根据权利要求3所述的限定采样文本序列生成方法,其特征在于,所述根据所有所述邻近词向量的掩模向量确定所述词向量的掩模向量,包括:



其中,为邻近词向量的掩模向量,Mword为词向量的掩模向量,为对k个邻近词向量的...

【专利技术属性】
技术研发人员:杨杨丹晓东房超喻鹏徐思雅邵苏杰郭少勇陶卓董婧王建鑫刘祖龙
申请(专利权)人:北京邮电大学北京智芯微电子科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1