用于生成相似文本的模型训练方法、装置及计算机设备制造方法及图纸

技术编号:32517641 阅读:10 留言:0更新日期:2022-03-02 11:15
本申请涉及一种用于生成相似文本的模型训练方法、装置及计算机设备。方法包括:利用预设的相似句对训练集对第一词向量表征模型进行文本相似关系训练,得到第二词向量表征模型,第二词向量表征模型用于识别文本间的相似关系;将单意图文本数据训练集中每一条文本输入至第二词向量表征模型,得到每条文本对应的词向量;基于单意图文本数据训练集及每条文本对应的词向量,构造与单意图文本数据训练集相同业务领域的相似文本句对数据集;根据相似文本句对数据集对初始的相似文本生成模型进行训练,得到目标相似文本生成模型。使用本申请提供的模型训练方法得到的目标相似文本生成模型,可自动生成多条相似文本,大大提高相似文本的生成效率。文本的生成效率。文本的生成效率。

【技术实现步骤摘要】
用于生成相似文本的模型训练方法、装置及计算机设备


[0001]本申请涉及人工智能
,特别是涉及一种相似文本生成方法、装置及计算机设备。

技术介绍

[0002]随着人工智能技术的发展,计算机可以针对不同的输入文本识别出相应的意图标签。意图标签识别的准确程度将直接关系到人工智能产品的用户体验。在实际生产业务中,意图识别模型通常采用有监督的学习方法进行设计和训练,因此,样本数据集的数量和质量在模型的识别效果上扮演着至关重要的角色。
[0003]为了取得较好模型识别效果,目前,往往采用传统的人工标注相似问题的方法来实现训练样本的获取,企业往往不得不投入较多的人力和物力对样本数据集进行精心的收集和构建,这种样本积累方式导致样本数据集的收集效率较低。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种用于生成相似文本的模型训练方法、装置及计算机设备。
[0005]第一方面,本申请提供了一种用于生成相似文本的模型训练方法。所述方法包括:
[0006]利用预设的相似句对训练集对第一词向量表征模型进行文本相似关系训练,得到第二词向量表征模型,所述第二词向量表征模型用于识别文本间的相似关系;
[0007]将单意图文本数据训练集中每一条文本输入至所述第二词向量表征模型,得到每条文本对应的词向量;
[0008]基于所述单意图文本数据训练集及所述每条文本对应的词向量,构造与所述单意图文本数据训练集相同业务领域的相似文本句对数据集;
[0009]根据所述相似文本句对数据集对初始的相似文本生成模型进行训练,得到目标相似文本生成模型。
[0010]在其中一个实施例中,所述将单意图文本数据训练集中每一条文本输入至所述第二词向量表征模型,得到每条文本对应的词向量,包括:
[0011]针对单意图文本数据训练集中每一条文本,对所述文本进行编码处理得到文本内容对应的第一数值序列和用于区分不同句子的第二数值序列;
[0012]将所述第一数值序列和所述第二数值序列输入至所述第二词向量表征模型,得到所述文本对应的词向量。
[0013]在其中一个实施例中,所述将所述第一数值序列和所述第二数值序列输入至所述第二词向量表征模型,得到所述文本对应的词向量,包括:
[0014]将所述第一数值序列和所述第二数值序列输入至所述第二词向量表征模型,得到数组格式为序列长度乘以词向量维度的第一数组;
[0015]在序列维度上对所述第一数组取平均得到第二数组,将所述第二数组作为所述文
本对应的词向量。
[0016]在其中一个实施例中,所述基于所述单意图文本数据训练集及所述每条文本对应的词向量,构造与所述单意图文本数据训练集相同业务领域的相似文本句对数据集,包括:
[0017]针对所述单意图文本数据训练集中每条文本,将所述文本作为第一文本,计算所述第一文本对应的词向量与第二文本对应的词向量之间的相似度;其中,所述第二文本为所述单意图文本数据训练集中除所述第一文本外的任一文本;
[0018]按照相似度从大到小选取预定数量的第二文本;
[0019]从所述预定数量的第二文本中确定意图与所述第一文本的意图一致的第二文本作为目标文本,将所述第一文本和所述目标文本组成一条相似文本句对数据;
[0020]根据所述单意图文本数据训练集中每条文本所得到的相似文本句对数据,构造与所述单意图文本数据训练集相同业务领域的相似文本句对数据集。
[0021]在其中一个实施例中,所述根据所述单意图文本数据训练集中每条文本所得到的相似文本句对数据,构造与所述单意图文本数据训练集相同业务领域的相似文本句对数据集,包括:
[0022]对所述单意图文本数据训练集中每条文本所得到的相似文本句对数据进行去重处理,得到与所述单意图文本数据训练集相同业务领域的相似文本句对数据集。
[0023]第二方面,本申请提供了一种相似文本生成方法。所述方法包括:
[0024]获取待扩充的单意图文本数据集中每条文本,将所述每条文本输入目标相似文本生成模型,生成每条文本对应的相似文本;其中,所述目标相似文本生成模型是基于与单意图文本数据训练集相同业务领域的相似文本句对数据集进行训练得到;所述相似文本句对数据集是基于所述单意图文本数据训练集及所述单意图文本数据训练集中每条文本对应的词向量构造得到;所述每条文本对应的词向量是将所述单意图文本数据训练集中每一条文本输入至第二词向量表征模型得到,所述第二词向量表征模型是利用预设的相似句对训练集对第一词向量表征模型进行文本相似关系训练得到,所述第二词向量表征模型用于识别文本间的相似关系。
[0025]第三方面,本申请提供了一种用于生成相似文本的模型训练装置。所述装置包括:
[0026]第一训练模块,用于利用预设的相似句对训练集对第一词向量表征模型进行文本相似关系训练,得到第二词向量表征模型,所述第二词向量表征模型用于识别文本间的相似关系;
[0027]词向量表征模块,用于将单意图文本数据训练集中每一条文本输入至所述第二词向量表征模型,得到每条文本对应的词向量;
[0028]句对构造模块,用于基于所述单意图文本数据训练集及所述每条文本对应的词向量,构造与所述单意图文本数据训练集相同业务领域的相似文本句对数据集;
[0029]第二训练模块,用于根据所述相似文本句对数据集对初始的相似文本生成模型进行训练,得到目标相似文本生成模型。
[0030]第四方面,本申请提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0031]利用预设的相似句对训练集对第一词向量表征模型进行文本相似关系训练,得到第二词向量表征模型,所述第二词向量表征模型用于识别文本间的相似关系;
[0032]将单意图文本数据训练集中每一条文本输入至所述第二词向量表征模型,得到每条文本对应的词向量;
[0033]基于所述单意图文本数据训练集及所述每条文本对应的词向量,构造与所述单意图文本数据训练集相同业务领域的相似文本句对数据集;
[0034]根据所述相似文本句对数据集对初始的相似文本生成模型进行训练,得到目标相似文本生成模型。
[0035]第五方面,本申请提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
[0036]利用预设的相似句对训练集对第一词向量表征模型进行文本相似关系训练,得到第二词向量表征模型,所述第二词向量表征模型用于识别文本间的相似关系;
[0037]将单意图文本数据训练集中每一条文本输入至所述第二词向量表征模型,得到每条文本对应的词向量;
[0038]基于所述单意图文本数据训练集及所述每条文本对应的词向量,构造与所述单意图文本数据训练集相同业务领域的相似文本句对数据集;
[0039]根据所述相似本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于生成相似文本的模型训练方法,其特征在于,所述方法包括:利用预设的相似句对训练集对第一词向量表征模型进行文本相似关系训练,得到第二词向量表征模型,所述第二词向量表征模型用于识别文本间的相似关系;将单意图文本数据训练集中每一条文本输入至所述第二词向量表征模型,得到每条文本对应的词向量;基于所述单意图文本数据训练集及所述每条文本对应的词向量,构造与所述单意图文本数据训练集相同业务领域的相似文本句对数据集;根据所述相似文本句对数据集对初始的相似文本生成模型进行训练,得到目标相似文本生成模型。2.根据权利要求1所述的方法,其特征在于,所述将单意图文本数据训练集中每一条文本输入至所述第二词向量表征模型,得到每条文本对应的词向量,包括:针对单意图文本数据训练集中每一条文本,对所述文本进行编码处理得到文本内容对应的第一数值序列和用于区分不同句子的第二数值序列;将所述第一数值序列和所述第二数值序列输入至所述第二词向量表征模型,得到所述文本对应的词向量。3.根据权利要求2所述的方法,其特征在于,所述将所述第一数值序列和所述第二数值序列输入至所述第二词向量表征模型,得到所述文本对应的词向量,包括:将所述第一数值序列和所述第二数值序列输入至所述第二词向量表征模型,得到数组格式为序列长度乘以词向量维度的第一数组;在序列维度上对所述第一数组取平均得到第二数组,将所述第二数组作为所述文本对应的词向量。4.根据权利要求1所述的方法,其特征在于,所述基于所述单意图文本数据训练集及所述每条文本对应的词向量,构造与所述单意图文本数据训练集相同业务领域的相似文本句对数据集,包括:针对所述单意图文本数据训练集中每条文本,将所述文本作为第一文本,计算所述第一文本对应的词向量与第二文本对应的词向量之间的相似度;其中,所述第二文本为所述单意图文本数据训练集中除所述第一文本外的任一文本;按照相似度从大到小选取预定数量的第二文本;从所述预定数量的第二文本中确定意图与所述第一文本的意图一致的第二文本作为目标文本,将所述第一文本和所述目标文本组成一条相似文本句对数据;根据所述单意图文本数据训练集中每条文本所得到的相似文本句对数据,构造与所述单意图文本数据训练集相同业务领域的相似文本句对数据集。5.根据权利要求4所述的方法,...

【专利技术属性】
技术研发人员:张云云章杨清夏海兵佘丽丽毛宇张文锋
申请(专利权)人:招联消费金融有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1