训练文本生成方法、模型训练方法、装置及电子设备制造方法及图纸

技术编号：35096102 阅读：10 留言：0更新日期：2022-10-01 16:59

本申请公开了一种训练文本生成方法、模型训练方法、文本识别方法、装置电子设备及计算机可读存储介质，其中，训练文本用于对待训练模型进行训练，以得到文本识别模型，训练文本生成方法包括：获取引导文本，所述引导文本与目标文本的语义属性相一致，所述目标文本为所述文本识别模型识别出的正例文本；将所述引导文本输入基于引导的文本生成模型中，得到与所述引导文本的语义属性相一致的输出文本；根据所述输出文本确定训练文本。本申请通过基于引导的文本生成模型自动生成输出文本，从而确定出训练文本，可以更加快速、高效地得到训练文本。本。本。

全部详细技术资料下载

【技术实现步骤摘要】
训练文本生成方法、模型训练方法、装置及电子设备

[0001]本申请涉及计算机
，具体涉及一种训练文本生成方法、模型训练方法、装置及电子设备。

技术介绍

[0002]互联网是人们生活、工作的重要工具，随着互联网开放程度越来越大，互联网上充斥着大量不适合展示给用户的敏感文本，例如，用户的网络留言、用户在聊天软件上的对话信息、对话机器人回复的信息等。为了营造绿色聊天环境，需要提前识别并过滤掉这些敏感文本。
[0003]相关技术中，可以使用文本识别模型来识别出敏感文本。然而，文本识别模型需要预先通过大量不同表述的敏感文本进行训练，由于目前互联网上很难搜集到大批量的敏感文本，而人工编写敏感文本效率很低，且人工编写数量有限，因此，如何快速、高效地获取到训练文本以训练文本识别模型是需要解决的问题。

技术实现思路

[0004]本申请提供了一种训练文本生成方法、模型训练方法、文本识别方法、装置电子设备及计算机可读存储介质，能够更快速、高效地获取到训练文本，以便于训练文本识别模型。具体方案如下：
[0005]第一方面，本申请提供了一种训练文本生成方法，所述训练文本用于对待训练模型进行训练，以得到文本识别模型，所述方法包括：
[0006]获取引导文本，所述引导文本与目标文本的语义属性相一致，所述目标文本为所述文本识别模型识别出的正例文本；
[0007]将所述引导文本输入基于引导的文本生成模型中，得到与所述引导文本的语义属性相一致的输出文本；
[0008]根据所述输出文本确定训练...

【技术保护点】

【技术特征摘要】
1.一种训练文本生成方法，其特征在于，所述训练文本用于对待训练模型进行训练，以得到文本识别模型，所述方法包括：获取引导文本，所述引导文本与目标文本的语义属性相一致，所述目标文本为所述文本识别模型识别出的正例文本；将所述引导文本输入基于引导的文本生成模型中，得到与所述引导文本的语义属性相一致的输出文本；根据所述输出文本确定训练文本。2.根据权利要求1所述的方法，其特征在于，在所述将所述引导文本输入基于引导的文本生成模型中之前，所述方法还包括：获取提问文本；所述将所述引导文本输入基于引导的文本生成模型中，得到与所述引导文本语义属性相一致的输出文本，包括：将所述提问文本和所述引导文本输入基于引导的对话生成模型中，得到用于回复所述提问文本、且与所述引导文本语义属性相一致的输出文本。3.根据权利要求2所述的方法，其特征在于，所述输出文本包括多条；所述根据所述输出文本确定训练文本，包括：从多条所述输出文本中确定训练文本。4.根据权利要求3所述的方法，其特征在于，所述从多条所述输出文本中确定训练文本，包括：通过第一策略确定训练文本，所述第一策略包括：从多条所述输出文本中选择包含至少一个预设关键词的文本作为训练文本，所述预设关键词与所述目标文本的语义属性相一致；或者，通过第二策略确定训练文本，所述第二策略包括：从多条所述输出文本中选择第一条文本或随机选择一条文本作为训练文本。5.根据权利要求4所述的方法，其特征在于，选择所述第一策略确定所述训练文本的概率为第一预设概率，选择所述第二策略确定所述训练文本的概率为第二预设概率，所述第一预设概率大于所述第二预设概率，且所述第一预设概率与所述第二预设概率之和为1。6.根据权利要求4所述的方法，其特征在于，所述引导文本包括至少一个引导词，每一所述引导词与所述目标文本的语义属性相一致；所述预设关键词包括：各所述引导词。7.根据权利要求6所述的方法，其特征在于，所述预设关键词还包括：各第一目标词，所述第一目标词为与所述目标文本语义属性相一致、且与各所述引导词均不同的词。8.根据权利要求4所述的方法，其特征在于，所述第一策略还包括：当多条所述输出文本均未包含任一所述预设关键词时，选择多条所述输出文本中的第一条以确定训练文本。9.根据权利要求1至8任一项所述的方法，其特征在于，所述正例文本的语义属性为语义敏感的文本，所述目标文本的语义属性为语义敏感的文本，所述文本识别模型用于对对话生成模型所生成的文本进行识别。10.一种文本识别模型的训练方法，其特征在于，包括：获取训练样本，所述训练样本包括正例样本和负例样本，所述正例样本对应的文本包
括：通过权利要求1至9中任一项所述的训练文本生成方法所生成的训练文本；使用所述训练样本对待训练模型进行训练，得到文本识别模型。11.根据...

【专利技术属性】
技术研发人员：王丽，宋有伟，张林箭，张聪，范长杰，胡志鹏，
申请(专利权)人：网易杭州网络有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人