训练文本生成方法、模型训练方法、装置及电子设备制造方法及图纸

技术编号:35096102 阅读:10 留言:0更新日期:2022-10-01 16:59
本申请公开了一种训练文本生成方法、模型训练方法、文本识别方法、装置电子设备及计算机可读存储介质,其中,训练文本用于对待训练模型进行训练,以得到文本识别模型,训练文本生成方法包括:获取引导文本,所述引导文本与目标文本的语义属性相一致,所述目标文本为所述文本识别模型识别出的正例文本;将所述引导文本输入基于引导的文本生成模型中,得到与所述引导文本的语义属性相一致的输出文本;根据所述输出文本确定训练文本。本申请通过基于引导的文本生成模型自动生成输出文本,从而确定出训练文本,可以更加快速、高效地得到训练文本。本。本。

【技术实现步骤摘要】
训练文本生成方法、模型训练方法、装置及电子设备


[0001]本申请涉及计算机
,具体涉及一种训练文本生成方法、模型训练方法、装置及电子设备。

技术介绍

[0002]互联网是人们生活、工作的重要工具,随着互联网开放程度越来越大,互联网上充斥着大量不适合展示给用户的敏感文本,例如,用户的网络留言、用户在聊天软件上的对话信息、对话机器人回复的信息等。为了营造绿色聊天环境,需要提前识别并过滤掉这些敏感文本。
[0003]相关技术中,可以使用文本识别模型来识别出敏感文本。然而,文本识别模型需要预先通过大量不同表述的敏感文本进行训练,由于目前互联网上很难搜集到大批量的敏感文本,而人工编写敏感文本效率很低,且人工编写数量有限,因此,如何快速、高效地获取到训练文本以训练文本识别模型是需要解决的问题。

技术实现思路

[0004]本申请提供了一种训练文本生成方法、模型训练方法、文本识别方法、装置电子设备及计算机可读存储介质,能够更快速、高效地获取到训练文本,以便于训练文本识别模型。具体方案如下:
[0005]第一方面,本申请提供了一种训练文本生成方法,所述训练文本用于对待训练模型进行训练,以得到文本识别模型,所述方法包括:
[0006]获取引导文本,所述引导文本与目标文本的语义属性相一致,所述目标文本为所述文本识别模型识别出的正例文本;
[0007]将所述引导文本输入基于引导的文本生成模型中,得到与所述引导文本的语义属性相一致的输出文本;
[0008]根据所述输出文本确定训练文本。
[0009]可选地,在所述将所述引导文本输入基于引导的文本生成模型中之前,所述方法还包括:
[0010]获取提问文本;
[0011]所述将所述引导文本输入基于引导的文本生成模型中,得到与所述引导文本语义属性相一致的输出文本,包括:
[0012]将所述提问文本和所述引导文本输入基于引导的对话生成模型中,得到用于回复所述提问文本、且与所述引导文本语义属性相一致的输出文本。
[0013]可选地,所述输出文本包括多条;
[0014]所述根据所述输出文本确定训练文本,包括:
[0015]从多条所述输出文本中确定训练文本。
[0016]可选地,所述从多条所述输出文本中确定训练文本,包括:
[0017]通过第一策略确定训练文本,所述第一策略包括:从多条所述输出文本中选择包含至少一个预设关键词的文本作为训练文本,所述预设关键词与所述目标文本的语义属性相一致;
[0018]或者,通过第二策略确定训练文本,所述第二策略包括:从多条所述输出文本中选择第一条文本或随机选择一条文本作为训练文本。
[0019]可选地,选择所述第一策略确定所述训练文本的概率为第一预设概率,选择所述第二策略确定所述训练文本的概率为第二预设概率,所述第一预设概率大于所述第二预设概率,且所述第一预设概率与所述第二预设概率之和为1。
[0020]可选地,所述第一预设概率的范围可以为0.7~0.9,所述第二预设概率的范围可以为0.1~0.3。
[0021]可选地,所述引导文本包括至少一个引导词,每一所述引导词与所述目标文本的语义属性相一致;
[0022]所述预设关键词包括:各所述引导词。
[0023]可选地,所述预设关键词还包括:各第一目标词,所述第一目标词为任意一条所述输出文本中包含的、与所述目标文本语义属性相一致、且与各所述引导词均不同的词。
[0024]可选地,所述第一策略还包括:当多条所述输出文本均未包含任一所述预设关键词时,选择多条所述输出文本中的第一条以确定训练文本。
[0025]可选地,所述正例文本的语义属性为语义敏感的文本,所述目标文本的语义属性为语义敏感的文本,所述文本识别模型用于对对话生成模型所生成的文本进行识别。
[0026]第二方面,本申请实施例还提供了一种文本识别模型的训练方法,包括:
[0027]获取训练样本,所述训练样本包括正例样本和负例样本,所述正例样本对应的文本包括:通过第一方面任一项所述的训练文本生成方法所生成的训练文本;
[0028]使用所述训练样本对待训练模型进行训练,得到文本识别模型。
[0029]可选地,所述训练方法还包括:
[0030]获取第一文本,所述第一文本为所述文本识别模型识别错误的文本,所述识别错误的文本的实际语义属性与所述文本识别模型对所述识别错误的文本所识别出的语义属性不同;
[0031]对所述第一文本进行标注,得到第一样本;
[0032]使用所述第一样本对所述文本识别模型进行优化训练。
[0033]可选地,在所述使用所述第一样本对所述文本识别模型进行优化训练之前,所述训练方法还包括:
[0034]获取第二文本,所述第二文本中包含第二目标词,且所述第二文本与所述第一文本所表达的语义属性相反,所述第二目标词为所述第一文本中包含的、与所述目标文本所表达的语义属性相一致的词;
[0035]对所述第二文本进行标注,得到第二样本,所述第二样本与所述第一样本的标注信息相反;
[0036]所述使用所述第一样本对所述文本识别模型进行优化训练,包括:
[0037]使用所述第一样本和所述第二样本对所述文本识别模型进行优化训练。
[0038]可选地,所述训练样本包括回复样本以及问答拼接样本;
[0039]所述回复样本中正例样本对应的文本包括:通过第一方面中通过将所述提问文本和所述引导文本输入基于引导的对话生成模型中的方式确定出的训练文本;
[0040]所述问答拼接样本对应的文本为拼接文本,所述拼接文本包括:将提问文本与对应于该提问文本的回复文本进行拼接后形成的文本。
[0041]第三方面,本申请实施例还提供了一种文本识别方法,其特征在于,包括:
[0042]获取待识别文本;
[0043]将所述待识别文本输入文本识别模型中,得到对所述待识别文本的识别结果,其中,所述文本识别模型是通过第一方面中任一项所述的训练方法进行训练得到的。
[0044]可选地,所述待识别文本为对话生成模型所生成的文本;
[0045]或者,所述待识别文本为将用户的提问文本以及对话生成模型所生成的文本进行拼接后形成的文本,其中,所述文本识别模型是通过第二方面所述的模型训练方法中,当训练样本包括回复样本以及问答拼接样本时的模型训练方法进行训练得到的。
[0046]第四方面,本申请还提供了一种训练文本生成装置,所述训练文本用于对待训练模型进行训练,以得到文本识别模型,所述装置包括:
[0047]信息获取单元,用于获取引导文本,所述引导文本与目标文本的语义属性相一致,所述目标文本为所述文本识别模型识别出的正例文本;
[0048]文本生成单元,用于将所述引导文本输入基于引导的文本生成模型中,得到与所述引导文本的语义属性相一致的输出文本;
[0049]文本确定单元,用于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种训练文本生成方法,其特征在于,所述训练文本用于对待训练模型进行训练,以得到文本识别模型,所述方法包括:获取引导文本,所述引导文本与目标文本的语义属性相一致,所述目标文本为所述文本识别模型识别出的正例文本;将所述引导文本输入基于引导的文本生成模型中,得到与所述引导文本的语义属性相一致的输出文本;根据所述输出文本确定训练文本。2.根据权利要求1所述的方法,其特征在于,在所述将所述引导文本输入基于引导的文本生成模型中之前,所述方法还包括:获取提问文本;所述将所述引导文本输入基于引导的文本生成模型中,得到与所述引导文本语义属性相一致的输出文本,包括:将所述提问文本和所述引导文本输入基于引导的对话生成模型中,得到用于回复所述提问文本、且与所述引导文本语义属性相一致的输出文本。3.根据权利要求2所述的方法,其特征在于,所述输出文本包括多条;所述根据所述输出文本确定训练文本,包括:从多条所述输出文本中确定训练文本。4.根据权利要求3所述的方法,其特征在于,所述从多条所述输出文本中确定训练文本,包括:通过第一策略确定训练文本,所述第一策略包括:从多条所述输出文本中选择包含至少一个预设关键词的文本作为训练文本,所述预设关键词与所述目标文本的语义属性相一致;或者,通过第二策略确定训练文本,所述第二策略包括:从多条所述输出文本中选择第一条文本或随机选择一条文本作为训练文本。5.根据权利要求4所述的方法,其特征在于,选择所述第一策略确定所述训练文本的概率为第一预设概率,选择所述第二策略确定所述训练文本的概率为第二预设概率,所述第一预设概率大于所述第二预设概率,且所述第一预设概率与所述第二预设概率之和为1。6.根据权利要求4所述的方法,其特征在于,所述引导文本包括至少一个引导词,每一所述引导词与所述目标文本的语义属性相一致;所述预设关键词包括:各所述引导词。7.根据权利要求6所述的方法,其特征在于,所述预设关键词还包括:各第一目标词,所述第一目标词为与所述目标文本语义属性相一致、且与各所述引导词均不同的词。8.根据权利要求4所述的方法,其特征在于,所述第一策略还包括:当多条所述输出文本均未包含任一所述预设关键词时,选择多条所述输出文本中的第一条以确定训练文本。9.根据权利要求1至8任一项所述的方法,其特征在于,所述正例文本的语义属性为语义敏感的文本,所述目标文本的语义属性为语义敏感的文本,所述文本识别模型用于对对话生成模型所生成的文本进行识别。10.一种文本识别模型的训练方法,其特征在于,包括:获取训练样本,所述训练样本包括正例样本和负例样本,所述正例样本对应的文本包
括:通过权利要求1至9中任一项所述的训练文本生成方法所生成的训练文本;使用所述训练样本对待训练模型进行训练,得到文本识别模型。11.根据...

【专利技术属性】
技术研发人员:王丽宋有伟张林箭张聪范长杰胡志鹏
申请(专利权)人:网易杭州网络有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1