文本类型确定方法、模型训练方法、装置及电子设备制造方法及图纸

技术编号:39294152 阅读:9 留言:0更新日期:2023-11-07 11:01
本申请实施例公开了一种文本类型确定方法、模型训练方法、装置及电子设备,该方法包括:通过拼接提问文本、样本文本和样本标签得到第一模板文本,使得第一模板文本成为提问样本文本的文本类型的完整对话,通过各个样本预测结果和第一模板文本对应位置的词语确定模型损失,在利用模型损失训练文本生成模型后,使得文本生成模型具备对样本标签对应的位置进行词语预测的能力,可以实现通过文本生成的方式来确定目标文本的文本类型,从而有效地提高文本生成模型在确定文本类型时的泛化性能,即便目标文本与样本文本来自不同的数据集,也能够准确地确定目标文本的文本类型,可广泛应用于云技术、人工智能、智慧交通、辅助驾驶等场景。景。景。

【技术实现步骤摘要】
文本类型确定方法、模型训练方法、装置及电子设备


[0001]本申请涉及人工智能
,特别是涉及一种文本类型确定方法、模型训练方法、装置及电子设备。

技术介绍

[0002]随着人工智能技术的发展,通过大型语言模型来确定待测数据的文本类型,可以作为语言模型安全保障的重要组成部分。
[0003]目前,通常采用训练数据集中的训练文本对语言模型进行训练,再基于训练后的语言模型确定目标数据集中的目标文本的文本类型,然而,传统的语言模型是通过分类器来确定文本类型的,当目标数据集与训练数据集的分布不一致时,分类器往往无法准确地确定目标文本的文本类型,导致语言模型的泛化性能较低。

技术实现思路

[0004]以下是对本申请详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
[0005]本申请实施例提供了一种文本类型确定方法、模型训练方法、装置及电子设备,能够提高文本生成模型在确定文本类型时的泛化性能,从而准确地确定目标文本的文本类型。
[0006]一方面,本申请实施例提供了一种文本类型确定方法,包括:
[0007]获取样本文本和提问文本,其中,所述提问文本用于提问所述样本文本的文本类型;
[0008]获取所述样本文本的样本标签,依次拼接所述提问文本、所述样本文本和所述样本标签得到第一模板文本,其中,所述样本标签用于指示所述样本文本的文本类型;
[0009]基于文本生成模型对所述第一模板文本的多个位置进行词语预测,生成各个位置的样本预测结果;
[0010]根据所述样本预测结果与所述第一模板文本中对应位置的词语确定模型损失,根据所述模型损失训练所述文本生成模型;
[0011]获取目标文本,依次拼接所述提问文本和所述目标文本得到第二模板文本,基于训练后的所述文本生成模型对所述第二模板文本的下一个词语进行词语预测,生成目标预测结果,其中,所述目标预测结果用于指示所述目标文本的文本类型。
[0012]另一方面,本申请实施例还提供了一种模型训练方法,包括:
[0013]获取样本文本和提问文本,其中,所述提问文本用于提问所述样本文本的文本类型;
[0014]获取所述样本文本的样本标签,依次拼接所述提问文本、所述样本文本和所述样本标签得到第一模板文本,其中,所述样本标签用于指示所述样本文本的文本类型;
[0015]基于文本生成模型对所述第一模板文本的多个位置进行词语预测,生成各个位置
的样本预测结果;
[0016]根据所述样本预测结果与所述第一模板文本中对应位置的词语确定模型损失,根据所述模型损失训练所述文本生成模型。
[0017]另一方面,本申请实施例还提供了一种文本类型确定装置,包括:
[0018]第一获取模块,用于获取样本文本和提问文本,其中,所述提问文本用于提问所述样本文本的文本类型;
[0019]第一拼接模块,用于获取所述样本文本的样本标签,依次拼接所述提问文本、所述样本文本和所述样本标签得到第一模板文本,其中,所述样本标签用于指示所述样本文本的文本类型;
[0020]第一预测模块,用于基于文本生成模型对所述第一模板文本的多个位置进行词语预测,生成各个位置的样本预测结果;
[0021]第一训练模块,用于根据所述样本预测结果与所述第一模板文本中对应位置的词语确定模型损失,根据所述模型损失训练所述文本生成模型;
[0022]第二预测模块,用于获取目标文本,依次拼接所述提问文本和所述目标文本得到第二模板文本,基于训练后的所述文本生成模型对所述第二模板文本的下一个词语进行词语预测,生成目标预测结果,其中,所述目标预测结果用于指示所述目标文本的文本类型。
[0023]进一步,上述第一预测模块具体用于:
[0024]将所述第一模板文本输入文本生成模型,采用注意力机制确定所述第一模板文本中各个位置的注意力词向量;
[0025]对各个所述注意力词向量进行映射处理,生成各个位置的样本预测结果。
[0026]进一步,所述文本生成模型包括依次连接的多个注意力层,上述第一预测模块具体用于:
[0027]对于每个所述注意力层,确定所述第一模板文本中各个位置在当前的所述注意力层中的注意力分数,根据所述注意力分数确定当前的所述注意力层输出的各个位置的过渡词向量,其中,当前的所述注意力层的输出为下一个所述注意力层的输入;
[0028]将最后一个所述注意力层输出的所述过渡词向量,作为对应位置的注意力词向量。
[0029]进一步,上述第一预测模块具体用于:
[0030]遍历所述第一模板文本的各个位置,根据当前位置的第一词向量以及所述当前位置之前所有位置的第二词向量,确定所述当前位置在当前的所述注意力层的注意力分数,其中,所述第一词向量和所述第二词向量为上一个所述注意力层输出的所述过渡词向量,所述注意力分数用于表征所述第一词向量和所述第二词向量之间的相关性;
[0031]根据所述注意力分数与各个所述第二词向量的乘积,确定当前的所述注意力层输出的各个位置的过渡词向量。
[0032]进一步,所述文本生成模型包括前向神经网络,上述第一预测模块具体用于:
[0033]基于前向神经网络对各个所述注意力词向量进行映射处理;
[0034]对各个所述注意力词向量的映射结果分别进行归一化处理,生成各个位置的样本预测结果。
[0035]进一步,所述提问文本的数量为多个,各个所述提问文本分别用于训练所述文本
生成模型,上述第二预测模块具体用于:
[0036]获取验证文本和验证标签,所述验证标签用于指示所述验证文本的文本类型;
[0037]将各个所述提问文本分别与所述验证文本拼接,得到多个第三模板文本;
[0038]基于各个所述提问文本训练的所述文本生成模型,对相应的所述第三模板文本的下一个词语进行词语预测,生成验证预测结果;
[0039]根据所述验证预测结果和所述验证标签,确定各个所述文本生成模型的预测准确率;
[0040]基于各个所述预测准确率之间的大小关系,在多个所述文本生成模型中确定目标文本生成模型,基于所述目标文本生成模型对所述第二模板文本的下一个词语进行词语预测。
[0041]进一步,所述提问文本的数量为至少三个,上述第二预测模块具体用于:
[0042]当至少两个所述提问文本训练的所述文本生成模型具有相等的所述预测准确率,且大于其余的所述预测准确率时,将所述文本生成模型作为候选文本生成模型;
[0043]确定各个所述候选文本生成模型对应的所述提问文本的文本长度;
[0044]基于各个所述文本长度之间的大小关系,在各个所述提问文本中确定提问模板;
[0045]将所述提问模板相应的所述候选文本生成模型作为目标文本生成模型。
[0046]进一步,上述第一预测模块还用于:
[0047]对训练后的所述文本生成模型进行剪枝处理;
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本类型确定方法,其特征在于,包括:获取样本文本和提问文本,其中,所述提问文本用于提问所述样本文本的文本类型;获取所述样本文本的样本标签,依次拼接所述提问文本、所述样本文本和所述样本标签得到第一模板文本,其中,所述样本标签用于指示所述样本文本的文本类型;基于文本生成模型对所述第一模板文本的多个位置进行词语预测,生成各个位置的样本预测结果;根据所述样本预测结果与所述第一模板文本中对应位置的词语确定模型损失,根据所述模型损失训练所述文本生成模型;获取目标文本,依次拼接所述提问文本和所述目标文本得到第二模板文本,基于训练后的所述文本生成模型对所述第二模板文本的下一个词语进行词语预测,生成目标预测结果,其中,所述目标预测结果用于指示所述目标文本的文本类型。2.根据权利要求1所述的文本类型确定方法,其特征在于,所述基于文本生成模型对所述第一模板文本的多个位置进行词语预测,生成各个位置的样本预测结果,包括:将所述第一模板文本输入文本生成模型,采用注意力机制确定所述第一模板文本中各个位置的注意力词向量;对各个所述注意力词向量进行映射处理,生成各个位置的样本预测结果。3.根据权利要求2所述的文本类型确定方法,其特征在于,所述文本生成模型包括依次连接的多个注意力层,所述采用注意力机制确定所述第一模板文本中各个位置的注意力词向量,包括:对于每个所述注意力层,确定所述第一模板文本中各个位置在当前的所述注意力层中的注意力分数,根据所述注意力分数确定当前的所述注意力层输出的各个位置的过渡词向量,其中,当前的所述注意力层的输出为下一个所述注意力层的输入;将最后一个所述注意力层输出的所述过渡词向量,作为对应位置的注意力词向量。4.根据权利要求3所述的文本类型确定方法,其特征在于,所述确定所述第一模板文本中各个位置在当前的所述注意力层中的注意力分数,根据所述注意力分数确定当前的所述注意力层输出的各个位置的过渡词向量,包括:遍历所述第一模板文本的各个位置,根据当前位置的第一词向量以及所述当前位置之前所有位置的第二词向量,确定所述当前位置在当前的所述注意力层的注意力分数,其中,所述第一词向量和所述第二词向量为上一个所述注意力层输出的所述过渡词向量,所述注意力分数用于表征所述第一词向量和所述第二词向量之间的相关性;根据所述注意力分数与各个所述第二词向量的乘积,确定当前的所述注意力层输出的各个位置的过渡词向量。5.根据权利要求2所述的文本类型确定方法,其特征在于,所述文本生成模型包括前向神经网络,所述对各个所述注意力词向量进行映射处理,生成各个位置的样本预测结果,包括:基于前向神经网络对各个所述注意力词向量进行映射处理;对各个所述注意力词向量的映射结果分别进行归一化处理,生成各个位置的样本预测结果。6.根据权利要求1所述的文本类型确定方法,其特征在于,所述提问文本的数量为多
个,各个所述提问文本分别用于训练所述文本生成模型,所述基于训练后的所述文本生成模型对所述第二模板文本的下一个词语进行词语预测,包括:获取验证文本和验证标签,所述验证标签用于指示所述验证文本的文本类型;将各个所述提问文本分别与所述验证文本拼接,得到多个第三模板文本;基于各个所述提问文本训练的所述文本生成模型,对相应的所述第三模板文本的下一个词语进行词语预测,生成验证预测结果;根据所述验证预测结果和所述验证标签,确定各个所述文本生成模型的预测准确率;基于各个所述预测准确率之间的大小关系,在多个所述文本生成模型中确定目标文本生成模型,基于所述目标文本生成模型对所述第二模板文本的下一个词语进行词语预测。7.根据权利要求6所述的文本类型确定方法,其特征在于,所述提问文本的数量为至少三个,所述基于各个所述预测准确率之间的大小关系,在多个所述文本生成模型中确定目标文本生成模型,包括:当至少两个所述提问文本训练的所述文本生成模型具有相等的所述预测准确率,且大于其余的所述预测准确率时,将所述文本生成模型作为候选文本生成模型;确定各个所述候选文本生成模型对应的所述提问文本的文本长度;基于各个所述文本长度之间的大小关系,在各个所述提问文本中确定提问模板;将所述提问模板相应的所述候选文本生成模型作为目标文本生成模型。8.根据权利要求1所述的文本类型确定方法,其特征在于,所述根据所述模型损失训练所述文本生成模型之后,所述方法还包括:对训练后的所述文本生成模型进行剪枝处理;获取微调文本和微调标签,其中,所述微调文本与所述样本文本分别属于不同的数据域,所述微调标签用于指示所述微调文本的文本类型;依次拼接所述提问文本、所述微调文本和所述微调标签,得到第四模板文本;基于所述第四模板文本,对剪枝处理后的所述文本生成模型再次进行训练。9.根据权利要求8所述的文本类型确定方法,其特征在于,所述文本生成模型包括多头注意力模块,所述多头注意力模块的每个注意力头均设置有门控网络,所述门控网络用于对所述多头注意力模块的注意力头进行剪...

【专利技术属性】
技术研发人员:刘乐茂邵卫
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1