训练要素分类模型的方法和装置制造方法及图纸

技术编号:24577834 阅读:19 留言:0更新日期:2020-06-21 00:38
本说明书实施例提供一种训练要素分类模型的方法和装置,要素分类模型用于针对句子进行要素识别,方法包括:将第一句子输入待训练的要素分类模型,通过所述要素分类模型输出第一要素;将所述第一要素输入待训练的标问生成模型,通过所述标问生成模型输出第二句子;其中,所述要素分类模型和所述标问生成模型互为对偶模型;以所述第一句子和所述第二句子之间的差异最小化为目标,基于对偶学习的方式训练所述要素分类模型和所述标问生成模型。能够在标注数据量不足的情况下训练要素分类模型,并提高要素识别的准确率。

Method and device of training element classification model

【技术实现步骤摘要】
训练要素分类模型的方法和装置
本说明书一个或多个实施例涉及计算机领域,尤其涉及训练要素分类模型的方法和装置。
技术介绍
人工智能(artificialintelligence,AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。深度学习(deeplearning)是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。当前,在机器人客服代替人工客服解答用户问题的过程中,常常要针对用户问句进行要素识别,要素识别即对用户文本提取出业务和诉求等相关词作为对话中的要素,用于对用户表达内容的粗粒度理解。
技术实现思路
本说明书一个或多个实施例描述了一种训练要素分类模型的方法和装置,能够在标注数据量不足的情况下,提高要素识别的准确率。第一方面,提供了一种训练要素分类模型的方法,所述要素分类模型用于针对句子进行要素识别,方法包括:将第一句子输入待训练的要素分类模型,通过所述要素分类模型输出第一要素;将所述第一要素输入待训练的标问生成模型,通过所述标问生成模型输出第二句子;其中,所述要素分类模型和所述标问生成模型互为对偶模型;以所述第一句子和所述第二句子之间的差异最小化为目标,基于对偶学习的方式训练所述要素分类模型和所述标问生成模型。在一种可能的实施方式中,所述标问生成模型在所述第一要素中引入了高斯噪声,基于引入了高斯噪声后的所述第一要素输出所述第二句子。在一种可能的实施方式中,所述第一句子和所述第二句子之间的差异通过如下方式确定:获取所述第一句子对应的第一概率分布和所述第二句子对应的第二概率分布;确定所述第一概率分布和所述第二概率分布的信息熵的差值,所述差值用于指示所述第一句子和所述第二句子之间的差异。在一种可能的实施方式中,所述待训练的要素分类模型通过如下方式得到:获取第一训练样本,所述第一训练样本包括第一样本句子和所述第一样本句子对应的第一要素标签;将所述第一样本句子输入初始要素分类模型,得到所述第一样本句子对应的预测要素;根据所述第一要素标签和所述预测要素,利用预先设定的第一损失函数,以最小化所述第一损失函数的函数值为目标,对所述初始要素分类模型进行预训练,得到所述待训练的要素分类模型。在一种可能的实施方式中,所述待训练的标问生成模型通过如下方式得到:获取第二训练样本,所述第二训练样本包括第二要素标签和所述第二要素标签对应的第二样本句子;将所述第二要素标签输入初始标问生成模型,得到所述第二要素标签对应的预测句子;根据所述第二样本句子和所述预测句子,利用预先设定的第二损失函数,以最小化所述第二损失函数的函数值为目标,对所述初始标问生成模型进行预训练,得到所述待训练的标问生成模型。在一种可能的实施方式中,所述要素分类模型包括:编码器,用于对所述第一句子逐词编码,得到所述第一句子对应的第一隐状态;全连接网络,用于根据所述第一隐状态进行分类,获得所述第一要素。进一步地,所述标问生成模型包括:词嵌入网络,用于将所述第一要素嵌入投射到预设空间,得到第一嵌入向量;解码器,用于对所述第一嵌入向量解码,产生所述第二句子。进一步地,所述编码器为第一长短期记忆(longshort-termmemory,LSTM)网络,所述解码器为第二LSTM网络。进一步地,所述编码器和所述解码器共享参数。进一步地,所述词嵌入网络为变分自编码器(variationalautoencoders,VAE),在嵌入过程中引入了高斯噪声。在一种可能的实施方式中,所述第一句子为用户与机器人客服对话中的用户问句。进一步地,所述用户与机器人客服对话属于交互式语音应答(interactivevoiceresponse,IVR)。在一种可能的实施方式中,所述方法还包括:将目标用户问句输入训练后的要素分类模型,通过所述要素分类模型输出第二要素;根据所述第二要素,输出反问问句;获取用户针对所述反问问句的补充信息;根据所述补充信息,确定所述目标用户问句对应的标准问句。第二方面,提供了一种训练要素分类模型的装置,所述要素分类模型用于针对句子进行要素识别,装置包括:分类单元,用于将第一句子输入待训练的要素分类模型,通过所述要素分类模型输出第一要素;生成单元,用于将所述分类单元输出的第一要素输入待训练的标问生成模型,通过所述标问生成模型输出第二句子;其中,所述要素分类模型和所述标问生成模型互为对偶模型;训练单元,用于以所述第一句子和所述生成单元输出的第二句子之间的差异最小化为目标,基于对偶学习的方式训练所述要素分类模型和所述标问生成模型。第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。通过本说明书实施例提供的方法和装置,构建了一对对偶模型,即要素分类模型和标问生成模型,其中,要素分类模型用于识别句子中的要素,标问生成模型用于根据给定的要素生成该要素对应的句子,基于对偶学习的方式训练要素分类模型和标问生成模型,由于对偶学习的共享参数特性,从而提升要素分类模型性能,能够在标注数据量不足的情况下训练要素分类模型,并提高要素识别的准确率。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1为本说明书披露的一个实施例的实施场景示意图;图2示出根据一个实施例的训练要素分类模型的方法流程图;图3示出根据一个实施例的原始模型和对偶模型的处理过程示意图;图4示出根据一个实施例的训练要素分类模型的装置的示意性框图。具体实施方式下面结合附图,对本说明书提供的方案进行描述。图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及训练要素分类模型。可以理解的是,要素分类模型用于从句子中识别出该句子的要素。通常地,可以先利用标注数据对要素分类模型进行训练,再利用训练后的要素分类模型针对句子进行要素识别。上述标注数据即训练样本,训练样本包括样本句子和该样本句子对应的要素标签。由于前期需要投入大量的人力进行数据标注,仍然难以获得足够数量的标注数据,从而利用训练后的要素分类模型进行要素识别的准确率低。本说明书实施例,针对在标注数据量不足的情况下训练要素分类模型,提出解决方案,通过将要素分类模型与其他模型组成一对对偶模型,利用对偶学习本文档来自技高网...

【技术保护点】
1.一种训练要素分类模型的方法,所述要素分类模型用于针对句子进行要素识别,所述方法包括:/n将第一句子输入待训练的要素分类模型,通过所述要素分类模型输出第一要素;/n将所述第一要素输入待训练的标问生成模型,通过所述标问生成模型输出第二句子;其中,所述要素分类模型和所述标问生成模型互为对偶模型;/n以所述第一句子和所述第二句子之间的差异最小化为目标,基于对偶学习的方式训练所述要素分类模型和所述标问生成模型。/n

【技术特征摘要】
1.一种训练要素分类模型的方法,所述要素分类模型用于针对句子进行要素识别,所述方法包括:
将第一句子输入待训练的要素分类模型,通过所述要素分类模型输出第一要素;
将所述第一要素输入待训练的标问生成模型,通过所述标问生成模型输出第二句子;其中,所述要素分类模型和所述标问生成模型互为对偶模型;
以所述第一句子和所述第二句子之间的差异最小化为目标,基于对偶学习的方式训练所述要素分类模型和所述标问生成模型。


2.如权利要求1所述的方法,其中,所述标问生成模型在所述第一要素中引入了高斯噪声,基于引入了高斯噪声后的所述第一要素输出所述第二句子。


3.如权利要求1所述的方法,其中,所述第一句子和所述第二句子之间的差异通过如下方式确定:
获取所述第一句子对应的第一概率分布和所述第二句子对应的第二概率分布;
确定所述第一概率分布和所述第二概率分布的信息熵的差值,所述差值用于指示所述第一句子和所述第二句子之间的差异。


4.如权利要求1所述的方法,其中,所述待训练的要素分类模型通过如下方式得到:
获取第一训练样本,所述第一训练样本包括第一样本句子和所述第一样本句子对应的第一要素标签;
将所述第一样本句子输入初始要素分类模型,得到所述第一样本句子对应的预测要素;
根据所述第一要素标签和所述预测要素,利用预先设定的第一损失函数,以最小化所述第一损失函数的函数值为目标,对所述初始要素分类模型进行预训练,得到所述待训练的要素分类模型。


5.如权利要求1所述的方法,其中,所述待训练的标问生成模型通过如下方式得到:
获取第二训练样本,所述第二训练样本包括第二要素标签和所述第二要素标签对应的第二样本句子;
将所述第二要素标签输入初始标问生成模型,得到所述第二要素标签对应的预测句子;
根据所述第二样本句子和所述预测句子,利用预先设定的第二损失函数,以最小化所述第二损失函数的函数值为目标,对所述初始标问生成模型进行预训练,得到所述待训练的标问生成模型。


6.如权利要求1所述的方法,其中,所述要素分类模型包括:
编码器,用于对所述第一句子逐词编码,得到所述第一句子对应的第一隐状态;
全连接网络,用于根据所述第一隐状态进行分类,获得所述第一要素。


7.如权利要求6所述的方法,其中,所述标问生成模型包括:
词嵌入网络,用于将所述第一要素嵌入投射到预设空间,得到第一嵌入向量;
解码器,用于对所述第一嵌入向量解码,产生所述第二句子。


8.如权利要求7所述的方法,其中,所述编码器为第一长短期记忆LSTM网络,所述解码器为第二LSTM网络。


9.如权利要求7所述的方法,其中,所述编码器和所述解码器共享参数。


10.如权利要求7所述的方法,其中,所述词嵌入网络为变分自编码器VAE,在嵌入过程中引入了高斯噪声。


11.如权利要求1所述的方法,其中,所述第一句子为用户与机器人客服对话中的用户问句。


12.如权利要求11所述的方法,其中,所述用户与机器人客服对话属于交互式语音应答IVR。


13.如权利要求1所述的方法,其中,所述方法还包括:
将目标用户问句输入训练后的要素分类模型,通过所述要素分类模型输出第二要素;
根据所述第二要素,输出反问问句;
获取用户针对所述反问问句的补充信息;
根据所述补充信息,确定所述目标用户问句对应的标准问句。


14.一种训练要素分类模型的装置,所述要素分类模型用于针对句子进行要素识别,所述装置包括:
分类单元,用于将第一句子输入待训练的要素分类模型,通过所述要素分类模型输出第一要素;
生成单元,用于将所述分类单元输...

【专利技术属性】
技术研发人员:张杰王雅芳
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1