模型训练方法、装置及存储介质制造方法及图纸

技术编号:30448062 阅读:19 留言:0更新日期:2021-10-24 18:41
本申请实施例提供一种模型训练方法、装置及存储介质,其中,模型训练方法包括:获得多个对话样本的困难度;根据每个对话样本的困难度对多个对话样本进行分组,得到至少一个对话样本组;按照预设的困难度顺序,将至少一个对话样本组加入训练集合中,并利用训练集合中的对话样本对对话模型进行训练。通过将对话样本根据困难度进行分组,按照预设的困难度顺序,加入训练集合中进行训练,提高了对话模型训练的效果,进而提高了对话模型的准确率。进而提高了对话模型的准确率。进而提高了对话模型的准确率。

【技术实现步骤摘要】
模型训练方法、装置及存储介质


[0001]本申请实施例涉及人工智能
,尤其涉及一种模型训练方法、装置及存储介质。

技术介绍

[0002]随着人工智能的发展,许多设备都可以通过神经网络模型实现和用户进行问答对话。对话状态跟踪(Dialog State Tracking,DST)模型是任务导向型对话中的重要模型,它可以根据对话历史,输出表示对话状态的槽值对,也可以说是将对话进行分类。在模型应用之前,需要利用样本数据对模型进行训练,训练效果的好坏也决定了模型分类的准确性。相关技术中,对DST模型进行训练时,利用对话数据进行随机训练,影响训练效果,进而影响模型的准确率。

技术实现思路

[0003]有鉴于此,本申请实施例提供一种模型训练方法、装置及存储介质,以至少部分解决上述问题。
[0004]根据本申请实施例的第一方面,提供了一种模型训练方法,包括:获得多个对话样本的困难度;根据每个对话样本的困难度对多个对话样本进行分组,得到至少一个对话样本组;按照预设的困难度顺序,将至少一个对话样本组加入训练集合中,并利用训练集合中的对话样本对对话模型进行训练。
[0005]根据本申请实施例的第二方面,提供了一种模型训练装置,包括:困难度模块,用于获得多个对话样本的困难度;分组模块,用于根据每个对话样本的困难度对多个对话样本进行分组,得到至少一个对话样本组;训练模块,用于按照预设的困难度顺序,将至少一个对话样本组加入训练集合中,并利用训练集合中的对话样本对对话模型进行训练。
[0006]根据本申请实施例的第三方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;存储器用于存放至少一可执行指令,可执行指令使处理器执行如第一方面的模型训练方法对应的操作。
[0007]根据本申请实施例的第四方面,提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时,实现如第一方面的模型训练方法。
[0008]根据本申请实施例的第五方面,提供了一种计算机程序产品,该计算机程序产品被处理器执行时,实现如第一方面的模型训练方法。
[0009]本申请实施例提供的模型训练方法、装置及存储介质,获得多个对话样本的困难度;根据每个对话样本的困难度对多个对话样本进行分组,得到至少一个对话样本组;按照预设的困难度顺序,将至少一个对话样本组加入训练集合中,并利用训练集合中的对话样本对对话模型进行训练。通过将对话样本根据困难度进行分组,按照预设的困难度顺序,加入训练集合中进行训练,提高了对话模型训练的效果,进而提高了对话模型的准确率。
附图说明
[0010]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0011]图1为本申请实施例一提供的一种模型训练方法的场景示意图;图2为本申请实施例一提供的一种模型训练方法的流程图;图3为本申请实施例一提供的一种模型训练方法的架构图;图4为本申请实施例二提供的一种模型训练装置的结构图;图5为本申请实施例三提供的一种电子设备的结构图。
具体实施方式
[0012]为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。
[0013]下面结合本申请实施例附图进一步说明本申请实施例具体实现。
[0014]实施例一本申请实施例一提供一种模型训练方法,应用于电子设备,为了便于理解,对本申请实施例一所提供的模型训练方法的应用场景进行说明,参照图1所示,图1为本申请实施例一提供的一种模型训练方法的场景示意图。图1所示的场景中包括电子设备101,电子设备101可以是执行本申请实施例一提供的模型训练方法的设备。
[0015]电子设备101可以是智能手机、平板电脑、笔记本电脑、车载终端等终端设备,电子设备101也可以是服务器等网络设备,当然,此处只是示例性说明,并不代表本申请局限于此。
[0016]电子设备101可以接入网络,通过网络与云端连接,并进行数据交互,或者,电子设备101可以是云端的设备。本申请中,网络包括局域网(英文:Local Area Network,LAN)、广域网(英文:Wide Area Network,WAN)、移动通信网络;如万维网(英文:World Wide Web,WWW)、长期演进(英文:Long Term Evolution,LTE)网络、2G网络(英文:2th Generation Mobile Network)、3G网络(英文:3th Generation Mobile Network),5G网络(英文:5th Generation Mobile Network)等。云端可以包括通过网络连接的各种设备,例如,服务器、中继设备、端到端(英文:Device

to

Device,D2D)设备等。当然,此处只是示例性说明,并不代表本申请局限于此。
[0017]结合图1所示的场景,详细说明本申请实施例一提供的模型训练方法,需要说明的是,图1只是本申请实施例一提供的模型训练方法的一种应用场景,并不代表该模型训练方法必须应用于图1所示的场景,具体可以应用于电子设备,参照图2所示,图2为本申请实施例一提供的一种模型训练方法的流程图,该方法包括以下步骤:步骤201、获得多个对话样本的困难度。
[0018]需要说明的是,一个对话样本对应一个困难度,示例性地,困难度越高,说明越难
以分类,也可以说困难度越高,该对话样本输出的槽值对准确性越低,即分类越不准确。
[0019]可选地,在一种实现方式中,获得多个对话样本的困难度,包括:利用打分模型对每个对话样本进行困难度打分,得到对话样本的困难度。
[0020]可选地,在另一种实现方式中,获得多个对话样本的困难度,包括:根据预设对话模型的准确率,和/或,困难度打分策略,分别对每个对话样本进行困难度打分,得到对话样本的困难度。需要说明的是,这两种实现方式可以结合起来,即根据预设对话模型的准确率,和/或,困难度打分策略,利用打分模型对每个对话样本进行困难度打分,得到对话样本的困难度。示例性地,可以只根据对话模型的准确率进行困难度打分,也可以值根据困难度打分策略进行困难度打分,也可以根据对话模型的准确率以及困难度打分策略进行困难度打分。此处,列举两个具体示例分别说明如何根据对话模型的准确率以及困难度打分策略进行打分。
[0021]可选地,在第一个示例中,获得多个对话样本的困难度,包括:将对话样本输入对话本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其中,包括:获得多个对话样本的困难度;根据每个对话样本的困难度对所述多个对话样本进行分组,得到至少一个对话样本组;按照预设的困难度顺序,将所述至少一个对话样本组加入训练集合中,并利用所述训练集合中的对话样本对对话模型进行训练。2.根据权利要求1所述的方法,其中,所述对话模型至少包括编码器,所述方法还包括:利用预训练样本对所述编码器进行预训练;具体的,所述利用预训练样本对所述编码器进行预训练,包括:将所述预训练样本输入所述对话模型的编码器中得到编码数据;将所述编码数据输入预设的预训练分类模型,并计算损失函数值,根据计算得到的损失函数值调整所述编码器,以减少所述损失函数值。3.根据权利要求2所述的方法,其中,所述预训练样本包括预训练槽样本和预训练对话样本,所述编码器包括槽编码器和对话编码器,所述将所述预训练样本输入所述对话模型的编码器中得到编码数据,包括:将所述预训练槽样本输入所述槽编码器得到槽编码数据,将预训练对话样本输入所述对话编码器得到对话编码数据,所述编码数据包括所述槽编码数据和所述对话编码数据。4.根据权利要求3所述的方法,其中,所述预训练分类模型包括序列二分类模型、槽分类模型以及掩码语言模型,所述将所述编码数据输入预设的预训练分类模型,并计算损失函数值,根据计算得到的损失函数值调整所述编码器,以减少所述损失函数值,包括:将所述槽编码数据和所述对话编码数据输入所述序列二分类模型,并计算第一损失函数值;将所述槽编码数据和所述对话编码数据输入所述槽分类模型,并计算第二损失函数值;将所述槽编码数据和所述对话编码数据输入所述掩码语言模型,并计算第三损失函数值;将所述第一损失函数值、所述第二损失函数值以及所述第三损失函数值进行加权求和得到所述损失函数值,根据所述损失函数值调整所述编码器,以减少所述损失函数值。5.根据权利要求1所述的方法,其中,所述获得多个对话样本的困难度,包括:根据所述对话模型的准确率,和/或,困难度打分策略,分别对每个对话样本进行困难度打分,得到所述对话样本的困难度。6.根据权利要求1所述的方法,其中,所述获得多个对话样本的困难度,包括:将对话样...

【专利技术属性】
技术研发人员:戴音培李永彬孙健
申请(专利权)人:阿里巴巴达摩院杭州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1