模型训练方法和系统、服务器、存储介质技术方案

技术编号:17486223 阅读:36 留言:0更新日期:2018-03-17 10:32
本发明专利技术实施例公开了一种模型训练方法和系统、服务器、存储介质,其中,该方法包括:利用带标注的第一样本数据训练得到基础模型;利用基础模型对第二样本数据的解析结果和用户对第二样本数据对应的解析结果的反馈,训练得到回报模型,其中,回报模型用于对基础模型的解析结果进行评估;利用第三样本数据,结合基础模型和回报模型进行反馈训练,并将回报模型的目标置为正向反馈,以纠正基础模型向用户目标调整,得到调整后的基础模型。本发明专利技术实施例可以改善模型训练过程中的交互方式,降低数据标注的人力成本,提高不同场景中数据的复用性。

Model training method and system, server, storage medium

The embodiment of the invention discloses a model training method and system, server and storage medium, wherein, the method includes: the basic model obtained by the first training sample data annotated; based model analysis results of second sample data and user analysis of second sample data corresponding to the results of feedback, training reward the model, on the basis of analytical model for the return of the model results are evaluated; using third sample data, feedback based training model and return model, and the model of the target is set to return positive feedback, to correct the model to the user goal adjustment based model after adjustment. The embodiment of the invention can improve the interactive mode in the model training process, reduce the manpower cost of data annotation, and improve the reusability of data in different scenes.

【技术实现步骤摘要】
模型训练方法和系统、服务器、存储介质
本专利技术实施例涉及自然语言处理
,尤其涉及一种模型训练方法和系统、服务器、存储介质。
技术介绍
在数据库查询(query)理解任务中,现在常用的方法是将query拆解为包括类别、意图和槽位的三元组。类别即query属于哪个类别,比如天气、地图、星座。意图即query的目的,比如查看、购买、询问或查找路线等。槽位即query中的关键信息,比如在“北京今天的天气情况”中,“北京”是地点槽位,“今天”是时间槽位。数据查询解析的方法,也从传统的统计和规则变为现在较为常用的基于机器学习的方案。但是,无论采用哪种方案,所需要的训练数据都要求是已经有标注结果的数据,即每条训练数据包括query和它对应的类别、意图和槽位,而现有技术中通常是人工进行标注,且数据的复用性比较差。对于同一类别或者同一槽位,不同的应用场景或者不同的人的意图,拆解方式都是不同的。例如,对于3C类的手机,可以按照【购买,查看】这种意图拆分,也可以按照【购买,功能,参数,图片,价格】这种意图拆分。对于槽位,存在相同问题,例如,对于“iPhone6s”一词,一种拆分方式为:把“iphone”作为品牌,“6s”作为型号;而另一种拆分方式可以为:把“iphone6”作为手机型号,“s”作为子型号。因此,拆分方式的多样性,造成在不同的应用场景下,标注数据很难复用,经常需要对同一类别的数据进行不同的标注,消耗巨大的人力成本。
技术实现思路
本专利技术实施例提供一种模型训练方法和系统、服务器、存储介质,以解决现有技术中对目标query进行人工标注成本高、不同场景中数据复用性差的问题。第一方面,本专利技术实施例提供了一种模型训练方法,该方法包括:利用带标注的第一样本数据训练得到基础模型;利用所述基础模型对第二样本数据的解析结果和用户对第二样本数据对应的解析结果的反馈,训练得到回报模型,其中,所述回报模型用于对所述基础模型的解析结果进行评估;利用第三样本数据,结合所述基础模型和回报模型进行反馈训练,并将所述回报模型的目标置为正向反馈,以纠正所述基础模型向用户目标调整,得到调整后的基础模型。第二方面,本专利技术实施例还提供了一种模型训练系统,该系统包括:基础模型训练模块,用于利用带标注的第一样本数据训练得到基础模型;回报模型训练模块,用于利用所述基础模型对第二样本数据的解析结果和用户对第二样本数据对应的解析结果的反馈,训练得到回报模型,其中,所述回报模型用于对所述基础模型的解析结果进行评估;模型调整训练模块,用于利用第三样本数据,结合所述基础模型和回报模型进行反馈训练,并将所述回报模型的目标置为正向反馈,以纠正所述基础模型向用户目标调整,得到调整后的基础模型。第三方面,本专利技术实施例还提供了一种服务器,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本专利技术任一实施例所述的模型训练方法。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本专利技术任一实施例所述的模型训练方法。本专利技术实施例通过利用带标注的第一样本数据训练得到基础模型,基于基础模型对第二样本数据的解析结果和用户对第二样本数据对应的解析结果的反馈,训练得到回报模型,利用此回报模型对基础模型的解析结果进行评估,然后利用第三样本数据,结合基础模型和回报模型进行反馈训练,调整得到趋向用户目标的基础模型。本专利技术实施例解决了在数据库查询理解任务中,现有技术对目标query进行人工标注成本高、标注方式不友好、不同场景中数据复用性差的问题,通过将增强学习和有监督学习相结合,直接基于自然语言交互训练,改善了模型训练过程中的交互方式,降低了数据标注的人力成本,提高了不同场景中数据的复用性。附图说明图1是本专利技术实施例一提供的模型训练方法的流程图;图2是本专利技术实施例二提供的模型训练方法的流程图;图3是本专利技术实施例三提供的模型训练方法的流程图;图4是本专利技术实施例四提供的模型训练系统的结构示意图;图5是本专利技术实施例五提供的一种服务器的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1是本专利技术实施例一提供的模型训练方法的流程图,本实施例可适用于进行模型训练的情况,该方法可以由模型训练系统来执行,该系统可以采用软件和/或硬件的方式实现,并可集成在服务器中。如图1所示,该方法具体包括:S110、利用带标注的第一样本数据训练得到基础模型。基础模型为目标模型,可以用来做query理解。进行基础模型训练的目的在于赋予模型初始的解析能力。S120、利用训练得到的基础模型对第二样本数据的解析结果和用户对第二样本数据对应的解析结果的反馈,训练得到回报模型,其中,回报模型用于对基础模型的解析结果进行评估。训练回报模型的目的在于通过用户的反馈,训练出一个可以用来评估基础模型效果的评估模型,从而指导基础模型进行反馈训练。回报模型训练过程中利用的训练数据是不带标注的第二样本数据,可以根据相关的具体应用场景确定第二样本数据。用户对解析结果的反馈用来实现在不同的应用场景中,对原有数据标注进行微调,提高基础模型的场景迁移能力。示例性的,对于查询“iphone6s”,基础模型会首先给出一个默认解析,比如“类别:3c,意图:查看,槽位【品牌:iphone,型号:6s】”,而用户可以直接通过键盘或语音输入“iphone6是手机型号,s是子型号”,基础模型即可自动触发进行训练,将意图和槽位更新为用户的目标。采用自然语言交互的方式,改善了模型训练过程中的交互方式,使得训练得到的模型更易于使用,且便于训练调整。S130、利用第三样本数据,结合基础模型和回报模型进行反馈训练,并将回报模型的目标置为正向反馈,以纠正基础模型向用户目标调整,得到调整后的基础模型。反馈训练的目的在于将用户的反馈输入到基础模型,并使基础模型的解析结果发生变化,更倾向于用户的目标。利用不带标注的第三样本数据,将基础模型和回报模型结合起来训练,并将回报模型的目标全部设置为正向反馈用来纠正基础模型,使得基础模型经调整后趋向用户目标。基础模型和回报模型均采用机器学习模型。示例性的,具体的模型训练过程如下:首先利用历史数据,即带标注的第一样本数据,训练基础模型;用户对训练得到的基础模型输入query,即第二样本数据,基础模型将会给出query的解析结果,用户对该解析结果做出反馈,并利用query的解析结果以及用户的反馈训练得到回报模型;最后用回报模型对基础模型进行反馈,调整得到趋向用户目标的基础模型。不断重复上述过程,即可完成query理解模型的训练。当应用场景发生变化时,本实施例的技术方案训练得到的基础模型并不需要从零开始重新训练,原有数据的效果可以迁移到新的应用场景中,只需用自然语言交互的方式进行微调即可。通过基础模型训练可以最大限度的将历史数据进行复用,不需要重新进行大规模数据标注,即带标注的第一样本数据在训练过程中只利用一次,之后不再需要重复利用本文档来自技高网...
模型训练方法和系统、服务器、存储介质

【技术保护点】
一种模型训练方法,其特征在于,包括:利用带标注的第一样本数据训练得到基础模型;利用所述基础模型对第二样本数据的解析结果和用户对第二样本数据对应的解析结果的反馈,训练得到回报模型,其中,所述回报模型用于对所述基础模型的解析结果进行评估;利用第三样本数据,结合所述基础模型和回报模型进行反馈训练,并将所述回报模型的目标置为正向反馈,以纠正所述基础模型向用户目标调整,得到调整后的基础模型。

【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:利用带标注的第一样本数据训练得到基础模型;利用所述基础模型对第二样本数据的解析结果和用户对第二样本数据对应的解析结果的反馈,训练得到回报模型,其中,所述回报模型用于对所述基础模型的解析结果进行评估;利用第三样本数据,结合所述基础模型和回报模型进行反馈训练,并将所述回报模型的目标置为正向反馈,以纠正所述基础模型向用户目标调整,得到调整后的基础模型。2.根据权利要求1所述的方法,其特征在于,所述利用所述基础模型对第二样本数据的解析结果和用户对第二样本数据对应的解析结果的反馈,训练得到回报模型,包括:将所述基础模型对第二样本数据的解析结果作为输入,用户对第二样本数据对应的解析结果的反馈作为目标,训练并得到所述回报模型;其中,用户对第二样本数据对应的解析结果的反馈是根据预设的模板句式划分的正向反馈和负向反馈。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:利用带标注的第四样本数据,结合所述基础模型和回报模型进行双目标训练,其中,所述双目标包括所述基础模型对第四样本数据的解析结果和所述回报模型对第四样本数据的解析结果的反馈结果,且所述反馈结果为正向反馈。4.根据权利要求1所述的方法,其特征在于,所述基础模型为循环神经网络模型,并结合条件随机场进行训练;所述回报模型采用包括softmax层和全连接层的机器学习模型。5.根据权利要求1所述的方法,其特征在于,所述样本数据包括查询和所述查询对应的特征信息,所述样本数据的标注包括查询的类型、意图和槽位。6.一种模型训练系统,其特征在于,包括:基础模型训练模块,用于利用带标注的第一样本数据训练得到基础模型;回报模型训练模块,用于利用所述基础模型对第二样本数据的解析结果和用户...

【专利技术属性】
技术研发人员:王一鸣孙珂贺文嵩
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1