The embodiment of the invention discloses a model training method and system, server and storage medium, wherein, the method includes: the basic model obtained by the first training sample data annotated; based model analysis results of second sample data and user analysis of second sample data corresponding to the results of feedback, training reward the model, on the basis of analytical model for the return of the model results are evaluated; using third sample data, feedback based training model and return model, and the model of the target is set to return positive feedback, to correct the model to the user goal adjustment based model after adjustment. The embodiment of the invention can improve the interactive mode in the model training process, reduce the manpower cost of data annotation, and improve the reusability of data in different scenes.
【技术实现步骤摘要】
模型训练方法和系统、服务器、存储介质
本专利技术实施例涉及自然语言处理
,尤其涉及一种模型训练方法和系统、服务器、存储介质。
技术介绍
在数据库查询(query)理解任务中,现在常用的方法是将query拆解为包括类别、意图和槽位的三元组。类别即query属于哪个类别,比如天气、地图、星座。意图即query的目的,比如查看、购买、询问或查找路线等。槽位即query中的关键信息,比如在“北京今天的天气情况”中,“北京”是地点槽位,“今天”是时间槽位。数据查询解析的方法,也从传统的统计和规则变为现在较为常用的基于机器学习的方案。但是,无论采用哪种方案,所需要的训练数据都要求是已经有标注结果的数据,即每条训练数据包括query和它对应的类别、意图和槽位,而现有技术中通常是人工进行标注,且数据的复用性比较差。对于同一类别或者同一槽位,不同的应用场景或者不同的人的意图,拆解方式都是不同的。例如,对于3C类的手机,可以按照【购买,查看】这种意图拆分,也可以按照【购买,功能,参数,图片,价格】这种意图拆分。对于槽位,存在相同问题,例如,对于“iPhone6s”一词,一种拆分方式为:把“iphone”作为品牌,“6s”作为型号;而另一种拆分方式可以为:把“iphone6”作为手机型号,“s”作为子型号。因此,拆分方式的多样性,造成在不同的应用场景下,标注数据很难复用,经常需要对同一类别的数据进行不同的标注,消耗巨大的人力成本。
技术实现思路
本专利技术实施例提供一种模型训练方法和系统、服务器、存储介质,以解决现有技术中对目标query进行人工标注成本高、不同场景中数据复用 ...
【技术保护点】
一种模型训练方法,其特征在于,包括:利用带标注的第一样本数据训练得到基础模型;利用所述基础模型对第二样本数据的解析结果和用户对第二样本数据对应的解析结果的反馈,训练得到回报模型,其中,所述回报模型用于对所述基础模型的解析结果进行评估;利用第三样本数据,结合所述基础模型和回报模型进行反馈训练,并将所述回报模型的目标置为正向反馈,以纠正所述基础模型向用户目标调整,得到调整后的基础模型。
【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:利用带标注的第一样本数据训练得到基础模型;利用所述基础模型对第二样本数据的解析结果和用户对第二样本数据对应的解析结果的反馈,训练得到回报模型,其中,所述回报模型用于对所述基础模型的解析结果进行评估;利用第三样本数据,结合所述基础模型和回报模型进行反馈训练,并将所述回报模型的目标置为正向反馈,以纠正所述基础模型向用户目标调整,得到调整后的基础模型。2.根据权利要求1所述的方法,其特征在于,所述利用所述基础模型对第二样本数据的解析结果和用户对第二样本数据对应的解析结果的反馈,训练得到回报模型,包括:将所述基础模型对第二样本数据的解析结果作为输入,用户对第二样本数据对应的解析结果的反馈作为目标,训练并得到所述回报模型;其中,用户对第二样本数据对应的解析结果的反馈是根据预设的模板句式划分的正向反馈和负向反馈。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:利用带标注的第四样本数据,结合所述基础模型和回报模型进行双目标训练,其中,所述双目标包括所述基础模型对第四样本数据的解析结果和所述回报模型对第四样本数据的解析结果的反馈结果,且所述反馈结果为正向反馈。4.根据权利要求1所述的方法,其特征在于,所述基础模型为循环神经网络模型,并结合条件随机场进行训练;所述回报模型采用包括softmax层和全连接层的机器学习模型。5.根据权利要求1所述的方法,其特征在于,所述样本数据包括查询和所述查询对应的特征信息,所述样本数据的标注包括查询的类型、意图和槽位。6.一种模型训练系统,其特征在于,包括:基础模型训练模块,用于利用带标注的第一样本数据训练得到基础模型;回报模型训练模块,用于利用所述基础模型对第二样本数据的解析结果和用户...
【专利技术属性】
技术研发人员:王一鸣,孙珂,贺文嵩,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。