一种生成样本的方法、装置、存储介质及电子设备制造方法及图纸

技术编号:28420081 阅读:19 留言:0更新日期:2021-05-11 18:27
本说明书公开了一种生成样本的方法、装置、存储介质及电子设备,本说明书实施例先确定当前对话的对话目标,再据此确定当前对话所需包含的关键词类型,然后根据从数据库中查询该关键词类型下的每个待选关键词的查询结果,在各待选关键词中确定目标关键词,并向用户提供该对话目标和目标关键词,使用户采用该目标关键词完成当前对话,并实现该对话目标,从而可根据用户完成的当前对话生成训练样本。通过上述生成样本的方法,用户只要采用目标关键词完成对话目标即可,可降低对用户的要求,从而降低了生成训练样本的难度。

【技术实现步骤摘要】
一种生成样本的方法、装置、存储介质及电子设备
本说明书涉及计算机
,尤其涉及一种生成样本的方法、装置、存储介质及电子设备。
技术介绍
目前,诸如智能客服等对话机器人已经应用于各个领域中,对话机器人的要求也不断提高,通常来说,对话机器人是采用训练样本对机器学习模型进行训练得到的对话模型。在现有技术中,用于训练对话模型的训练样本通常需要对自然人之间的对话进行采样得到,而由于能够作为训练样本的对话往往具有一定的要求,因此需要较为专业的标注人员进行对话,才能生成训练样本。有鉴于此,如何降低生成用于训练对话模型的训练样本的难度成为一个亟待解决的问题。
技术实现思路
本说明书实施例提供一种生成样本的方法、装置、存储介质及电子设备,以部分解决上述现有技术存在的问题。本说明书实施例采用下述技术方案:本说明书提供的一种生成样本的方法,包括:根据已发生对话,确定当前对话的对话目标;根据所述当前对话的对话目标,确定所述当前对话中所需包含的关键词类型;针对所述关键词类型中包含的每个待选关键词,根据该待选关键词以及所述已发生对话中包含的已知关键词,从预设的数据库中查询与该待选关键词以及所述已知关键词相关的数据;根据针对每个待选关键词进行查询得到的查询结果,在各待选关键词中,确定所述关键词类型对应的目标关键词;向用户提供所述对话目标和所述目标关键词,以便所述用户采用所述目标关键词完成所述当前对话,并实现所述对话目标;根据所述用户完成的所述当前对话,生成训练样本,所述训练样本用于训练对话模型,所述对话模型为机器学习模型。可选地,根据所述当前对话的对话目标,确定所述当前对话中所需包含的关键词类型,具体包括:根据所述当前对话所在的业务类型,确定预设的所述业务类型对应的各关键词类型;根据所述当前对话的对话目标,在所述业务类型对应的各关键词类型中,确定所述当前对话中所需包含的关键词类型。可选地,预设的所述业务类型对应的各关键词类型包括:与其他业务类型相关的关键词类型。可选地,从预设的数据库中查询与该待选关键词以及所述已知关键词相关的数据,具体包括:从预设的与所述业务类型对应的数据库中查询与该待选关键词以及所述已知关键词相关的数据;其中,与所述业务类型对应的数据库中包括:与其他业务类型相关的关键词类型中包含的每个待选关键词对应的数据。可选地,根据针对每个待选关键词进行查询得到的查询结果,在各待选关键词中,确定所述关键词类型对应的目标关键词,具体包括:针对每个待选关键词,若针对该待选关键词进行查询得到的查询结果的数量大于设定数量,则将该待选关键词确定为目标关键词。可选地,根据所述用户完成的所述当前对话,生成训练样本,具体包括:若所述用户完成的所述当前对话与已经生成的所有训练样本的相似度均不大于设定阈值,则根据所述用户完成的所述当前对话,生成训练样本;若所述用户完成的所述当前对话与已经生成的任一训练样本的相似度大于设定阈值,则向所述用户发送提示信息,所述提示信息用户提示用户重新采用所述目标关键词完成用于实现所述对话目标的当前对话,直至所述用户完成的当前对话与已经生成的所有训练样本的相似度均不大于设定阈值时,根据与已经生成的所有训练样本的相似度均不大于设定阈值的当前对话,生成训练样本。可选地,根据所述用户完成的所述当前对话,生成训练样本,具体包括:将所述用户完成的当前对话作为训练样本;根据所述已发生对话、所述用户完成的当前对话以及所述对话目标,确定所述当前对话的对话状态;将所述对话状态作为生成的所述训练样本的标注。本说明书提供的一种生成样本的装置,包括:目标确定模块,用于根据已发生对话,确定当前对话的对话目标;关键词类型确定模块,用于根据所述当前对话的对话目标,确定所述当前对话中所需包含的关键词类型;查询模块,用于针对所述关键词类型中包含的每个待选关键词,根据该待选关键词以及所述已发生对话中包含的已知关键词,从预设的数据库中查询与该待选关键词以及所述已知关键词相关的数据;关键词确定模块,用于根据针对每个待选关键词进行查询得到的查询结果,在各待选关键词中,确定所述关键词类型对应的目标关键词;交互模块,用于向用户提供所述对话目标和所述目标关键词,以便所述用户采用所述目标关键词完成所述当前对话,并实现所述对话目标;生成模块,用于根据所述用户完成的所述当前对话,生成训练样本,所述训练样本用于训练对话模型,所述对话模型为机器学习模型。本说明书提供的一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的生成样本的方法。本说明书提供的一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的生成样本的方法。本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:本说明书实施例先确定当前对话的对话目标,再据此确定当前对话所需包含的关键词类型,然后根据从数据库中查询该关键词类型下的每个待选关键词的查询结果,在各待选关键词中确定目标关键词,并向用户提供该对话目标和目标关键词,使用户采用该目标关键词完成当前对话,并实现该对话目标,从而可根据用户完成的当前对话生成训练样本。通过上述生成样本的方法,用户只要采用目标关键词完成对话目标即可,可降低对用户的要求,从而降低了生成训练样本的难度。附图说明此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:图1为本说明书实施例提供的生成样本的方法示意图;图2为本说明书实施例提供的生成样本的装置的结构示意图;图3为本说明书实施例提供的电子设备的结构示意图。具体实施方式在现有技术中,通常为标注人员指定整段对话的目标,由两个标注人员根据整段对话的目标,自由发挥来完成整段对话,最后将这两个标注人员完成的对话作为训练样本。但是,这种方法所产生的对话并不一定是合理的,这是因为在实际应用场景中,用户与对话机器人进行对话时,对话机器人通常都需要根据用户传达的信息在数据库中进行检索,并将检索结果返回给用户,或者根据检索结果向用户反馈某些信息,因此,在生成训练样本时,就要求标注人员在自由发挥完成对话的同时,根据其完成的对话在数据库中也能够检索到结果,使对话在该数据库的支持下,能够顺利的“进行下去”,而不是“进行不下去”。例如,假设为标注人员设置的整段对话的目标为:获知用户想住哪,大概什么价位。则甲、乙两名标注人员发生下述对话。甲模拟“对话机器人”:请问您想住哪?乙模拟“用户”:某五星级酒店。甲:想订什么价位的房间呢?乙:100元的。甲:好的。可见,本文档来自技高网...

【技术保护点】
1.一种生成样本的方法,其特征在于,包括:/n根据已发生对话,确定当前对话的对话目标;/n根据所述当前对话的对话目标,确定所述当前对话中所需包含的关键词类型;/n针对所述关键词类型中包含的每个待选关键词,根据该待选关键词以及所述已发生对话中包含的已知关键词,从预设的数据库中查询与该待选关键词以及所述已知关键词相关的数据;/n根据针对每个待选关键词进行查询得到的查询结果,在各待选关键词中,确定所述关键词类型对应的目标关键词;/n向用户提供所述对话目标和所述目标关键词,以便所述用户采用所述目标关键词完成所述当前对话,并实现所述对话目标;/n根据所述用户完成的所述当前对话,生成训练样本,所述训练样本用于训练对话模型,所述对话模型为机器学习模型。/n

【技术特征摘要】
1.一种生成样本的方法,其特征在于,包括:
根据已发生对话,确定当前对话的对话目标;
根据所述当前对话的对话目标,确定所述当前对话中所需包含的关键词类型;
针对所述关键词类型中包含的每个待选关键词,根据该待选关键词以及所述已发生对话中包含的已知关键词,从预设的数据库中查询与该待选关键词以及所述已知关键词相关的数据;
根据针对每个待选关键词进行查询得到的查询结果,在各待选关键词中,确定所述关键词类型对应的目标关键词;
向用户提供所述对话目标和所述目标关键词,以便所述用户采用所述目标关键词完成所述当前对话,并实现所述对话目标;
根据所述用户完成的所述当前对话,生成训练样本,所述训练样本用于训练对话模型,所述对话模型为机器学习模型。


2.如权利要求1所述的方法,其特征在于,根据所述当前对话的对话目标,确定所述当前对话中所需包含的关键词类型,具体包括:
根据所述当前对话所在的业务类型,确定预设的所述业务类型对应的各关键词类型;
根据所述当前对话的对话目标,在所述业务类型对应的各关键词类型中,确定所述当前对话中所需包含的关键词类型。


3.如权利要求2所述的方法,其特征在于,预设的所述业务类型对应的各关键词类型包括:与其他业务类型相关的关键词类型。


4.如权利要求3所述的方法,其特征在于,从预设的数据库中查询与该待选关键词以及所述已知关键词相关的数据,具体包括:
从预设的与所述业务类型对应的数据库中查询与该待选关键词以及所述已知关键词相关的数据;
其中,与所述业务类型对应的数据库中包括:与其他业务类型相关的关键词类型中包含的每个待选关键词对应的数据。


5.如权利要求1所述的方法,其特征在于,根据针对每个待选关键词进行查询得到的查询结果,在各待选关键词中,确定所述关键词类型对应的目标关键词,具体包括:
针对每个待选关键词,若针对该待选关键词进行查询得到的查询结果的数量大于设定数量,则将该待选关键词确定为目标关键词。


6.如权利要求1所述的方法,其特征在于,根据所述用户完成的所述当前对话,生成训练样本,具体包括:
若所述用户...

【专利技术属性】
技术研发人员:陈瑞年刘瑜李明陆恒通杨玉树江会星
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1