对话响应生成模型的训练方法和装置及对话响应生成方法制造方法及图纸

技术编号:34043594 阅读:23 留言:0更新日期:2022-07-06 14:04
本申请公开了一种对话响应生成模型的训练方法和装置及对话响应生成方法,其中训练方法包括:获取预设的样本数据和文档库,所述样本数据包括对话过程数据以及每轮对话的正确文档标签和话题保持标签;利用对话响应生成模型,遍历所述对话过程数据对应的每轮对话,基于在该轮对话的响应信息之前已产生的对话历史数据和所述文档库,生成该轮对话的响应信息,并基于所述样本数据中的相应标签,计算损失函数值,利用所述损失函数值,对所述对话响应生成模型的参数进行优化调整;其中,在进行所述生成时,采用二次相关方式,基于当前的话题保持状况,从所述文档库中选取用于生成所述响应信息的最相关文档。采用本申请,可以提高对话的回复质量。对话的回复质量。对话的回复质量。

Training method and device of dialog response generation model and dialog response generation method

【技术实现步骤摘要】
对话响应生成模型的训练方法和装置及对话响应生成方法


[0001]本专利技术涉及人机对话技术,特别是涉及一种对话响应生成模型的训练方法和装置及对话响应生成方法。

技术介绍

[0002]人机对话系统是自然语言处理领域一个重要的研究方向,随着深度神经网络技术的发展,诸如Alexa、小冰等系统在某些领域已经可以与人展开流畅的对话。为了使对话系统可以适应于更多领域,受人人对话的启发,研究者们开始探索为对话系统增加外部知识。在这些外部知识中,文档易于获得且蕴含信息丰富,由文档驱动的对话任务被提了出来。为了使得对话更贴近于实际场景下的人人对话,高质量的回复需要满足语言通顺、上下文相关以及可以正确反映文档知识等要求。
[0003]文档驱动的对话种类繁多,根据用户对回复的需求,可分为面向知识的回复及面向业务的回复,根据文档获取的方式,则可分为固定单个文档驱动及自由选择文档的多文档驱动两种形式。
[0004]多文档驱动要求对话系统在每轮输出回复前都应从文档库中找出当前应当依赖的文档,其更贴近于实际场景下的人人对话;面向知识的回复则为对话系统赋予了向用户讲解知识或是交流知识的能力,具有较高的应用前景,故,面向知识回复的多文档驱动对话响应生成是当今研究的重点。针对此类问题,目前主要有检索预设回复以及直接生成回复两种方法。
[0005]直接生成回复的方法是目前学术界研究的重点,其借助文本生成的相关技术,直接生成回复。该类方法通常包括两个阶段,第一阶段通过若干编码器,编码对话上下文信息与备选文档,借助神经网络计算二者的相关性并输出检索结果,从而从备选文档中将目标文档检索出来。第二阶段则基于“编码器——解码器”的架构,通过若干编码器将对话上下文信息及第一阶段所选择的文档进行编码,将两类编码信息进行有效整合后,传入解码器以生成回复。
[0006]专利技术人在实现本专利技术的过程中发现:现有直接生成回复的方法存在无法满足高质量回复要求的问题。针对该问题,专利技术人经过研究分析发现其存在的原因如下:
[0007]现有直接生成回复的方法完全依赖解码器端的监督信号,其生成的回复的分布与模型训练时所使用的训练语料高度相关。这些训练语料往往只是实际应用中真实数据的一个较小的子集,故模型的泛化性能不足,更倾向于输出“好的。”、“是的。”这样的通用回复,这些通用回复既无法正确地体现文档知识,也不能满足上下文相关的要求。
[0008]另外,现有直接生成回复的方法在将对话上下文信息及第一阶段所选择的文档进行编码整合后,直接将整合结果传入解码器,生成回复,如此,往往会导致所生成的回复缺乏逻辑性,从而容易存在句子不通顺的问题。

技术实现思路

[0009]有鉴于此,本专利技术的主要目的在于提供一种对话响应生成模型的训练方法和装置及对话响应生成方法,可以提高对话的回复质量。
[0010]为了达到上述目的,本专利技术实施提出的技术方案为:
[0011]一种对话响应生成模型的训练方法,包括:
[0012]获取预设的样本数据和文档库,所述样本数据包括对话过程数据以及每轮对话的正确文档标签和话题保持标签;
[0013]利用对话响应生成模型,遍历所述对话过程数据对应的每轮对话,基于在该轮对话的响应信息之前已产生的对话历史数据和所述文档库,生成该轮对话的响应信息,并基于所述样本数据中的相应标签,计算损失函数值,利用所述损失函数值,对所述对话响应生成模型的参数进行优化调整;其中,在进行所述生成时,采用二次相关方式,基于当前的话题保持状况,从所述文档库中选取用于生成所述响应信息的最相关文档。
[0014]本专利技术实施例还提出一种对话响应生成方法,包括:
[0015]在对话过程中,当需要生成对话响应时,利用对话响应生成模型,基于当前已产生的对话历史数据和预设的文档库,生成并输出所述对话响应;
[0016]其中,所述对话响应生成模型基于如上所述的训练方法得到。
[0017]本专利技术实施例还提出一种对话响应生成模型的训练装置,包括处理器和存储器;
[0018]所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行如上所述对话响应生成模型的训练方法。
[0019]综上所述,本专利技术实施例提出的上述技术方案,在利用对话响应生成模型基于多文档驱动生成对话响应时,对于文档选择阶段,采用二次相关方式,基于当前的话题保持状况,从所述文档库中选取用于生成所述响应信息的最相关文档,如此,可以提高对用于生成响应信息的文档进行选择的准确性,使得模型生成的响应信息既能正确地体现文档知识,又能满足上下文相关的要求。并且,样本数据中不仅包含真实的响应信息,还包含正确文档标签和话题保持标签,这样,在进行模型训练时,监督信号不再仅限于对话的响应信息,还可以基于文档选择及话题保持情况等,训练模型提高响应信息的生成质量。因此,采用本专利技术实施例,可以有效提高对话的回复质量。
附图说明
[0020]图1为本专利技术实施例的对话响应生成模型的训练方法流程示意图;
[0021]图2为本专利技术实施例中对文本编码器进行训练的示意图;
[0022]图3为本专利技术实施例中确定对话历史数据分别与每个文档的相关性分数的示意图;
[0023]图4为本专利技术实施例中确定每个备选文档为当前轮对话的最相关文档的最终概率的示意图:
[0024]图5为本专利技术实施例的利用响应生成网络生成对话响应信息的流程示意图。
具体实施方式
[0025]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对
本专利技术作进一步地详细描述。
[0026]图1为本专利技术实施例的方法流程示意图,如图1所示,该实施例实现的对话响应生成模型的训练方法主要包括:
[0027]步骤101、获取预设的样本数据和文档库。
[0028]所述样本数据包括对话过程数据以及每轮对话的正确文档标签和话题保持标签,这样,在进行模型训练时,监督信号不再仅限于响应信息,还可以基于文档选择及话题保持情况等,训练模型提高响应信息的生成质量。
[0029]步骤102、利用对话响应生成模型,遍历所述对话过程数据对应的每轮对话,基于在该轮对话的响应信息之前已产生的对话历史数据和所述文档库,生成该轮对话的响应信息,并基于所述样本数据中的相应标签,计算损失函数值,利用所述损失函数值,对所述对话响应生成模型的参数进行优化调整;其中,在进行所述生成时,采用二次相关方式,基于当前的话题保持状况,从所述文档库中选取用于生成所述响应信息的最相关文档。
[0030]本步骤中,需要遍历样本数据中对话过程数据对应的每轮对话(即相应对话过程包含的每轮对话),由模型生成该轮对话的响应信息,以根据响应信息的生成情况,对模型进行调优,使得模型能生成高质量的响应信息。与现有方案不同的是,这里在生成对话响应的过程中,需要在文档选择环节,采用二次相关方式,基于当前的话题保持状况,从所述文档库中选取用于生成所述响应信息的最相关文档,如此,可以提高对用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种对话响应生成模型的训练方法,其特征在于,包括:获取预设的样本数据和文档库,所述样本数据包括对话过程数据以及每轮对话的正确文档标签和话题保持标签;利用对话响应生成模型,遍历所述对话过程数据对应的每轮对话,基于在该轮对话的响应信息之前已产生的对话历史数据和所述文档库,生成该轮对话的响应信息,并基于所述样本数据中的相应标签,计算损失函数值,利用所述损失函数值,对所述对话响应生成模型的参数进行优化调整;其中,在进行所述生成时,采用二次相关方式,基于当前的话题保持状况,从所述文档库中选取用于生成所述响应信息的最相关文档。2.根据权利要求1所述的方法,其特征在于,所述生成该轮对话的响应信息包括:利用预先训练的文本编码器,对所述对话历史数据的进行编码,并对所得到的编码表示进行平均池化处理,得到所述对话历史数据的向量表示;获取所述文档库中每个文档的向量表示;其中,所述文档的向量表示通过利用所述文本编码器对所述文档分别进行编码,并对所得到的编码表示进行平均池化处理得到;基于所述向量表示,利用文档选择网络,采用二次相关方式,基于当前的话题保持状况,确定当前轮对话的最相关文档;基于所述最相关文档的编码表示和所述对话历史数据的编码表示,利用响应生成网络,生成当前轮对话的响应信息。3.根据权利要求2所述的方法,其特征在于,所述文本编码器的训练包括:获取预设的编码样本数据,所述编码样本数据包括对话历史数据C、对话历史数据的相关文档d
+
和不相关文档d

;利用所述文本编码器,分别对所述编码样本数据中的对话历史数据C、所述相关文档d
+
和所述不相关文档d

进行编码,并对所得到的每个编码表示分别进行平均池化处理,得到所述对话历史数据C、所述相关文档d
+
和所述不相关文档d

各自的向量表示;基于所述对话历史数据C和所述相关文档d
+
的向量表示,计算向量间的余弦相似度,得到所述对话历史数据C和所述相关文档d
+
的相关性分数;基于所述对话历史数据C和所述不相关文档d

的向量表示,计算向量间的余弦相似度,得到所述对话历史数据C和所述不相关文档d

的相关性分数;基于所述相关性分数,利用铰链损失函数,计算编码损失函数值;利用所述编码损失函数值,对所述文本编码器的参数进行优化调整。4.根据权利要求2所述的方法,其特征在于,所述确定当前轮对话的最相关文档包括:基于所述向量表示,通过计算向量间的余弦相似度,得到所述对话历史数据分别与每个所述文档的相关性分数;从所述文档库中,选择前N个所述相关性分数最大的文档,作为备选文档;所述N为预设的大于1的整数;基于在生成上一轮对话的响应信息时选取的最相关文档d
last
是否属于所述备选文档,确定所述备选文档为当前轮对话的最相关文档的最终概率;选取所述最终概率最大的备选文档,作为当前轮对话的最相关文档。5.根据权利要求4所述的方法,其特征在于,所述确定所述备选文档为当前轮对话的最相关文档的最终概率包括:
基于所述备选文档的向量表示和所述对话历史数据的向量表示,采用点积计算方式,预测所述备选文档为当前轮对话的最相关文档的概率,得到所述备选文档的直接相关概率;基于所述文档d
last
的向量表示和所述对话历史数据的向量表示,利用多层感知机MLP,预测所述文档d
last
为当前轮对话的最相关文档的概率P
keep
;当所述文档d
last
属于所述备选文档时,利用所述概率P
keep
,对所述备选文档的直接相关概率,进行修正;并对所述修正得到的概率,进行归一化处理,得到所述备选文档为当前轮对话的最相关文档的最终概率;当所述文档d
last
不属于所述备选文档中的文档时,对所述备选文档的直接相关概率,进行归一化处理,得到所述备选文档为当前轮对话的最相关文档的最终概率;其中,所述利用所述概率P
keep
,对所述备选文档的直接相关概率,进行修正包括:如果所述备选文档为所述文档d
last
,则计算所述备选文档的直接相关概率与所述P
keep
的和,得到对所述备选文档的直接相关概率进行修正的结果,否则,计算所述备选文档的直接相关概率与

的和,得到对所述备选文档的直接相关概率进行修正的结果;其中,

=1

P
keep
。6.根据权利要求5所述的方法,其特征在于,所述利用响应生成网络,生成当前轮对话的响应信息包括:基于所述最相关文档的编码表示和所述对话历...

【专利技术属性】
技术研发人员:王金涛王小捷袁彩霞
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1