一种对话状态识别模型的训练方法、装置、介质及设备制造方法及图纸

技术编号：37611713 阅读：21 留言：0更新日期：2023-05-18 12:03

本说明书公开了一种对话状态识别模型的训练方法、装置、介质及设备，通过确定历史对话中的单轮对话数据，以及将单轮对话数据之前的对话数据作为关联数据，确定训练样本包含的对话数据，根据对话各参与方在预设的状态维度上的标注，确定训练样本的标注，其中状态维度不仅包含语意还包含参与方的其他状态。之后通过对训练样本进行编码以及分别对应各状态维度的解码器进行解码，根据各状态维度的状态预测结果与标注，确定损失，以损失最小训练对话状态识别模型。不再仅基于单轮对话数据训练，使得识别结果更准确，由于还识别参与方除语意外的其他状态，因此可确定各参与方的多维度的信息，提高了对话系统的效率。提高了对话系统的效率。提高了对话系统的效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种对话状态识别模型的训练方法、装置、介质及设备

[0001]本申请涉及自然语言处理领域，尤其涉及一种对话状态识别模型的训练方法、装置、介质及设备。

技术介绍

[0002]目前，随着计算机技术的快速发展，人工智能以及自然语言处理领域中对语意识别的需求越来越高，通常基于神经网络训练识别语意的模型。准确的识别用户语意，可以为下游业务提供更好的支持。例如，在人机对话系统中，准确的识别用户输入语句的意图，是后续输出信息的准确性的保证。但是一方面如何提高语意识别的准确度，仍是一大难题，另一方面通过对话数据仅确定单一的用户语意，使得对数据的利用率较低，大量的隐含信息没能利用。
[0003]基于此，本说明书提供一种对话状态识别模型的训练方法。

技术实现思路

[0004]本说明书提供一种对话状态识别模型的训练方法、装置、介质及设备，以部分的解决现有技术存在的上述问题。
[0005]本说明书采用下述技术方案：本说明书提供一种对话状态识别模型的训练方法，所述对话状态识别模型为多任务学习模型，每个任务对应一个解码层，每个解码层用于输出不同的对话状态，所述方法包括：从历史对话中确定单轮对话数据，并将所述历史对话中在所述单轮对话数据之前的对话数据，作为所述单轮对话数据的关联数据；根据所述单轮对话数据以及所述关联数据，确定训练样本，以及确定所述历史对话中所述单轮对话数据的各参与方在预设的各状态维度上的标注，作为所述训练样本的标注；将所述训练样本输入待训练的对话状态识别模型的编码层，确定编码特征；将所述编码特征输入...

【技术保护点】

【技术特征摘要】
1.一种对话状态识别模型的训练方法，其特征在于，所述对话状态识别模型为多任务学习模型，每个任务对应一个解码层，每个解码层用于输出不同的对话状态，所述方法包括：从历史对话中确定单轮对话数据，并将所述历史对话中在所述单轮对话数据之前的对话数据，作为所述单轮对话数据的关联数据；根据所述单轮对话数据以及所述关联数据，确定训练样本，以及确定所述历史对话中所述单轮对话数据的各参与方在预设的各状态维度上的标注，作为所述训练样本的标注，所述状态维度至少包含语意维度；将所述训练样本输入待训练的对话状态识别模型的编码层，确定编码特征；将所述编码特征输入所述待训练的对话状态识别模型的各解码层，通过所述各解码层，确定所述单轮对话数据的各参与方在所述各状态维度上的状态预测结果；根据各状态维度的状态预测结果以及所述训练样本在各状态维度上标注，确定所述训练样本对应的损失，并以损失最小为优化目标，对所述对话状态识别模型进行训练；其中，训练完成的所述对话状态识别模型用于基于对话参与方的对话数据识别所述对话参与方的状态，并根据所述对话参与方的状态确定输出语句。2.如权利要求1所述的方法，其特征在于，确定所述历史对话中所述单轮对话数据的各参与方在预设的各状态维度上的标注，具体包括：针对所述单轮对话数据的每个参与方，根据所述历史对话整体内容，确定该参与方在所述单轮对话数据中各状态维度的标注；其中，所述状态维度至少包括：用户意图、用户目的、用户需求、用户反应、用户行为、用户属性中的至少一种。3.如权利要求2所述的方法，其特征在于，针对所述单轮对话数据的每个参与方，根据所述历史对话整体内容，确定该参与方在所述单轮对话数据对应的一轮对话中各状态维度的标注，具体包括：确定所述单轮对话数据中，各参与方中的对话发起方以及对话响应方；根据所述历史对话整体内容，确定所述对话发起方在所述单轮对话数据对应的一轮对话中的用户意图、用户目的、用户需求、用户反应、用户行为、用户属性；根据所述历史对话整体内容，确定所述对话响应方在所述单轮对话数据对应的一轮对话中的用户目的、用户反应、用户行为。4.如权利要求1所述的方法，其特征在于，将所述历史对话中在所述单轮对话数据之前的对话数据，作为所述单轮对话数据的关联数据，具体包括：按照预设的对话轮数，从所述历史对话中，确定在所述单轮对话数据之前所述对话轮数的对话数据，作为所述单轮对话数据的关联数据。5.如权利要求1或4所述的方法，其特征在于，根据所述单轮对话数据以及所述关联数据，确定训练样本，具体包括：将所述单轮对话数据中对话发起方的对话数据以及所述关联数据，作为训练样本。6.如权利要求1所述的方法，其特征在于，将所述训练样本输入待训练的对话状态识别模型的编码层，确定编码特征，具体包括：针对所述训练样本中的每个语句，确定该语句的语句结构；
根据确定出的语句结构，进行分词处理，确定各分词对应的词向量；根据各分词在该语句中的顺序，确定该语句对应的句向量；将确定出的各语句对应的句向量，按照在所述历史对话中的排序，输入所述编码层，确定编码特征。7.如权利要求1所述的方法，其特征在于，根据各状态维度的状态预测结果以及所述训练样本在各状态维度上标注，确定所述训练样本对应的损失，具体包括：针对...

【专利技术属性】
技术研发人员：余轲，
申请(专利权)人：北京轮子科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人