一种对话推理识别模型训练方法、装置、系统及介质制造方法及图纸

技术编号：43357198 阅读：22 留言：0更新日期：2024-11-19 17:43

本发明专利技术公开了一种对话推理识别模型训练的方法、装置、系统及介质，方法包括：收集对话数据，根据所述对话数据构造识别模型的输入向量；所述输入向量包括文本向量、角色段落向量和位置编码向量；将所述输入向量输入到识别模型的编码器中，获得文本表示向量；将所述文本表示向量通过全连接映射到类别上，得到类别向量；根据所述类别向量和类别阈值识别对话数据命中的意图类别，完成对识别模型的训练。本发明专利技术通过改变编码方式和模型结构，解决识别中的输入文本长度受限问题，以此进行对话过程不同角色之间的上下文交互，使识别模型既可以进行单轮推理也可以完成多轮推理，提高识别模型识别率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息处理领域，尤其涉及一种对话推理识别模型训练方法、装置、系统及介质。

技术介绍

1、智能语音助手的应用场景广泛，目前的任务型对话系统在多轮多意图推理场景工作效率差。主其只针对当前时间步的文本进行建模，并没有做到段落和段落、角色和角色的上下文交互。在单轮推理准确，然而多轮推理工作效率低。由于及其资源的限制，无法简单将上一轮度化和本轮用户输入直接作文本拼接，在输入模型中时，会受到文本长度的限制问题。在系统冷启动阶段，缺乏标注数据，且存在极端的数据不均衡现象，从而影响模型的识别率。

技术实现思路

1、鉴于上述现有技术的不足，本专利技术的目的在于提供可应用于金融科技或其它相关领域的一种对话推理识别模型训练的方法、装置、系统及介质，旨在解决识别中的输入文本长度受限问题，以此进行对话过程不同角色之间的上下文交互，使识别模型既可以进行单轮推理也可以完成多轮推理，提高识别模型识别率。

2、本专利技术的技术方案如下：

3、一种对话推理识别模型训练的方法，所述方法包括：

4、收集对话数据，根据所述对话数据构造识别模型的输入向量；所述输入向量包括文本向量、角色段落向量和位置编码向量；

5、将所述输入向量输入到识别模型的编码器中，获得文本表示向量；

6、将所述文本表示向量通过全连接映射到类别上，得到类别向量；

7、根据所述类别向量和类别阈值识别对话数据命中的意图类别，完成对识别模型的训练。

8、在一个实施例

9、从对话数据中提取文本数据，对所述文本数据进行预处理；

10、将预处理后的文本数据转换为文本向量。

11、在一个实施例中，所述收集对话数据，根据所述对话数据构造识别模型的输入向量，包括：

12、从所述对话数据中获取包含角色标识的对话文本数据；

13、确定所述对话文本数据中对话角色的角色数量；所述对话角色具有对应的角色标识；

14、若所述角色数量为2，则按照所述角色标识分配所述分段标识；

15、若所述角色数量大于2，则按照所述角色的对话顺序分配所述分段标识；

16、根据所述角色标识和分段标识对每个角色的文本段落转换对应的角色段落向量。

17、在一个实施例中，所述收集对话数据，根据所述对话数据构造识别模型的输入向量，包括：

18、确定识别模型输入序列的最大序列长度；

19、对所述对话数据根据所述最大序列长度进行处理得到数据序列；

20、对所述数据序列中的每个位置计算位置编码向量。

21、在一个实施例中，所述将所述输入向量输入到识别模型的编码器中，获得文本表示向量，包括：

22、对所述识别模型的编码器进行剪枝得到预设层数的编码器；

23、将所述输入向量输入到预设层数的编码器；

24、根据注意力机制对所述预设层数的编码器的每一层进行注意力交互处理，得到文本表示向量。

25、在一个实施例中，所述根据所述类别向量和类别阈值识别对话数据命中的意图类别，完成对识别模型的训练，包括：

26、若所述类别向量大于类别阈值，则命中意图；

27、若所述类别向量小于类别阈值，则不命中意图。

28、在一个实施例中，还包括：

29、在识别模型的每一层编码器添加正则化层；

30、通过自学习算法对所诉对话数据进行处理，得到伪标签数据；

31、根据所述正则化层和伪标签数据对识别模型进行训练。

32、一种对话推理识别模型训练装置，包括：

33、数据收集模块，用于收集对话数据，根据所述对话数据构造识别模型的输入向量；

34、第一向量模块，用于将所述输入向量输入到识别模型的编码器中，获得文本表示向量；

35、第二向量模块，用于将所述文本表示向量通过全连接映射到类别上，得到类别向量；

36、模型训练模块，用于根据所述类别向量和类别阈值识别对话数据命中的意图类别，完成对识别模型的训练。

37、一种对话推理识别模型训练系统，所述系统包括至少一个处理器；以及，

38、与所述至少一个处理器通信连接的存储器；其中，

39、所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述对话推理识别模型训练的方法。

40、一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行时，可使得所述一个或多个处理器执行上述的对话推理识别模型训练的方法。

41、有益效果：本专利技术公开了对话推理识别模型训练的方法、装置、系统及介质，相比于现有技术，本专利技术实施例解决了识别中的输入文本长度受限问题，以此进行对话过程不同角色之间的上下文交互，使识别模型既可以进行单轮推理也可以完成多轮推理，提高识别模型识别率。

本文档来自技高网...

【技术保护点】

1.一种对话推理识别模型训练的方法，其特征在于，包括：

2.根据权利要求1所述的对话推理识别模型训练的方法，其特征在于，所述收集对话数据，根据所述对话数据构造识别模型的输入向量，包括：

3.根据权利要求2所述的对话推理识别模型训练的方法，其特征在于，所述收集对话数据，根据所述对话数据构造识别模型的输入向量，包括：

4.根据权利要求3所述的对话推理识别模型训练的方法，其特征在于，所述收集对话数据，根据所述对话数据构造识别模型的输入向量，包括：

5.根据权利要求4所述的对话推理识别模型训练的方法，其特征在于，所述将所述输入向量输入到识别模型的编码器中，获得文本表示向量，包括：

6.根据权利要求5所述的对话推理识别模型训练的方法，其特征在于，所述根据所述类别向量和类别阈值识别对话数据命中的意图类别，包括：

7.根据权利要求6所述的对话推理识别模型训练的方法，其特征在于，还包括：

8.一种对话推理识别模型训练装置，其特征在于，包括：

9.一种对话推理识别模型训练系统，其特征在于，所述系统包括至少一个处理器；以及，

10.一种非易失性计算机可读存储介质，其特征在于，所述非易失性计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行时，可使得所述一个或多个处理器执行权利要求1-7任一项所述的对话推理识别模型训练的方法。

...

【技术特征摘要】

1.一种对话推理识别模型训练的方法，其特征在于，包括：

2.根据权利要求1所述的对话推理识别模型训练的方法，其特征在于，所述收集对话数据，根据所述对话数据构造识别模型的输入向量，包括：

3.根据权利要求2所述的对话推理识别模型训练的方法，其特征在于，所述收集对话数据，根据所述对话数据构造识别模型的输入向量，包括：

4.根据权利要求3所述的对话推理识别模型训练的方法，其特征在于，所述收集对话数据，根据所述对话数据构造识别模型的输入向量，包括：

5.根据权利要求4所述的对话推理识别模型训练的方法，其特征在于，所述将所述输入向量输入到识别模型的编码器中，获得文本表示向量，包括：

【专利技术属性】
技术研发人员：李志韬，王健宗，程宁，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人