System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于多任务学习的多意图识别方法、系统及存储介质技术方案_技高网

一种基于多任务学习的多意图识别方法、系统及存储介质技术方案

技术编号:40247489 阅读:10 留言:0更新日期:2024-02-02 22:43
本发明专利技术公开了一种基于多任务学习的多意图识别方法、系统及存储介质,搭建分层多意图识别模型,定义意图树;所述分层多意图识别模型包括词向量处理网络层、共享参数网络层、分级意图网络层和顺序条件随机场。所述分级意图网络层的每一层的意图网络负责一个级别的意图处理,并输出至同一个前馈神经网络嵌入层,进行不同级别的意图特征相似度判断;顺序条件随机场的每一层条件随机场层都负责一个级别的实体建模。本发明专利技术实现了多层意图与多层实体联合识别任务,并根据需要将意图各层与实体各层相对应,拓展了意图识别与实体提取的深度,具有较好的实用性。

【技术实现步骤摘要】

本专利技术属于人工智能,具体涉及一种基于多任务学习的多意图识别方法、系统及存储介质


技术介绍

1、随着深度学习的发展,基于深度神经网络的模型逐渐被应用在意图识别和实体提取领域。例如,rnn(循环神经网络)和其变体lstm(长短期记忆网络)是常见的选择,因为这些模型能够处理序列数据,也就是文字。然而,这些模型的缺点是它们难以捕捉长距离依赖性,也就是在文本中相隔很远的两个词之间的关系。

2、为了解决这个问题,transformer模型被提出。transformer模型是一种新型的神经网络基础架构,使用自注意力机制(self-attention mechanism)来捕捉文本中所有词之间的关系,无论它们之间的距离多远。这使得transformer模型在许多nlp任务中表现优秀。

3、dietclassifier(dual intent entity transformer classifier)意图实体联合分类网络是一种基于transformer架构的模型,该模型的核心思想是训练一个联合模型同时完成意图识别与实体提取任务。除了使用transformer来处理文本输入,dietclassifier还引入了双输入设计,可以同时处理文本消息和已知实体的位置信息。然而,在dietclassifier等传统的单层意图识别模型中,其处理和识别意图的过程主要是通过训练一个深度学习模型来实现的,存在以下缺点:

4、(1)忽视意图与实体层级关系的问题:在dietclassifier中,所有的意图和实体都被视为同一层级的,这种方法忽视了意图以及实体之间可能存在的层级关系。而在实际应用中,用户的语言输入往往包含多个层级的意图,每个层级的意图都包含了对应层级的实体。例如,用户的表达可能属于一个总的意图,这个总意图又蕴含着一些与总意图相关的子意图,并包含了该层级意图下需要提取的实体。由于现有的方法不能有效地处理这种分层任务,所以可能会导致意图识别的结果不准确。

5、(2)应用范围受限:由于在识别多层次和复杂意图方面的局限性,现有技术在诸如智能客服、智能助手等复杂应用场景中的适用性受到限制。缺乏多层实体提取能力,无法提取各层意图对应的实体。

6、目前也存在一些分层多意图识别方法与实体提取方法,通过对每一层的任务训练一个单独的模型来识别不同层次的不同意图,或提取不同层次的实体。但仍存在以下缺点:

7、(1)子模型繁多,难以训练和维护。由于现有的分层识别方法是针对每一层的任务单独训练一个识别模型,因此随着层数的增加,所需要训练的模型数量会呈指数级增加。过多的子模型会导致意图识别系统过于复杂,难以对这些模型进行管理,存储和维护。后续需要对模型进行调整的难度也大大增加。

8、(2)模型之间依然缺乏关联,导致识别结果不准确。由于每个子模型都是根据对应某一层级的各类子意图单独训练的,因此这些模型之间缺乏相应的联系。每个模型不能利用到其他模型,乃至自己上一层模型的意图分类信息,导致分类准确性降低。

9、(3)训练时间长,推理时间长。每个子模型都是根据对应某一层级的各类子意图单独训练的,因为对不同意图的自然语言语料中,一些包含语法,词法等的底层信息是大致相同的,因此这会导致在每个子模型的底层网络部分的参数相差不大。重复训练这些参数会导致整个意图识别系统的训练时间过长以及算力的浪费。在使用稀疏向量的词嵌入方法时,这样的缺点会更加明显。同理,在模型推理时,每条用户语句也必须经过这些重复的网络层,导致推理时间变长。


技术实现思路

1、本专利技术的目的在于提供一种基于多任务学习的多意图识别方法、系统及存储介质,旨在解决上述的问题。

2、本专利技术主要通过以下技术方案实现:

3、一种基于多任务学习的多意图识别方法,包括以下步骤:

4、步骤s1:搭建分层多意图识别模型,定义意图树;

5、步骤s2:在分层多意图识别模型中,采用词向量处理网络层将各个词向量经由前馈神经网络汇总、嵌入、转化成维度并作为共享参数网络层的输入;所述共享参数网络层处理、提取每个分词语句向量的基础语法和语义特征,并分别输入分级意图网络层、顺序条件随机场;分级意图网络层的层数由意图树决定,每一层的意图网络负责一个级别的意图处理,并输出至同一个前馈神经网络嵌入层,进行不同级别的意图特征相似度判断;顺序条件随机场的条件随机场层的层数由多层实体树的深度决定,每一层条件随机场层都负责一个级别的实体建模;词向量经过共享参数网络层处理后,按顺序依次进入每层条件随机场层,每层条件随机场层输出每个分词在该层级的实体标签,从而完成实体提取;

6、步骤s3:使用训练后的分层多意图识别模型对用户新输入进行意图识别;将用户新输入的语句依次经过词向量处理网络层和共享参数网络层处理,然后分别输入到分级意图网络层的各级意图网络中;然后,将各级意图网络的输出与意图树中与之相对应层级中的各项意图特征进行相似度判断,得出最匹配意图,汇总各级意图识别判断结果并输出。

7、为了更好地实现本专利技术,进一步地,所述步骤s2中,训练分层多意图识别模型,为每一级意图网络的损失设置一个权重系数,分层多意图识别模型的总损失包括各级意图网络的加权损失和顺序条件随机场的损失,共享参数网络层的参数根据总损失进行梯度下降更新。

8、为了更好地实现本专利技术,进一步地,分级意图网络层的参数则根据各级意图网络的损失以及相对应的条件随机场层的损失进行梯度下降更新;同时采用frankwolfesolver算法对每级意图网络的意图损失的权重系数进行更新。

9、为了更好地实现本专利技术,进一步地,顺序条件随机场根据预先定义的每层实体标签计算条件随机场层的交叉熵损失,更新每层条件随机场层的转移矩阵参数。

10、为了更好地实现本专利技术,进一步地,所述步骤s2中,所述词向量处理网络层接收一种类型的词向量或者同时处理并融合两种不同类型的词向量;除了对用户输入进行分词所产生的词向量外,在每句话之后还还额外添加一个句向量。

11、本专利技术主要通过以下技术方案实现:

12、一种基于多任务学习的多意图识别系统,包括训练模块、识别模块,所述训练模块用于采用训练样本对分层多意图识别模型进行训练,所述识别模块用于采用训练后的分层多意图识别模型识别用户新输入;所述分层多意图识别模型包括词向量处理网络层、共享参数网络层、分级意图网络层和顺序条件随机场;

13、所述词向量处理网络层包括若干个并设的前馈神经网络,用于将各个词向量经由前馈神经网络汇总、嵌入、转化成共享参数网络层的输入;所述共享参数网络层用于处理并提取每个分词与句向量的基础语法和语义特征,所述共享参数网络层分别与分级意图网络层和顺序条件随机场连接;所述分级意图网络层包括若干级意图网络以及前馈神经网络嵌入层,意图网络用于处理一个级别的意图并输入前馈神经网络嵌入层,所述前馈神经网络嵌入层用于对不同级别的意图网络层输出的意图特征进行相本文档来自技高网...

【技术保护点】

1.一种基于多任务学习的多意图识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于多任务学习的多意图识别方法,其特征在于,所述步骤S2中,训练分层多意图识别模型,为每一级意图网络的损失设置一个权重系数,分层多意图识别模型的总损失包括各级意图网络的加权损失和顺序条件随机场的损失,共享参数网络层的参数根据总损失进行梯度下降更新。

3.根据权利要求2所述的一种基于多任务学习的多意图识别方法,其特征在于,分级意图网络层的参数则根据各级意图网络的损失以及相对应的条件随机场层的损失进行梯度下降更新;同时采用FrankWolfeSolver算法对每级意图网络的意图损失的权重系数进行更新。

4.根据权利要求3所述的一种基于多任务学习的多意图识别方法,其特征在于,顺序条件随机场根据预先定义的每层实体标签计算条件随机场层的交叉熵损失,更新每层条件随机场层的转移矩阵参数。

5.根据权利要求1所述的一种基于多任务学习的多意图识别方法,其特征在于,所述步骤S2中,所述词向量处理网络层接收一种类型的词向量或者同时处理并融合两种不同类型的词向量;除了对用户输入进行分词所产生的词向量外,在每句话之后还还额外添加一个句向量。

6.一种基于多任务学习的多意图识别系统,其特征在于,包括训练模块、识别模块,所述训练模块用于采用训练样本对分层多意图识别模型进行训练,所述识别模块用于采用训练后的分层多意图识别模型识别用户新输入;所述分层多意图识别模型包括词向量处理网络层、共享参数网络层、分级意图网络层和顺序条件随机场;

7.根据权利要求6所述的一种基于多任务学习的多意图识别系统,其特征在于,所述词向量处理网络层还包括初级前馈神经网络,所述前馈神经网络的输入为初级前馈神经网络的输出以及稠密特征,所述初级前馈神经网络的输入为与稀疏特征。

8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-5任一项所述的方法。

...

【技术特征摘要】

1.一种基于多任务学习的多意图识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于多任务学习的多意图识别方法,其特征在于,所述步骤s2中,训练分层多意图识别模型,为每一级意图网络的损失设置一个权重系数,分层多意图识别模型的总损失包括各级意图网络的加权损失和顺序条件随机场的损失,共享参数网络层的参数根据总损失进行梯度下降更新。

3.根据权利要求2所述的一种基于多任务学习的多意图识别方法,其特征在于,分级意图网络层的参数则根据各级意图网络的损失以及相对应的条件随机场层的损失进行梯度下降更新;同时采用frankwolfesolver算法对每级意图网络的意图损失的权重系数进行更新。

4.根据权利要求3所述的一种基于多任务学习的多意图识别方法,其特征在于,顺序条件随机场根据预先定义的每层实体标签计算条件随机场层的交叉熵损失,更新每层条件随机场层的转移矩阵参数。

5.根据权利要求1所述的一种基于多任务学...

【专利技术属性】
技术研发人员:杨成瀚张捷宋卫平李欢欢徐小云谷波阮正平王红蕾
申请(专利权)人:四川中电启明星信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1