当前位置: 首页 > 专利查询>新疆大学专利>正文

跨语言文本意图和槽位联合识别方法及模型技术

技术编号:37406290 阅读:10 留言:0更新日期:2023-04-30 09:32
本发明专利技术公开了一种跨语言文本意图和槽位联合识别方法及模型,包括:获取多个语言的意图识别和槽位填充联合任务数据集;选取联合任务数据集中的一个语言作为训练语料,对第一跨语言意图识别和槽位填充模型进行调整,得到教师模型;采用训练语料对第二跨语言意图识别和槽位填充模型进行调整,得到学生模型,并通过教师模型对标签知识和模型参数知识进行蒸馏,以得到跨语言意图识别和槽位填充联合蒸馏模型;基于跨语言意图识别和槽位填充联合蒸馏模型进行跨语言的文本意图和槽位联合识别。本发明专利技术选择协同交互注意力机制来对意图语义信息和槽位语义信息进行双向交互,增强了系统预测准确率。准确率。

【技术实现步骤摘要】
跨语言文本意图和槽位联合识别方法及模型


[0001]本专利技术涉及跨语言智能问答
,具体涉及一种基于知识蒸馏的跨语言文本意图和槽位联合识别方法及跨语言意图识别和槽位填充联合蒸馏模型。

技术介绍

[0002]智能问答系统不仅能在生活中提供闲聊服务以满足人们日常简单需求,而且在一些特定领域,根据用户输入文字信息,能够准确快速判断用户意图,并提供相应服务。这类不间断提供用户所需要的服务系统,节省了人工客服成本,带来了自动化、智能化服务解决方案,有重要的现实意义。
[0003]自然语言理解(NeuralLanguageUnderstanding,NLU)任务中主要包括以下两个子任务:1)意图识别(IntentDetection),识别问句中蕴含的主题与意图,理解用户问句所表达含义。2)槽位填充(SlotFilling),提取用户问句中包含的与意图相关的实体,并将每个实体映射到槽位标签上。传统实现策略将两个子任务视为各自独立的任务,忽略了子任务之间的紧密联系。由于意图识别和槽位填充存在较强的关联性,因此针对意图识别和槽位填充联合模型的研究逐渐变得主流,出现了多种不同的处理方式,例如:槽位门控联合模型Slot

Gated,使用意图增强门来指导槽位填充任务;堆栈传播(Stack

Propagation)直接利用意图信息作为槽位填充模型的输入,通过意图语义信息来增强槽位填充效果;胶囊神经网络模型Capsule

NLU利用动态协议路由来完成意图识别和槽位填充。<br/>[0004]现实环境下,问答系统需面临的用户问句通常是多语种、多样化的,特别是针对少数民族语言自然语言理解任务的研究相对较少。而围绕意图识别和槽位填充联合任务的研究要么使用多任务框架隐式建模,要么仅考虑从意图识别到槽位填充的显式单向交互建模,很少有研究同时在两个子任务之间进行双向连接,以产生意图信息和槽位信息的交叉影响。另外,基于大规模数据的预训练模型虽然展现出强大的性能,但由于预训练模型具有结构复杂、参数量大、难以部署的特点,较难适应当前移动计算发展对低资源、低功耗的需求,而问答系统是直接与用户交互的服务型系统,对系统的识别精度和速度的要求更高。

技术实现思路

[0005]本专利技术所要解决的技术问题在于,提供一种基于知识蒸馏的跨语言文本意图和槽位联合识别方法及模型,以能够应用于特定领域跨语言智能问答系统的应用场景。
[0006]为了解决上述技术问题,本专利技术提供了一种基于知识蒸馏的跨语言文本意图和槽位联合识别方法,包括:
[0007]获取多个语言的意图识别和槽位填充联合任务数据集;
[0008]选取所述联合任务数据集中的一个语言作为训练语料,对第一跨语言意图识别和槽位填充模型进行调整,得到教师模型;
[0009]采用所述训练语料对第二跨语言意图识别和槽位填充模型进行调整,得到学生模型,并通过所述教师模型对标签知识和模型参数知识进行蒸馏,以得到跨语言意图识别和
槽位填充联合蒸馏模型;
[0010]基于所述跨语言意图识别和槽位填充联合蒸馏模型进行跨语言的文本意图和槽位联合识别。
[0011]在一些实施方式中,所述选取所述联合任务数据集中的一个语言作为训练语料,对第一跨语言意图识别和槽位填充模型进行调整,得到教师模型的步骤,包括:
[0012]选取所述训练语料中的问句文本输入所述教师模型,采用跨语言共享编码器对所述问句文本进行数据预处理,并进行语义向量化,得到字级别的意图语义向量表示和槽位语义向量表示;
[0013]将所述意图语义向量表示和所述槽位语义向量表示分别输入字级别意图标签注意力模块和槽位标签注意力模块,获得带有标签语义的意图向量表示和槽位向量表示;
[0014]将所述意图向量表示和所述槽位向量表示在协同交互注意力模块中进行双向交互,并更新所述意图向量表示和所述槽位向量表示,得到槽位感知意图向量表示和意图感知槽位向量表示;
[0015]将所述槽位感知意图向量表示和所述意图感知槽位向量表示进行拼接,输入前馈神经网络层后,得到最终意图向量表示和最终槽位向量表示;
[0016]通过字级别意图解码器和槽位解码器分别对所述最终意图向量表示和所述最终槽位向量表示进行解码,获得意图标签概率输出和槽位标签概率输出;
[0017]通过所述意图标签概率输出和真实意图标签计算意图损失,通过所述槽位标签概率输出和真实槽位标签计算槽位损失,取所述意图损失和所述槽位损失加权和作为最终损失进行梯度回传,对第一跨语言意图识别和槽位填充模型的模型参数迭代更新,得到所述教师模型。
[0018]在一些实施方式中,所述选取所述训练语料中的问句文本输入所述教师模型,采用跨语言共享编码器对所述问句文本进行数据预处理,并进行语义向量化,得到字级别的意图语义向量表示和槽位语义向量表示的步骤,包括:
[0019]对所述问句文本进行分词,分词后的所述问句文本表示为:
[0020]X={x1,x2,

,x
T
},
[0021]其中X为分词后的所述问句文本,x
i
,i∈1...T表示分词后的单词,T表示单词数量;
[0022]给每个所述单词分别分配意图标签,构成字级别真实意图标签序列O
I
={o1,o2,

,o
T
},在分词后的所述问句文本X的开头和结尾分别插入特殊字符[CLS]和[SEP],并根据所述问句文本最大长度在文本结尾插入特殊字符[PAD]进行扩充,将扩充后的分词后的所述问句文本X输入到跨语言共享编码器中进行语义向量化,获得所述意图语义向量表示H
I
和槽位语义向量表示H
S

[0023]在一些实施方式中,所述将所述意图语义向量表示和所述槽位语义向量表示分别输入字级别意图标签注意力模块和槽位标签注意力模块,获得带有标签语义的意图向量表示和槽位向量表示的步骤,包括:
[0024]取出字级别意图解码器和槽位解码器参数作为意图嵌入矩阵W
I

dx|I|
和槽位嵌入矩阵W
S

dx|S|
,其中,d表示隐藏层维度,|I|和|S|分别表示意图标签和槽位标签类别数;
[0025]将所述意图语义向量表示H
I
和所述槽位语义向量表示H
S
分别与所述意图嵌入矩阵
W
I
和所述槽位嵌入矩阵W
S
进行矩阵相乘,经过Softmax函数处理后获得意图标签注意力分数A
I
和槽位标签注意力分数A
S

[0026]A
I
=Softmax(H
I
W
I
),A
S
=Softmax(H
S
W
S...

【技术保护点】

【技术特征摘要】
1.一种基于知识蒸馏的跨语言文本意图和槽位联合识别方法,其特征在于,包括:获取多个语言的意图识别和槽位填充联合任务数据集;选取所述联合任务数据集中的一个语言作为训练语料,对第一跨语言意图识别和槽位填充模型进行调整,得到教师模型;采用所述训练语料对第二跨语言意图识别和槽位填充模型进行调整,得到学生模型,并通过所述教师模型对标签知识和模型参数知识进行蒸馏,以得到跨语言意图识别和槽位填充联合蒸馏模型;基于所述跨语言意图识别和槽位填充联合蒸馏模型进行跨语言的文本意图和槽位联合识别。2.根据权利要求1所述的基于知识蒸馏的跨语言文本意图和槽位联合识别方法,其特征在于,所述选取所述联合任务数据集中的一个语言作为训练语料,对第一跨语言意图识别和槽位填充模型进行调整,得到教师模型的步骤,包括:选取所述训练语料中的问句文本输入所述教师模型,采用跨语言共享编码器对所述问句文本进行数据预处理,并进行语义向量化,得到字级别的意图语义向量表示和槽位语义向量表示;将所述意图语义向量表示和所述槽位语义向量表示分别输入字级别意图标签注意力模块和槽位标签注意力模块,获得带有标签语义的意图向量表示和槽位向量表示;将所述意图向量表示和所述槽位向量表示在协同交互注意力模块中进行双向交互,并更新所述意图向量表示和所述槽位向量表示,得到槽位感知意图向量表示和意图感知槽位向量表示;将所述槽位感知意图向量表示和所述意图感知槽位向量表示进行拼接,输入前馈神经网络层后,得到最终意图向量表示和最终槽位向量表示;通过字级别意图解码器和槽位解码器分别对所述最终意图向量表示和所述最终槽位向量表示进行解码,获得意图标签概率输出和槽位标签概率输出;通过所述意图标签概率输出和真实意图标签计算意图损失,通过所述槽位标签概率输出和真实槽位标签计算槽位损失,取所述意图损失和所述槽位损失加权和作为最终损失进行梯度回传,对第一跨语言意图识别和槽位填充模型的模型参数迭代更新,得到所述教师模型。3.根据权利要求2所述的基于知识蒸馏的跨语言文本意图和槽位联合识别方法,其特征在于,所述选取所述训练语料中的问句文本输入所述教师模型,采用跨语言共享编码器对所述问句文本进行数据预处理,并进行语义向量化,得到字级别的意图语义向量表示和槽位语义向量表示的步骤,包括:对所述问句文本进行分词,分词后的所述问句文本表示为:X={x1,x2,
···
,x
T
},其中X为分词后的所述问句文本,x
i
,i∈1
···
T表示分词后的单词,T表示单词数量;给每个所述单词分别分配意图标签,构成字级别真实意图标签序列O
I
={o1,o2,
···
,o
T
},在分词后的所述问句文本X的开头和结尾分别插入特殊字符[CLS]和[SEP],并根据所述问句文本最大长度在文本结尾插入特殊字符[PAD]进行扩充,将扩充后的分词后的所述问句文本X输入到跨语言共享编码器中进行语义向量化,获得所述意图语义向量
表示H
I
和槽位语义向量表示H
S
。4.根据权利要求3所述的基于知识蒸馏的跨语言文本意图和槽位联合识别方法,其特征在于,所述将所述意图语义向量表示和所述槽位语义向量表示分别输入字级别意图标签注意力模块和槽位标签注意力模块,获得带有标签语义的意图向量表示和槽位向量表示的步骤,包括:取出字级别意图解码器和槽位解码器参数作为意图嵌入矩阵W
I

dx|I|
和槽位嵌入矩阵W
S

dx|S|
,其中,d表示隐藏层维度,|I|和|S|分别表示意图标签和槽位标签类别数;将所述意图语义向量表示H
I
和所述槽位语义向量表示H
S
分别与所述意图嵌入矩阵W
I
和所述槽位嵌入矩阵W
S
进行矩阵相乘,经过Softmax函数处理后获得意图标签注意力分数A
I
和槽位标签注意力分数A
S
:A
I
=Softmax(H
I
W
I
),A
S
=Softmax(H
S
W
S
);将所述意图标签注意力分数A
I
和所述槽位标签注意力分数A
S
分别与所述意图嵌入矩阵W
I
和所述槽位嵌入矩阵W
S
进行矩阵相乘,得到意图标签语义向量表示H
LI
和槽位标签语义向量表示H
LS
:H
LI
=A
I
W
I
,H
LS
=A
S
W
S
利用得到的所述意图标签语义向量表示H
LI
和所述槽位标签语义向量表示H
LS
与原始语义向量表示进行残差连接,通过层标准化后得到所述意图向量表示H
I
和所述槽位向量表示H
S
:H
I
=LayerNorm(H
I
+H
LI
),H
S
=LayerNorm(H
S
+H
LS
)。5.根据权利要求4所述的基于知识蒸馏的跨语言文本意图和槽位联合识别方法,其特征在于,所述将所述意图向量表示和所述槽位向量表示在协同交互注意力模块中进行双向交互,并更新所述意图向量表示和所述槽位向量表示,得到槽位感知意图向量表示和意图感知槽位向量表示的步骤,包括:将所述意图向量表示H
I
和所述槽位向量表示H
S
分别输入不同的线性映射函数得到Q=(Q
I
,Q
S
)、K=(K
I
,K
S
)和V=(V
I
,V
S
)矩阵:Q
I
,K
I
,V
I
=Linear
qi
(H
I
),Linear
ki
(H
I
),Linear
vi
(H
I
)Q
S
,K
S
,V
S
=Linear
qs
(H
S
),Linear
ks
(H
S
),Linear
vs
(H
S
)其中,Linear
mn
(
·
),m∈{q,k,v},n∈{i,s}表示线性映射函数;将Q,K,V按多头注意力机制的数量转化成多头向量组,转化后表示为:Q={q1,q2,
···
,q
n
}K={k1,k2,
···
,k
n
}V={v1,v2,
···
,v
n
}其中,q
i
,k
i
,v
i
,i∈1
···
n表示拆分后的多头向量,n表示多头向量的个数;将Q,K,V按缩放点乘注意力公式进行计算,得到上下文相关的注意力向量表示C=(C
I
,C
S
):将C
I
和C
S
分别与H
I
和H
S
进行残差连接,经过层标准化后得到槽位感知意图向量表示H
I*
和意图感知槽位向量表示H
S*

...

【专利技术属性】
技术研发人员:古丽拉
申请(专利权)人:新疆大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1