一种用于少样本意图识别的对比任务适应学习方法技术

技术编号:30413080 阅读:21 留言:0更新日期:2021-10-20 11:50
本发明专利技术属于少样本意图识别领域,公开了一种用于少样本意图识别的对比任务适应学习方法,首先用一个对比学习策略来生成有较好分离度的不同类别样本的表示。其次使用一个自注意力层来从输入的上下文即当前元任务中N

【技术实现步骤摘要】
一种用于少样本意图识别的对比任务适应学习方法


[0001]本专利技术属于少样本意图识别领域,特别涉及一种用于少样本意图识别的对比任务适应学习方法。

技术介绍

[0002]当前预训练语言模型,例如BERT,XLNet和GPT

2有了长足发展,它们极大地提高了意图识别的准确率,被广泛应用于社会人工智能中。这些方法主要依赖于拥有大量标记数据的深度神经网络,以此来避免过拟合的问题,在只有少量标记数据的条件下,这些模型并不能很好地完成任务。因此在意图识别领域解决低资源的问题是当前进一步提高意图识别的准确率的瓶颈。
[0003]现存方法主要使用基于度量的元学习方法来解决少样本的意图识别问题。总体上讲,这些方法首先从一个基本类的集合中训练一个特征抽取器。之后,训练好的特征抽取器被应用在新类别的查询集上来识别少样本的新类别。这种与任务无关的元学习范式是建立在一个假设上:特征抽取器可以包含所有元任务上共有的知识。然而,这仅考虑共有知识忽略了每个元任务所具有的唯一性。在基本类上训练的特征抽取器不能很好地泛化到少样本的新类别上,导致了并不令人满意的意图识别结果。此外,当前元任务中类之间的交互,以捕获元任务的特征,以生成新的意图嵌入或分类原型。然而,我们认为新生成的意图嵌入和类别原型可能会影响每个类别的唯一性,因为当前类别的嵌入将会耦合其他类别的信息。每个类别唯一性的减弱可能在意图分类时引起混淆。
[0004]经过长期研究,我们提出了一个对比的任务适应学习模型(CTA),它不仅能够发掘出特定任务中包含的知识,也能兼顾类别嵌入的唯一性。整体方案为,利用了元任务自身的信息加入到初始的嵌入中来解决元任务的唯一性问题,自身信息是基于当前元任务所包含类别之间的关系来构建的。使用了一个自注意力模块来对一个元任务中包含的嵌入进行建模,将它们视为一个包来建立不同类别之间的交互关系,而不是对样本加权来强调其最具有可分性的特征。之后,引入了一个基于对比的损失函数来帮助特征抽取器输出具有在不同类别之间有大边界的嵌入,以解决类别唯一性的问题。把标签名称的语义加入到每个类别变换之后的嵌入中,作为一个锚点特征来产生新的意图嵌入。取得了良好的效果。

技术实现思路

[0005]本专利技术旨在提供一种用于少样本意图识别的对比任务适应学习方法,克服现有技术特征抽取器不能很好地泛化到少样本的新类别上、新生成的意图嵌入和类别原型可能会影响每个类别的唯一性等的问题。
[0006]为解决上述问题,提供一种用于少样本意图识别的对比任务适应学习方法,包含如下步骤:S1:获取一个有个语句

标签对的意图识别数据集D;S2:从意图识别数据集D抽取元任务集合;
S3:从集合中的第j个元任务中的句子获取低维向量;S4:计算特征抽取器的对比损失;S5:从支撑集中获取原型嵌入集合;S6:根据所述的原型嵌入集合,计算标签
ꢀꢀ
的语义混合原型 ;S7:计算标签预测结果;S8:计算总损失;S9:计算梯度;S10:用梯度更新特征抽取器 、特定任务的函数T;转入S2,直至对集合D中的每一组进行了训练;S11:训练完成,返回最优分类器; 最优特征抽取器。
[0007]优选地,步骤S1中的所述意图识别数据集记为:其中表示一条语句,表示它的意图标签集合中的一个,即;和/或步骤S2所述的抽取元任务集合实现如下:将所述的数据集D划分为用于训练的基本类和用于测试的新类,基本类形成的训练集合与新类形成的测试类集合之间不存在交集;由此分别构建:,用于训练;,用于测试;其中,为一个元任务,由一个支撑集和一个查询集两部分组成,表示为其中,为支撑集,是一个有个语句

标签对的集合;为查询集,是一个有个语句

标签对的集合;标签是需要被预测的;含有个类别的意图标签,每个标签含有个意图样本,。
[0008]优选地,所述的步骤S3实现如下:采用BERT模型用作一个特征抽取器,从中的句子进行编码为一个连续的低维向量;为集合中的第j个元任务;和/或所述的步骤S4实现如下:记为类别的中心,则(3)其中,表示类别中的语句,由此同类别中的样本能够有到中心的最短距离;
记是衡量两个样本之间相似度的评分函数,则(5)其中表示和在同类别中的样本,表示和不同类别的样本;损失函数可构建为:(8)其中是常数;和/或所述的步骤S5实现如下:引入一个特定任务的函数T,抽取每一个元任务的独有信息:其中是一个由公式(3)确定的支撑集中的原型集合;原型集合中的交互能够反映这个元任务的本质;优选地,所述的步骤S6实现如下:将变换后的原型记作类别中样本嵌入的中心:(13)标签名称可作为先验知识,因为它本身就包含着类别的特有信息,因此直接将标签名称的嵌入作为每个类别的指引信息,通过标签名称和变换之后的样本嵌入来表示每个类别;对于标签,我们通过一个平衡系数来调节标签名称和变换后嵌入的重要程度,以计算它的语义混合原型 :(14)其中是BERT模型的编码器,标签名称的嵌入是作为原型表示向量的一个修正量存在的和/或所述的步骤S7实现如下:记(15)其中:为查询集中的语句是基于混合语义原型来预测标签的分类器,是预测结果;和/或所述步骤S8实现如下:为保证适应后的样本嵌入和同类别的相似而与不同类别的不相似,引入另一个损失函数:(16)其中是任务适应之后的的嵌入,是对应的真实标签的语义混合原型;
是损失函数;(17)其中是一个平衡系数;转入S3,直至对集合每一个元任务进行了训练;和/或所述的步骤S11实现如下:实现如下:(2)其中,表示一个训练元任务中查询集所包含的一个语句

标签对;表示分类器利用从当前训练元任务支撑集中学到的知识来预测出的结果;是计算预测出的概率分布和真实分布之间差距的损失函数。
[0009]优选地,步骤S5还包括:为避免原型之间顺序的影响,使用了多头自注意力模型来对每个元任务独有的信息建模:多头自注意力层的核心是形式为(查询,键,值)的一组三元组,为获取每个初始原型在线性映射之后原型中所具有的权重,将三元组输入到一个线性映射层中来获取对应的表示,可用下式表示:(10)其中,和是线性映射矩阵,[:]表示一个矩阵;最后按自注意力算法来获取原型最终变换之后的原型嵌入:其中权重度量了键与值的接近程度,也反映了原型与其他原型之间的交互,按下式计算:(12)其中表示的第列,表示嵌入的维度;根据自注意力初始化的惯例,设置,来自支撑集。
[0010]优选地,步骤S1所述的意图识别数据集为OOS数据集。
[0011]优选地,所述的意图识别数据集为OOS标记好类别的数据,不含有噪声标签“out of scope”的数据。
[0012]优选地,所述的意图识别数据集,使用数据集2/3的样本作为训练集,以获取公共的知识,其余1/3的样本被平均划分为验证集和测试集。
[0013]与现有技术相比,本专利技术提供的技术方案有益效果在于:本专利技术提出使用对比任务适应学习模型来利用一个元任务中的不同类别,以解决少样本意图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于少样本意图识别的对比任务适应学习方法,其特征在于,包括如下步骤:S1:获取一个有个语句

标签对的意图识别数据集D;S2:从意图识别数据集D抽取元任务集合;S3:从集合中的第j个元任务中的句子获取低维向量;S4:计算特征抽取器的对比损失;S5:从支撑集中获取原型嵌入集合;S6:根据所述的原型嵌入集合,计算标签的语义混合原型;S7:计算标签预测结果;S8:计算总损失;S9:计算梯度;S10:用梯度更新特征抽取器、特定任务的函数T;转入S2,直至对集合D中的每一组进行了训练;S11:训练完成,返回最优分类器; 最优特征抽取器。2.根据权利要求1所述的用于少样本意图识别的对比任务适应学习方法,其特征在于,步骤S1中的所述意图识别数据集记为:其中表示一条语句,表示它的意图标签集合中的一个,即;和/或步骤S2所述的抽取元任务集合实现如下:将所述的数据集D划分为用于训练的基本类和用于测试的新类,基本类形成的训练集合与新类形成的测试类集合之间不存在交集;由此分别构建:,用于训练;,用于测试;其中,为一个元任务,由一个支撑集和一个查询集两部分组成,表示为其中,为支撑集,是一个有个语句

标签对的集合;为查询集,是一个有个语句

标签对的集合;标签是需要被预测的;含有个类别的意图标签,每个标签含有个意图样本,。3.根据权利要求2所述的用于少样本意图识别的对比任务适应学习方法,其特征在于,所述的步骤S3实现如下:采用BERT模型用作一个特征抽取器,从中的句子进行编码为一个连续的低
维向量;为集合中的第j个元任务;和/或所述的步骤S4实现如下:记为类别的中心,则(3)其中, 表示类别中的语句,由此同类别中的样本能够有到中心的最短距离;记是衡量两个样本之间相似度的评分函数,则 (5)其中表示和在同类别中的样本,表示和不同类别的样本;损失函数可构建为: (8)其中是常数;和/或所述的步骤S5实现如下:引入一个特定任务的函数T,抽取每一个元任务的独有信息:其中是一个由公式(3)确定的支撑集中的原型集合;原型集合中的交互能够反映这个元任务的本质。4.根据权利要求3所述的用于少样本意图识别的对比任务适应学习方法,其特征在于,所述的步骤S6实现如下:将变换后的原型记作类别中样本嵌入的中心: (13)标签名称可作为先验知识,因为它本身就包含着类别的特有信息,因此...

【专利技术属性】
技术研发人员:蔡飞张维明张鑫宋城宇王祎童王思远刘登峰陈洪辉
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1