一种提高深度文本匹配模型适应性的小样本学习方法技术

技术编号:33200864 阅读:13 留言:0更新日期:2022-04-24 00:37
本发明专利技术涉及一种提高深度文本匹配模型适应性的小样本学习方法,属于自然语言处理中的文本匹配技术领域。本方法综合了应用于文本匹配模型的小样本学习与跨领域适应性方法,沿最小化目标域小样本数据集损失的方向,对源域数据的权重进行梯度下降,解决了传统的跨领域文本匹配方法在小样本学习设置下表现不足的问题,增强了文本匹配模型在少样本学习环境中的适应性。本方法与基础模型无关,可应用于各种基于深度学习的文本匹配模型。基于深度学习的文本匹配模型。基于深度学习的文本匹配模型。

【技术实现步骤摘要】
一种提高深度文本匹配模型适应性的小样本学习方法


[0001]本专利技术涉及一种小样本学习方法,具体涉及一种提高深度文本匹配模型适应性的小样本学习方法,属于自然语言处理中的文本匹配


技术介绍

[0002]文本匹配,旨在识别两个文本片段之间的关系,一直以来都是自然语言处理和信息检索中的一个关键研究问题。许多具体的任务都可被视为特定形式的文本匹配,例如问答系统、自然语言推理以及同义识别等。
[0003]随着深度学习的快速发展,近年来,许多神经网络模型被应用于文本匹配领域。由于其强大的学习文本表示的能力与建模文本对之间交互的能力,深度文本匹配方法在各项基准任务上都取得了令人印象深刻的表现。然而,一些工作表明,基于深度学习的方法通常需要大量标签数据进行训练,即,对有标签数据的规模有很强的依赖性。当可用的标签数据有限时,往往会导致模型的性能不佳,阻碍了深度文本匹配模型的泛化性和适应性。因此,如何有效地解决该问题,是进一步提升深度学习实际应用能力的关键。
[0004]对于小样本学习文本匹配的场景,目前,经典的解决方案是投入大量资源,以获取或标注相关的训练数据,从而使可用的有标签数据规模足以达到常规深度学习模型训练的需要。例如,产品搜索系统的语义匹配功能需要处理一些生活常识文本与产品信息文本之间的匹配,如果这方面的有标签数据不是很充足的话,产品方就要耗费大量的人力与时间成本进行数据的收集与标记。相比来讲,另外一种被认为更加有效的方案是,借助其它相似的数据集进行模型训练,同时提高模型在不同领域数据上的适应性,从而解决当前数据集上的小样本学习问题。因此,小样本学习问题,可以结合模型的适应性方法来进行解决。
[0005]与训练数据的领域不同的数据,被称为域外数据。在实际应用中,经常会有深度文本匹配模型预测域外数据的情况,此时模型的性能会有所降低,所以,需要模型适应性的方法来减轻模型在域外数据上的性能损失。目前,现有的模型适应性技术,大都基于“目标领域与源领域在数据规模上是相当的”的前提。然而,这种前提条件在许多情况下是不切实际的,因为在实际应用中,很难为所有域外数据都收集一个相应的大规模有标签数据集。因此,如何解决深度文本匹配模型的小样本学习与模型适应性问题,显得至关重要。

技术实现思路

[0006]本专利技术针对现有技术存在的缺陷,面向如何提高小样本学习深度文本匹配模型的跨领域适应性这一问题,创新性地提出一种提高深度文本匹配模型适应性的小样本学习方法。
[0007]本方法的创新点在于:综合了应用于文本匹配模型的小样本学习与跨领域适应性方法,沿最小化目标域小样本数据集损失的方向,对源域数据的权重进行梯度下降。
[0008]本专利技术采用以下技术方案实现。
[0009]一种提高深度文本匹配模型适应性的小样本学习方法,包括以下步骤:
[0010]步骤1:建立样本权重与模型参数的计算图关系。
[0011]具体地,步骤1包括以下步骤:
[0012]步骤1.1:在一批次源域训练集数据上前向传播文本匹配模型,并计算相应的损失值:
[0013]Cost
s
(y
i
,l
i
)=CE
s
(y
i
,l
i
)
ꢀꢀꢀ
(1)
[0014]其中,Cost
s
表示模型在源域上的损失值;CE
s
代表交叉熵损失函数;l
i
表示第i个样本的标签值;y
i
是模型对第i个样本的预测值:
[0015]y
i
=TMM
s
(a
i
,b
i
,θ)
ꢀꢀꢀ
(2)
[0016]其中,TMM
s
表示在源域的任务或数据集上训练的文本匹配模型;a
i
、b
i
分别表示输入到模型进行文本匹配的两条句子;θ表示深度文本匹配模型的参数。
[0017]步骤1.2:为损失值对应的每个样本,赋予一个初始化权重。考虑到源域和目标域之间的数据分布差异较大,本专利技术将样本权重初始值设为0。然后,计算源域数据上的加权损失值之和,作为源域损失值:
[0018][0019]其中,Loss
s
表示源域损失值,y表示模型对源域样本的预测值,l表示源域样本的标签值;为源域中第i个样本的权重值,其初始化为0,i∈{1,2,

,N}。
[0020]步骤1.3:为将样本权重与源域损失值之间的计算图连接,用源域损失值Loss
s
对模型参数θ进行梯度下降更新:
[0021][0022]其中,表示在源域样本上更新一步后的模型参数;α表示学习率;表示源域损失值对模型参数的偏导数;w
s
表示源域样本的权重。为偏导数的运算符。
[0023]从而使样本权重与模型参数之间建立起计算图关系。至此,在不改变模型参数值的情况下,建立了计算图连接。
[0024]步骤2:通过元梯度下降调节样本的权重。
[0025]具体地,步骤2包括以下步骤:
[0026]步骤2.1:为了比较源域分布与目标域分布上模型梯度下降方向的异同,在目标小样本集上训练当前模型,并计算训练损失:
[0027][0028]其中,Loss
t
表示目标域损失值;TMM
t
表示在目标域上训练时的深度文本匹配模型;M表示目标域样本的数目。
[0029]目标域样本的权重设置为常数1。这是因为与源域样本相比,目标域样本数据之间的分布没有差异。
[0030]步骤2.2:由于Loss
t
(y,l)形式化为当根据目标域损失值Loss
t
(y,l)计算对于源域样本权重w
s
的二阶导数时,梯度自然能够流过因此,梯度携带的比较信
息在源域样本的权重梯度上累积。源域样本的权重调节过程如下:
[0031][0032]其中,表示更新后的源域样本权重,α表示学习率,表示模型在目标域小样本集上损失值对源域样本权重的二阶偏导数。
[0033]步骤2.3:受模型无关元学习算法的启发,采用二阶导数来比较梯度下降的方向,并根据比较结果更新权重。
[0034]元权重调节首先消除调整后的权重的负值,然后对它们进行批量归一化,以使性能更加稳定:
[0035][0036][0037]其中,表示当前要进行归一化处理的源域样本权重,表示批次数据内其它源域样本的权重,m是目标域训练集的数据批次大小,k表示源域批次数据中第k个样本的序号。
[0038]步骤3:在加权源域样本上,训练文本匹配模型。
[0039]具体地,通过元权重调节将计算得到的样本权重分配给源域样本,以便在源域样本上训练文本匹配模型后获得加权损失:
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种提高深度文本匹配模型适应性的小样本学习方法,其特征在于,包括以下步骤:步骤1:建立样本权重与模型参数的计算图关系,包括以下步骤:步骤1.1:在一批次源域训练集数据上前向传播文本匹配模型,并计算相应的损失值:Cost
s
(y
i
,l
i
)=CE
s
(y
i
,l
i
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中,Cost
s
表示模型在源域上的损失值;CE
s
代表交叉熵损失函数;l
i
表示第i个样本的标签值;y
i
是模型对第i个样本的预测值:y
i
=TMM
s
(a
i
,b
i
,θ)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)其中,TMM
s
表示在源域的任务或数据集上训练的文本匹配模型;a
i
、b
i
分别表示输入到模型进行文本匹配的两条句子;θ表示深度文本匹配模型的参数;步骤1.2:为损失值对应的每个样本,赋予一个初始化权重,将样本权重初始值设为0;然后,计算源域数据上的加权损失值之和,作为源域损失值:其中,Loss
s
表示源域损失值,y表示模型对源域样本的预测值,l表示源域样本的标签值;为源域中第i个样本的权重值,其初始化为0,i∈{1,2,

【专利技术属性】
技术研发人员:宋大为张博张辰马放
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1