基于置信度引导的文本分类方法、装置和计算机设备制造方法及图纸

技术编号:35492062 阅读:21 留言:0更新日期:2022-11-05 16:48
本申请涉及一种基于置信度引导的文本分类方法、装置和计算机设备,包括:首先将待分类的目标文本输入预训练的文本分类模型,分别得到目标文本被分到各个文本类别的置信度,其中置信度是根据目标文本对应的softmax函数值取对数得到的,接着根据置信度以及文本类别数量和输入的目标文本的批量大小的乘积构建损失函数,通过优化损失函数更新文本分类模型,最后采用更新后的文本分类模型进行目标文本的分类。采用本发明专利技术可以大大提高文本分类的鲁棒性。性。性。

【技术实现步骤摘要】
基于置信度引导的文本分类方法、装置和计算机设备


[0001]本申请涉及自然语言处理
,特别是涉及一种基于置信度引导的文本分类方法、装置和计算机设备。

技术介绍

[0002]深度学习模型在文本处理领域显示出良好的效果,然而,由于分布偏移,即训练文本分布与测试文本分布不同,将深度学习模型部署到实际文本分类应用中仍然很困难,这种问题是文本处理领域的一项基本任务。为了解决这个问题,人们在不同的设置下提出了许多子领域,比如,微调、域适配和测试时间适配。
[0003]最近,研究人员提出完全测试时间适配,即通过在测试时间从无标签的测试文本中学习来适应源预训练的模型。测试时间适配也被称为无源域适配。不同于域适配需要访问源域和目标域,无源域适配不需要从源域获得任何文本数据进行适应。一些现有的工作在没有源文本的情况下利用生成模型来支持特征对齐。另一个流行的方向是微调源预训练模型而不明确地进行域对齐,例如:测试熵最小化(TENT)采用预先训练好的模型并通过使用熵最小化更新Batchnorm层的可训练参数来适应测试数据;源假设转移(SHOT)同时利用熵最小化和多样性正则器进行适应,SHOT需要使用源文本来训练一个专门的源模型,使用标签平滑技术与权重规范化层;TTT需要对源文本进行再训练,以促进目标文本自适应的监督,并有一个额外的辅助旋转预测分支,使得它不可能重新使用现有的预训练模型。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种基于置信度引导的文本分类方法、装置和计算机设备,以提高文本分类的鲁棒性。
[0005]一种基于置信度引导的文本分类方法,所述方法包括:
[0006]将待分类的目标文本输入预训练的文本分类模型,分别得到所述目标文本被分到各个文本类别的置信度;所述置信度是根据所述目标文本对应的softmax函数值取对数得到的;
[0007]根据所述置信度以及文本类别数量和输入的目标文本的批量大小的乘积构建损失函数,通过优化所述损失函数更新所述文本分类模型;
[0008]采用更新后的所述文本分类模型进行所述目标文本的分类。
[0009]优选地,根据所述置信度与文本类别数量和输入的目标文本的批量大小的乘积构建损失函数,包括:
[0010]根据所述置信度与文本类别数量和输入的目标文本的批量大小的乘积构建第一损失函数为:
[0011][0012]其中,L
conf
(f
θ
(x
t
),y
t
)为第一损失函数,θ,t为文本分类模型参数,N为目标文本的批量大小,C为分类的文本类别数量,z
i
为第i个文本类别对应的输出值。
[0013]优选地,在根据所述置信度与文本类别数量和输入的目标文本的批量大小的乘积构建损失函数之前,还包括:
[0014]分别计算各个所述目标文本对应的第一大置信度和第二大置信度的差值;
[0015]当所述差值小于预设阈值,为对应的所述目标文本赋予第一注意力系数;
[0016]当所述差值不小于预设阈值,为对应的所述目标文本赋予第二注意力系数。
[0017]优选地,根据所述置信度与文本类别数量和输入的目标文本的批量大小的乘积构建损失函数,包括:
[0018]根据所述第一注意力系数、所述第二注意力系数以及所述第一损失函数构建第二损失函数:
[0019][0020]其中,L
cgtta
(f
θ
(x
t
),y
t
)为第二损失函数,α为第二注意力系数,β为第一注意力系数。
[0021]优选地,计算各个所述目标文本对应的第一大置信度和第二大置信度的差值,包括:
[0022]diff(f
θ
(x
t
))=conf(cos
θ
(x
t
))
1st

conf(f
θ
(x
t
))
2nd
[0023]其中,diff(f
θ
(x
t
)为置信度差值,conf(f
θ
(x
t
)为置信度,conf(f
θ
(x
t
)
1st
为第一大置信度,conf(f
θ
(x
t
)
2nd
为第二大置信度。
[0024]优选地,当所述差值小于预设阈值,为对应的所述目标文本赋予第一注意力系数,当所述差值不小于预设阈值,为对应的所述目标文本赋予第二注意力系数为:
[0025][0026]其中,y

t
为赋予注意力系数后文本分类模型的输出,为赋予注意力系数前,差值不小于预设阈值时文本分类模型的输出,为赋予注意力系数前,差值小于预设阈值时文本分类模型的输出,g
th
为预设阈值。
[0027]一种基于置信度引导的文本分类装置,所述装置包括:
[0028]置信度计算模块,用于将待分类的目标文本输入预训练的文本分类模型,分别得到所述目标文本被分到各个文本类别的置信度;所述置信度是通过所述目标文本对应的softmax值取对数得到的;
[0029]模型更新模块,用于根据所述置信度与文本类别数量和输入的目标文本的批量大小的乘积构建损失函数,通过优化所述损失函数更新所述文本分类模型;
[0030]文本分类模块,用于采用更新后的所述文本分类模型进行所述目标文本的分类。
[0031]一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现以下步骤:
[0032]将待分类的目标文本输入预训练的文本分类模型,分别得到所述目标文本被分到各个文本类别的置信度;所述置信度是根据所述目标文本对应的softmax函数值取对数得到的;
[0033]根据所述置信度以及文本类别数量和输入的目标文本的批量大小的乘积构建损失函数,通过优化所述损失函数更新所述文本分类模型;
[0034]采用更新后的所述文本分类模型进行所述目标文本的分类。
[0035]上述基于置信度引导的文本分类方法、装置和计算机设备,首先将待分类的目标文本输入预训练的文本分类模型,分别得到目标文本被分到各个文本类别的置信度,其中置信度是根据目标文本对应的softmax函数值取对数得到的,接着根据置信度以及文本类别数量和输入的目标文本的批量大小的乘积构建损失函数,通过优化损失函数更新文本分类模型,最后采用更新后的文本分类模型进行目标文本的分类。本专利技术以在线的方式使现成的源预训练文本分类模型适应目标文本,结合输入的文本的批量大小和文本类别数量,利用目标文本的置信度信息来指导损失函数的梯度优化,在确保文本分类准确性的前提下大大提高了文本分类的速度。采用本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于置信度引导的文本分类方法,其特征在于,所述方法包括:将待分类的目标文本输入预训练的文本分类模型,分别得到所述目标文本被分到各个文本类别的置信度;所述置信度是根据所述目标文本对应的softmax函数值取对数得到的;根据所述置信度以及文本类别数量和输入的目标文本的批量大小的乘积构建损失函数,通过优化所述损失函数更新所述文本分类模型;采用更新后的所述文本分类模型进行所述目标文本的分类。2.根据权利要求1所述的方法,其特征在于,根据所述置信度与文本类别数量和输入的目标文本的批量大小的乘积构建损失函数,包括:根据所述置信度与文本类别数量和输入的目标文本的批量大小的乘积构建第一损失函数:其中,L
conf
(f
θ
(x
t
),y
t
))为第一损失函数,θ,t为文本分类模型参数,N为目标文本的批量大小,C为分类的文本类别数量,z
i
为第i个文本类别对应的输出值。3.根据权利要求2所述的方法,其特征在于,在根据所述置信度与文本类别数量和输入的目标文本的批量大小的乘积构建损失函数之前,还包括:分别计算各个所述目标文本对应的第一大置信度和第二大置信度的差值;当所述差值小于预设阈值,为对应的所述目标文本赋予第一注意力系数;当所述差值不小于预设阈值,为对应的所述目标文本赋予第二注意力系数。4.根据权利要求3所述的方法,其特征在于,根据所述置信度与文本类别数量和输入的目标文本的批量大小的乘积构建损失函数,包括:根据所述第一注意力系数、所述第二注意力系数以及所述第一损失函数构建第二损失函数:其中,L
cgtta
(f
θ
(x
t
),y
t
)为第二损失函数,α为第二注意力系数,β为第一注意力系数。5.根据权利要求3所述的方法,其特征在于,计算各个所述目标文本对应的第一大置信度和第二大置信度的差值,包括:计算各个所述目标文本对应的第一大置信度和第二大置信度的差值为:diff(f
θ
(x
t
)...

【专利技术属性】
技术研发人员:周鋆杨昊朱先强朱承张维明
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1