基于平衡校准提示和自训练的零样本短文本分类方法技术

技术编号：43653829 阅读：19 留言：0更新日期：2024-12-13 12:47

本发明专利技术公开了一种基于平衡校准提示和自训练的零样本短文本分类方法，包括：1 使用提示模板封装短文本数据集；2 构建基于预训练模型的提示分类模型；3 对提示分类模型的标签预测偏向进行校准，并对数据集进行初步预测；4 根据模型对预测的自信程度划分高自信度数据和低置信度数据；5 使用高自信度数据训练多个教师模型指导低自信度数据训练学生模型；6 使用学生模型完成最终的短文本分类任务。本发明专利技术能在短文本数据标签完全缺失的场景下，提高短文本分类性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于实际应用中零样本短文本分类领域，具体的说是一种基于平衡校准提示和自训练的零样本短文本分类方法。

技术介绍

1、在互联网和社交媒体快速扩张的时代，短文本数据的生成呈指数级增长。这种现象强调了对有效的短文本分类技术的日益紧迫性，包括情感分析等应用和意图分类。然而，短文本固有的简洁性(通常只包含几十个单词)会导致语义信息的明显缺失，即数据稀疏性问题。同时，短文本标签在实际应用中存在难以获取的问题，即标签缺失问题。

2、考虑到数据稀疏问题，短文本分类方法通过引入补充的外部知识来丰富短文本。由于预训练语言模型可以在预训练过程中将大量的外部知识融入到短文本的特征表示中，从而进一步扩展短文本的特征空间。预训练语言模型在短文本分类方面表现优异。

3、考虑到标签缺失问题，现有的监督方法受到大量标记文本需求的限制。然后是半监督短文本分类对标注短文本的要求明显减少，近年来引起了越来越多的关注。半监督方法的成功源于对大量未标记短文本的利用，增强了模型的泛化能力。虽然减轻了标注负担，但半监督方法仍然需要领域专家的手工工作。因此，在完全未标记的零样本场景中实现短文本分类是一个重大挑战。

4、幸运的是，由于预训练语言模型是在大规模未标记数据上进行预训练的，它们不再需要大量手动标记文档来进行文本分类任务。因此，越来越多的研究转向将预训练语言模型应用于零样本场景。但当其被应用于下游任务时，预训练语言模型的下游任务通常与上游任务不匹配。虽然提示学习能在一定程度上缓解预训练语言模型上下游任务之间差距，现有的提示学习的

技术实现思路

1、本专利技术是为避免上述现有技术所存在的不足，提供一种基于平衡校准提示和自训练的零样本短文本分类方法，以期能对完全无标记的数据进行初步分类，并能高效利用这些无标记数据，使分类模型能更好地适应下游任务，从而能提高短文本分类的准确度。

2、本专利技术为达到上述专利技术目的，采用如下技术方案：

3、本专利技术一种基于平衡校准提示和自训练的零样本短文本分类方法的特点在于，是按照如下步骤进行：

4、步骤 1：使用提示模板封装短文本数据集：

5、步骤1.1：给定无标记短文本数据集和标签集，其中，和分别表示中的第个短文本和中的第个标签，和分别表示所述无标记短文本数据集中的短文本个数和标签集中的标签个数；

6、步骤1.2：构建由若干词和一个标记共同组成的一段自然文本并作为自定义的模板，利用模板对所述无标记短文本数据集中的每个短文本分别封装后，得到封装短文本数据集，其中，表示中的第个封装短文本；

7、步骤1.3：对随机采样后，获得封装支持短文本数据集，其中，表示第个封装支持短文本，表示封装支持短文本的数量；

8、步骤2：构建基于预训练模型的提示分类模型，包括：预训练掩码语言模型、标签映射器；

9、步骤 2.1：所述预训练掩码语言模型对进行处理，得到第个单词预测嵌入编码；

10、步骤 2.2：所述标签映射器对进行处理，得到的标签为的预测概率，从而由q个封装支持短文本下每个标签的预测概率构成一个维度为的概率矩阵；

11、步骤 3：利用提示分类模型对进行初步预测后，再使用概率矩阵对初步预测后的结果进行校准，以获得校准后的预测概率，从而将校准后的最大预测概率所对应的标签作为的伪标签；

12、步骤 4：构建高置信度封装短文本数据集和低置信度封装短文本数据集；

13、步骤 5：构建m个教师模型并使用高置信度封装短文本数据集进行训练，得到训练后的m个教师模型，其中，表示第个教师模型，表示训练后的第个教师模型；

14、步骤 6：基于低置信度封装短文本数据集，使用指导学生模型训练，从而得到训练后的学生模型；

15、步骤 7：将第个封装短文本输入训练后的学生模型中进行处理，最终获得的预测标签。

16、本专利技术所述的一种基于平衡校准提示和自训练的零样本短文本分类方法的特点也在于，所述步骤2.1中的预训练掩码语言模型包括：大小为的词表、词嵌入编码器、多个trasnformer编码器、由多个线性层组成的模型头，所述模型头的最后一个线性层的输出的维度为词表的大小；

17、步骤 2.1.1：经过词嵌入编码器的处理后，得到第个维度为的词嵌入编码，其中，表示短文本的最大长度，表示词嵌入编码器的输出维度；

18、步骤 2.1.2：依次经过多个trasnformer编码器的处理后，获得第个维度为的transformer嵌入编码；

19、步骤 2.1.3：输入模型头中进行处理，输出第个维度为的单词嵌入编码编码。

20、进一步的，所述步骤2.2包括：

21、步骤2.2.1：从中取出标记所在位置上的一个维度为的线性嵌入；

22、步骤2.2.2：取出标签集中每个标签在词表中对应的序号，其中，表示在词表中的序号；

23、步骤2.2.3：根据，从线性嵌入中取出每个标签的逻辑值，并经过运算后，得到第个封装支持短文本下每个标签的预测概率，从而得到q个封装支持短文本下每个标签的预测概率，并构成一个维度为的概率矩阵；其中，表示第个标签在中的逻辑值，表示的标签为的预测概率。

24、进一步的，所述步骤3包括：

25、步骤3.1：取出中的第j个列向量，并对中的个概率值进行逆序排序后，得到排序后的第j个列向量；其中，表示矩阵中第s行第j列所存储的概率；

26、步骤3.2：利用式(1)计算提示分类模型对的预测偏向值：

27、 (1)

28、式(1)中，表示中第s行所存储的概率，表示单一类别的样本数量，且；

29、步骤3.3：输入提示分类模型中，并按照步骤2.1-步骤2.2的过程，得到每个标签的预测概率；其中，表示的标签为的预测概率；

30、步骤3.4：利用式(2)得到校准后的预测概率：

31、 (2)

32、式(2)中，表示的标签为的校准后的预测概率；

33、步骤3.5：将校准后的最大预测概率所对应的标签作为的伪标签。

34、进一步的，所述步骤4包括：

35、步骤4.1：计算提示分类模型对的置信度，其中，为中最大的分类概率，为中第二大的分类概率；

36、步骤 4.2：如果大于阈值，则将加入到高置信度封装短文本数据集，否则，加入到低置信度封装短文本数据集。

37、进一步的，所述步骤5包括：

38、步骤5.1：将提示分类模型作为第个教师模型；

39、步骤5.2：从中随机采样个高置信度封装短文本并构成高置信度封装短文本采样集；

40、步骤5.3：将中的第个高置信度封装短文本输入中，并按照步骤2-步骤3的过程进行处理，得到的标签为的校准后的预测概率及其伪标签；

41、本文档来自技高网...

【技术保护点】

1.一种基于平衡校准提示和自训练的零样本短文本分类方法，其特征在于，是按照如下步骤进行：

2.根据权利要求1所述的一种基于平衡校准提示和自训练的零样本短文本分类方法，其特征在于，所述步骤2.1中的预训练掩码语言模型包括：大小为的词表、词嵌入编码器、多个Trasnformer编码器、由多个线性层组成的模型头，所述模型头的最后一个线性层的输出的维度为词表的大小；

3.根据权利要求2所述的一种基于平衡校准提示和自训练的零样本短文本分类方法，其特征在于，所述步骤2.2包括：

4.根据权利要求3所述的一种基于平衡校准提示和自训练的零样本短文本分类方法，其特征在于，所述步骤3包括：

5.根据权利要求4所述的一种基于平衡校准提示和自训练的零样本短文本分类方法，其特征在于，所述步骤4包括：

6.根据权利要求5所述的一种基于平衡校准提示和自训练的零样本短文本分类方法，其特征在于，所述步骤5包括：

7.根据权利要求6所述的一种基于平衡校准提示和自训练的零样本短文本分类方法，其特征在于，所述步骤6包括：

8.一种电子设

9.一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行权利要求1-7中任一所述零样本短文本分类方法的步骤。

...

【技术特征摘要】

1.一种基于平衡校准提示和自训练的零样本短文本分类方法，其特征在于，是按照如下步骤进行：

2.根据权利要求1所述的一种基于平衡校准提示和自训练的零样本短文本分类方法，其特征在于，所述步骤2.1中的预训练掩码语言模型包括：大小为的词表、词嵌入编码器、多个trasnformer编码器、由多个线性层组成的模型头，所述模型头的最后一个线性层的输出的维度为词表的大小；

3.根据权利要求2所述的一种基于平衡校准提示和自训练的零样本短文本分类方法，其特征在于，所述步骤2.2包括：

4.根据权利要求3所述的一种基于平衡校准提示和自训练的零样本短文本分类方法，其特征在于，所述步骤3包括：

5.根据权利要求4所述的一种基于平衡校准提示和...

【专利技术属性】
技术研发人员：李培培，闫文书，胡学钢，
申请(专利权)人：合肥工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人