基于统计学和预训练语言模型的多标签文本分类方法技术

技术编号：27030638 阅读：23 留言：0更新日期：2021-01-12 11:13

本发明专利技术公开了一种基于统计学和预训练语言模型的多标签文本分类方法，包括以下步骤：S1、对需要分类的训练语料进行预处理；S2、建立基于统计学方法和语言模型的标签获取模型；S3、对获取的标签数据进行处理；S4、建立基于预训练语言模型的多标签分类模型，利用得到的标签数据进行模型训练；S5、使用训练好的多标签文本分类模型，对待分类的文本数据进行多标签分类。本发明专利技术提出一种结合了统计学方法与预训练语言模型标签获取方法，使用ALBERT语言模型来获取文本的语义编码信息，不需要人工标注数据集，能够提高获取标签的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
基于统计学和预训练语言模型的多标签文本分类方法
本专利技术涉及一种基于统计学和预训练语言模型的多标签文本分类方法。
技术介绍
2013年以来，基于神经网络的深度学习理论取得了重大进步，已经广泛运用到图像和自然语言处理领域，衍生了许多研究与应用方向。文本分类是自然语言处理中最重要的任务之一,在现实生活中有很多应用,例如舆情监测,标签推荐,信息查找等。传统的单标签文本分类算法难以解决现实生活场景中文本的多样性问题，多标签文本分类已经成为自然语言处理文本分类任务中热门研究方向。当前的多标签文本分类方法主要分为两类：第一类是基于传统机器学习的多标签文本分类方法，例如：Binaryrelevance，Classifierchains，ML-DT，Rank-SVM和ML-KNN等，是通过提取依赖于语料库实现标签的特征提取，这类方法需要通过人工设计的特征来训练分类器，模型的质量取决于特征设计的质量。而且这类方法并没有考虑单词的语义信息及上下文信息，还会造成数据维度灾难，准确性也不高。第二类是基于深度学习的多标签文本分类方法，这类方法将深度学习，例如全连接神经网络、卷积神经网络(CNN)、循环神经网络(RNN)、长短时记忆网络(LSTM)、注意力机制(Attention)等应用到多标签文本分类中。使用神经网络处理文本分类弥补了传统机器学习方法的很多缺陷，比如：不需要通过人工设计特征等，但是这些方法仍未能充分的提取语义信息，且比较依赖于训练数据集的标签准确度。上述分类方法存在以下技术缺点：(1)...

【技术保护点】
1.基于统计学和预训练语言模型的多标签文本分类方法，其特征在于，包括以下步骤：/nS1、对需要分类的训练语料进行预处理；/nS2、建立基于统计学方法和语言模型的标签获取模型；/nS3、对获取的标签数据进行处理；/nS4、建立基于预训练语言模型的多标签分类模型，利用得到的标签数据进行模型训练；/nS5、使用训练好的多标签文本分类模型，对待分类的文本数据进行多标签分类。/n

【技术特征摘要】
1.基于统计学和预训练语言模型的多标签文本分类方法，其特征在于，包括以下步骤：
S1、对需要分类的训练语料进行预处理；
S2、建立基于统计学方法和语言模型的标签获取模型；
S3、对获取的标签数据进行处理；
S4、建立基于预训练语言模型的多标签分类模型，利用得到的标签数据进行模型训练；
S5、使用训练好的多标签文本分类模型，对待分类的文本数据进行多标签分类。

2.根据权利要求1所述的基于统计学和预训练语言模型的多标签文本分类方法，其特征在于，所述步骤S1具体实现方法为：获取需要标注的语料数据集OrgData，并去除停用词，然后得到NewData并保存下来。

3.根据权利要求1所述的基于统计学和预训练语言模型的多标签文本分类方法，其特征在于，所述步骤S2的标签获取模型包括依次连接的关键词层、输入编码层、预训练语言模型层和相似度分析层：
关键词层：通过统计学方法得到排名靠前的k个关键词；
输入编码层：将输入转换为神经网络可识别的词向量；
预训练语言模型层：采用Google预训练好的语言模型：albert_small_zh_google模型；
相似度分析层：本层是一个全连接层，通过权值矩阵W将通过输入编码层得到的TF-IDF关键词词向量与句子向量映射到相同的向量空间后，进行相似度的计算。

4.根据权利要求1所述的基于统计学和预训练语言模型的多标签文本分类方法，其特征在于，所述步骤S3具体实现方法为：对标签进行统计得到整个数据集的标签集合Lable_Set，对每个...

【专利技术属性】
技术研发人员：廖伟智，周佳瑞，阴艳超，曹阳，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人