基于统计学和预训练语言模型的多标签文本分类方法技术

技术编号:27030638 阅读:23 留言:0更新日期:2021-01-12 11:13
本发明专利技术公开了一种基于统计学和预训练语言模型的多标签文本分类方法,包括以下步骤:S1、对需要分类的训练语料进行预处理;S2、建立基于统计学方法和语言模型的标签获取模型;S3、对获取的标签数据进行处理;S4、建立基于预训练语言模型的多标签分类模型,利用得到的标签数据进行模型训练;S5、使用训练好的多标签文本分类模型,对待分类的文本数据进行多标签分类。本发明专利技术提出一种结合了统计学方法与预训练语言模型标签获取方法,使用ALBERT语言模型来获取文本的语义编码信息,不需要人工标注数据集,能够提高获取标签的准确度。

【技术实现步骤摘要】
基于统计学和预训练语言模型的多标签文本分类方法
本专利技术涉及一种基于统计学和预训练语言模型的多标签文本分类方法。
技术介绍
2013年以来,基于神经网络的深度学习理论取得了重大进步,已经广泛运用到图像和自然语言处理领域,衍生了许多研究与应用方向。文本分类是自然语言处理中最重要的任务之一,在现实生活中有很多应用,例如舆情监测,标签推荐,信息查找等。传统的单标签文本分类算法难以解决现实生活场景中文本的多样性问题,多标签文本分类已经成为自然语言处理文本分类任务中热门研究方向。当前的多标签文本分类方法主要分为两类:第一类是基于传统机器学习的多标签文本分类方法,例如:Binaryrelevance,Classifierchains,ML-DT,Rank-SVM和ML-KNN等,是通过提取依赖于语料库实现标签的特征提取,这类方法需要通过人工设计的特征来训练分类器,模型的质量取决于特征设计的质量。而且这类方法并没有考虑单词的语义信息及上下文信息,还会造成数据维度灾难,准确性也不高。第二类是基于深度学习的多标签文本分类方法,这类方法将深度学习,例如全连接神经网络、卷积神经网络(CNN)、循环神经网络(RNN)、长短时记忆网络(LSTM)、注意力机制(Attention)等应用到多标签文本分类中。使用神经网络处理文本分类弥补了传统机器学习方法的很多缺陷,比如:不需要通过人工设计特征等,但是这些方法仍未能充分的提取语义信息,且比较依赖于训练数据集的标签准确度。上述分类方法存在以下技术缺点:(1)基于传统机器学习的多标签文本分类方法需要人工设计特征,非常耗时耗力,并且特征的质量对分类效果的影响很大。(2)现有的基于深度学习的方法大多采用CNN、RNN等来提取语义信息,虽然可以取得不错的效果,但相比使用预训练语言模型来提取语义信息,仍然具有一定的差距。(3)以上两种方法都需要较大规模的已标注数据集,特别是基于深度学习的多标签文本分类方法,对训练数据集的标签准确度以及规模大小都提出了更高的要求,而对于许多应用领域,大规模高准确性的标注数据集的获取成本往往都很大。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种结合统计学方法与预训练语言模型标签获取方法,使用ALBERT语言模型来获取文本的语义编码信息,不需要人工标注数据集,能够提高获取标签的准确度的基于统计学和预训练语言模型的多标签文本分类方法。本专利技术的目的是通过以下技术方案来实现的:基于统计学和预训练语言模型的多标签文本分类方法,包括以下步骤:S1、对需要分类的训练语料进行预处理;S2、建立基于统计学方法和语言模型的标签获取模型;S3、对获取的标签数据进行处理;S4、建立基于预训练语言模型的多标签分类模型,利用得到的标签数据进行模型训练;S5、使用训练好的多标签文本分类模型,对待分类的文本数据进行多标签分类。进一步地,所述步骤S1具体实现方法为:获取需要标注的语料数据集OrgData,并去除停用词,然后得到NewData并保存下来。进一步地,所述步骤S2的标签获取模型包括依次连接的关键词层、输入编码层、预训练语言模型层和相似度分析层:关键词层:通过统计学方法得到排名靠前的k个关键词;输入编码层:将输入转换为神经网络可识别的词向量;预训练语言模型层:采用Google预训练好的语言模型:albert_small_zh_google模型;相似度分析层:本层是一个全连接层,通过权值矩阵W将通过输入编码层得到的TF-IDF关键词词向量与句子向量映射到相同的向量空间后,进行相似度的计算。进一步地,所述步骤S3具体实现方法为:对标签进行统计得到整个数据集的标签集合Lable_Set,对每个标签进行编号,得到标签集合Lable_Set对应的标签编号集合Lable_ID,再通过Lable_ID将数据集中的标签转换为对应的one-hot向量。进一步地,所述步骤S4的多标签分类模型包括依次连接的输入编码层、预训练语言模型层、全连接层和输出层;输入编码层:将输入转换为神经网络可识别的词向量;预训练语言模型层:采用Google预训练好的语言模型:albert_small_zh_google模型,输出向量选择为整个语义编码向量:全连接层:将预训练语言模型层输出的语义编码向量作为全连接层的输入,得到输出bc′:bc′=W'bc其中W′为全连接层的权值矩阵;输出层:对全连接层的输出bc′,通过softmax计算得到标签的概率分布yt:yt=softmax(bc′)。进一步地,所述步骤S4的模型训练具体实现方法为:对多标签分类模型的输出概率分布向量与步骤S3中得到的真实标签的one-hot向量进行交叉熵损失函数计算,其计算公式为:其中,p,q分别代表多标签分类模型的输出概率分布向量和真实标签的one-hot向量;p(xi)和q(xi)分别表示向量中第i个元素,n表示向量中元素的总数量;采用梯度下降法(或其他优化方法)训练该模型的参数,当模型产生的损失值满足设定要求或者达到最大迭代次数N,则终止该模型的训练。本专利技术的有益效果是:本专利技术提出一种结合了统计学方法与预训练语言模型标签获取方法,使用ALBERT语言模型来获取文本的语义编码信息,不需要人工标注数据集,能够提高获取标签的准确度。附图说明图1为本专利技术的基于统计学和预训练语言模型的多标签文本分类方法的流程图;图2为本专利技术的标签获取模型结构图;图3为本专利技术的BERT模型结构图;图4为本专利技术的TransformerEncoder端单元结构图;图5为本专利技术多标签分类模型的结构图。具体实施方式下面结合附图进一步说明本专利技术的技术方案。如图1所示,本专利技术的一种基于统计学和预训练语言模型的多标签文本分类方法,包括以下步骤:S1、对需要分类的训练语料进行预处理;具体实现方法为:获取需要标注的语料数据集OrgData,并去除停用词(例如“了”、“个”等停用词和特殊符号等无意义字词),然后得到NewData并保存下来。S2、建立基于统计学方法和语言模型的标签获取模型;标签获取模型包括依次连接的关键词层、输入编码层、预训练语言模型层和相似度分析层,如图2所示。关键词层:通过统计学方法(如TF-IDF/TextRank/LDA等算法)得到排名靠前的k个关键词;本实施例以TF-IDF为例进行说明:①、计算数据集中每个单段文本中每个词的词频(TF):即TFw表示第w个词条的词频;②、计算该词对应整个语料数据集的逆文档频率IDFw:即③、计算该词的词频-逆文档频率TF-IDF;TF-IDF=TF*IDF;④、对每个段落按照步骤(1)~(3)计算每个词的TF-IDF,并本文档来自技高网
...

【技术保护点】
1.基于统计学和预训练语言模型的多标签文本分类方法,其特征在于,包括以下步骤:/nS1、对需要分类的训练语料进行预处理;/nS2、建立基于统计学方法和语言模型的标签获取模型;/nS3、对获取的标签数据进行处理;/nS4、建立基于预训练语言模型的多标签分类模型,利用得到的标签数据进行模型训练;/nS5、使用训练好的多标签文本分类模型,对待分类的文本数据进行多标签分类。/n

【技术特征摘要】
1.基于统计学和预训练语言模型的多标签文本分类方法,其特征在于,包括以下步骤:
S1、对需要分类的训练语料进行预处理;
S2、建立基于统计学方法和语言模型的标签获取模型;
S3、对获取的标签数据进行处理;
S4、建立基于预训练语言模型的多标签分类模型,利用得到的标签数据进行模型训练;
S5、使用训练好的多标签文本分类模型,对待分类的文本数据进行多标签分类。


2.根据权利要求1所述的基于统计学和预训练语言模型的多标签文本分类方法,其特征在于,所述步骤S1具体实现方法为:获取需要标注的语料数据集OrgData,并去除停用词,然后得到NewData并保存下来。


3.根据权利要求1所述的基于统计学和预训练语言模型的多标签文本分类方法,其特征在于,所述步骤S2的标签获取模型包括依次连接的关键词层、输入编码层、预训练语言模型层和相似度分析层:
关键词层:通过统计学方法得到排名靠前的k个关键词;
输入编码层:将输入转换为神经网络可识别的词向量;
预训练语言模型层:采用Google预训练好的语言模型:albert_small_zh_google模型;
相似度分析层:本层是一个全连接层,通过权值矩阵W将通过输入编码层得到的TF-IDF关键词词向量与句子向量映射到相同的向量空间后,进行相似度的计算。


4.根据权利要求1所述的基于统计学和预训练语言模型的多标签文本分类方法,其特征在于,所述步骤S3具体实现方法为:对标签进行统计得到整个数据集的标签集合Lable_Set,对每个...

【专利技术属性】
技术研发人员:廖伟智周佳瑞阴艳超曹阳
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1