System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及标签分类,具体涉及一种长文本多标签分类模型优化方法及装置。
技术介绍
1、目前,神经网络常用的训练方法是后向传播算法,后向传播算法通过对网络模型参数进行随机初始化,然后利用优化算法优化模型参数。但是,在标注数据很少的情况下,通过神经网络训练出的模型往往精度有限。“预训练”能够很好地帮助解决这个问题,并且对一词多义进行建模。
2、预训练是通过大量无标注的语言文本进行语言模型的训练,然后得到一套模型参数,利用这套参数对模型进行初始化,再根据具体任务在现有语言模型的基础上进行精调。预训练的方法在自然语言处理的分类和标记任务中,都被证明拥有更好的效果。截止目前,常见的预训练方法主要有:openai-gpt、bert和xlnet等。
3、gpt(generative pre-trained transformer)是一种自回归语言模型,其训练过程是单向的,优化目标是从左到右建模序列的联合概率,是传统意义上的语言模型,后预测的词以先预测的词为条件,比较适合文本生成任务,其缺陷是只使用了单向的语言表征信息,使得gpt无法获取双向上下文信息表征。
4、bert(bidirectional encoder representations from transformers)是一种自编码语言模型(autoencoder language model(lm)),在编码阶段用一个神经网络把输入变成一个低维的特征,就是编码部分;然后在解码阶段尝试把特征恢复成原始的信号。简单来说,就是把句子中随机一个单词用[m
5、xlnet是后bert时代的一种预训练模型,它在自回归语言模型(autoregressivelanguage model,即lm)中自然地引入上下文信息,有效地解决了自编码语言模型两阶段保持一致的问题,使得xlnet可以适合于超长文本分类,对于长距离文本语义的关联与依赖问题作出了贡献。
6、xlnet综合了bert和openai-gpt各自的优势,使用permuted language model(plm)的预训练任务,即将序列的联合概率分布,按照打乱的顺序重新因式分解,将语言模型的顺序拆解推广到随机分解,使得token之间的自回归关系不再是简单的前后顺序,而是打乱后的序列顺序。这样就可以获取到双向信息。
7、另外,xlnet采用“双流自注意力机制”将自注意力机制拆分为query流和content流。在query流中,token只能关注到前面的token和自身的位置信息;在content流中,token可以关注到自身。具体来说,xlnet将序列拆分为两部分,序列的后部分(约占句长的1/k,k为超参数)为需要预测的部分,前部分为已知上下文。已知的上下文不做预测,因此只计算content流注意力,每个token都编码之前token以及自身的完整信息。从预测部分开始,每个token同时计算query流和content流注意力:query流的输出用于预训练做预测,content流的输出提供给后续待预测token计算query流,这就保证了当预测当前token时,它无法看到自身编码;当前token预测结束后,将其content流作为上下文部分的编码提供给后续需要预测的token。预训练过程计算两种注意力,精调过程去除了query流,只保留content流,因为不需要对token进行词表空间的预测,而是需要编码整个上下文语义用于下游任务。
8、申请号为“202010497459.2”的专利文献中提供了一种结合albert(lite bertfor self-supervision language expression learning)和bigru(bidirectional gatedrecurrentunit(gru))的专利文本分类方法,通过对国家信息中心发布的专利数据集进行数据清洗,剔除掉分类号为非严格ipc分类的专利文本数据,并根据ipc分类号给专利数据打上分类标签;然后对文本数据进行特征提取,利用albert预训练语言模型对专利文本进行句子层面的特征表示,得到专利文本特征;最后将albert层输出的专利文本特征作为bigru层的输入,分别传给前向gru层和后向gru层。使用albert预训练的动态词向量代替传统的word2vec等方式训练的静态词向量,提升了词向量的表征能力;并使用bigru神经网络模型进行训练,保留了专利文本中长距离词之间的语义关联,提升了专利文本分类的效果。
9、综上可知,现有的xlnet原模型只能一次处理512字符,不能处理长文,且在实际应用中原始数据的依据类别分布不平衡,导致长文档分类任务的效果较差;申请号为“202010497459.2”的专利文献中虽然能够处理长文,但是其在长距离词之间的语义关联保留还不够高,导致长文档分类任务效果也较差。
技术实现思路
1、为此,本申请提供一种长文本多标签分类模型优化方法及装置,以解决现有技术存在的xlnet原模型不能处理长文以及长文档分类任务效果较差的问题。
2、为了实现上述目的,本申请提供如下技术方案:
3、第一方面,一种长文本多标签分类模型优化方法,包括:
4、初始化自回归语言预训练模型;
5、确定所述自回归语言预训练模型的精调层和损失函数;
6、创建所述自回归语言预训练模型的参数配置文件;
7、启动评估模型,判断预测结果是否提高;
8、若预测结果未提高,则调整所述精调层和所述参数配置文件;
9、若预测结果提高,则判断预测最终结果是否满足要求;
10、若不满足,则调整迭代参数;
11、若满足,则输出预测最终结果文件和优化的长文本多标签分类模型。
12、进一步的,所述自回归语言预训练模型采用24层基于transformer的二阶段训练模型。
13、更进一步的,所述自回归语言预训练模型的精调层为最后四层。
14、进一步的,所述损失函数为多标签分类之非对称损失。
15、进一步的,所述参数配置文件包括文本长度、学习率、epoch数和batch-size。
16、进一步的,所述启动评估模型,判断预测结果是否提高时,具体是通过评估模型评估每个分类类别的精准率、召回率、f1分数、roc和auc来共同判断预测结果是否提高。
17、第二方面,一种长文本多标签分类模型优化装置,包括:
18、初始化模块,用于初始化自回归语言预训练模型;
19、精调层确定模块,用于确定所述自回归语言预训练模型的精调层;
20、损失函数确定模块,用于确定所述自回归语言预训本文档来自技高网...
【技术保护点】
1.一种长文本多标签分类模型优化方法,其特征在于,包括:
2.根据权利要求1所述的长文本多标签分类模型优化方法,其特征在于,所述自回归语言预训练模型采用24层基于Transformer的二阶段训练模型。
3.根据权利要求2所述的长文本多标签分类模型优化方法,其特征在于,所述自回归语言预训练模型的精调层为最后四层。
4.根据权利要求1所述的长文本多标签分类模型优化方法,其特征在于,所述损失函数为多标签分类之非对称损失。
5.根据权利要求1所述的长文本多标签分类模型优化方法,其特征在于,所述参数配置文件包括文本长度、学习率、Epoch数和Batch-size。
6.根据权利要求1所述的长文本多标签分类模型优化方法,其特征在于,所述启动评估模型,判断预测结果是否提高时,具体是通过评估模型评估每个分类类别的精准率、召回率、F1分数、ROC和AUC来共同判断预测结果是否提高。
7.一种长文本多标签分类模型优化装置,其特征在于,包括:
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
...【技术特征摘要】
1.一种长文本多标签分类模型优化方法,其特征在于,包括:
2.根据权利要求1所述的长文本多标签分类模型优化方法,其特征在于,所述自回归语言预训练模型采用24层基于transformer的二阶段训练模型。
3.根据权利要求2所述的长文本多标签分类模型优化方法,其特征在于,所述自回归语言预训练模型的精调层为最后四层。
4.根据权利要求1所述的长文本多标签分类模型优化方法,其特征在于,所述损失函数为多标签分类之非对称损失。
5.根据权利要求1所述的长文本多标签分类模型优化方法,其特征在于,所述参数配置文件包括文本长度、学习率、epoch数和batch-size。<...
【专利技术属性】
技术研发人员:欧阳军,张霖涛,
申请(专利权)人:翼健上海信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。