本发明专利技术提出了一种基于多模型集成的短文本分类方法,包括:选取多个对短文本进行分类的分类模型;对训练样本进行采样,生成与该分类模型一一对应的训练集;通过对应的训练集对该分类模型进行训练,以获得对应的最终模型;通过所有该最终模型对目标文本进行分类,获取多个分类结果向量;集成所有该分类结果向量以得到最终结果向量,以该最终结果向量中具有最大值的元素所代表的类别,作为该目标文本的类别。
A short text classification method and system based on multi model integration
【技术实现步骤摘要】
一种基于多模型集成的短文本分类方法和系统
本专利技术涉及深度学习领域,特别是涉及一种通过多模型对中文短文本信息进行分类的方法和系统。
技术介绍
随着微博、微信等社交方式的快速发展,短文本成为生活中一种重要信息形式。对短文本信息进行正确的分类(即按照预先定义的主题类别,为每一条样本确定一个类别)具有广泛的应用,例如对特定种类信息的识别、对商品评价的多维度划分等等。中国国家专利技术“一种基于深度集成学习的投诉短文本分类方法”,公开号:CN109739986A,使用的是BTM主题模型和卷积神经网络先分别对文本进行特征提取,然后对特征进行组合再输入至集成的随机森林模型。,在集成时使用的是随机森林,而本专利集成的是不同类型和结构的子模型(Bert、TextRNN、TextCNN、SVM),子模型结构差异大,具有更丰富的多样性,能够从不同角度对短文本数据样本的差异化特征提取和编码,从而使得提取的特征分布更加趋近于数据总体的特征分布。中国国家专利技术“一种Bagging_BSJ短文本分类方法”,公开号:CN107292348A,采用Bagging集成算法思想,对短文本进行语义特征扩展,并结合贝叶斯算法,支持向量机算法以及J48算法,对语义特征扩展后的短文本进行分类。采用深度学习模型对短文本信息进行分类是近年来普遍采用的方法。特别是2018年谷歌AI团队推出的Bert模型,这是一个采用深层双向Transformer搭建的一个体量巨大的模型,其中的参数个数超过3亿个,该模型在11个NLP任务上取得了当时的最好成绩,在NLP业内引起巨大反响。随后,OpenAI、FastAI等公司也相继推出自己的大体量模型,比较著名的包括GPT、GPT2、Elmo等等,NLP任务榜单被多次刷新。然而,以Bert为代表的大体量模型,在短文本分类的现实应用中,仍然存在一些问题需要解决。这里仅对其中一个问题进行分析:由于待训练的参数数量庞大,即使在预训练模型基础上进行微调,大体量模型也需要大量的训练数据,而现实应用中难以收集到数量上能够与模型体量相匹配的标注数据。由于大体量模型具有极强的拟合能力,在数据不足的情况下,往往出现过拟合现象,导致泛化能力不足,即训练好的模型能够对训练数据做很好的分类,对于未知数据的分类效果急剧下降。目前,在提升Bert模型泛化能力方面,还未见相关的方法和方案。在传统的机器学习和深度学习应用中,通常采用扩充训练数据集中样本数量的方式来提升模型的泛化能力,通过补充训练样本,使得训练集中的样本分布能够更好的逼近数据的总体分布,使得训练生成的模型可以更加准确的拟合数据的总体分布,从而提升模型的泛化能力。但是,在现实应用中,收集足够数量的训练数据往往是困难的,需要付出高昂的时间成本和人力成本,以这种方式来提高Bert的泛化能力代价较大。
技术实现思路
本专利技术针对现实应用中,由于训练数据的规模不足以匹配Bert模型的参数体量,而导致的应用Bert做短文本分类时泛化能力不足的问题,采用分别训练多个短文本的分类模型的方式,然后对多个分类模型的分类结果进行集成,得到最终的分类结果。具体来说,本专利技术的基于多模型集成的短文本分类方法包括:选取多个对短文本进行分类的分类模型;对训练样本进行采样,生成多个与该分类模型一一对应的训练集;通过对应的训练集对该分类模型进行训练,以获得对应的最终模型;通过所有该最终模型对目标文本进行分类,获取多个分类结果向量;集成所有该分类结果向量以得到最终结果向量,以该最终结果向量中具有最大值的元素所代表的类别,作为该目标文本的类别。本专利技术所述的短文本分类方法,其中该分类模型包括:Bert模型、TextRnn模型、TextCNN模型和SVM模型。本专利技术所述的短文本分类方法,其中该分类结果向量为二值向量,该分类结果向量的第一个值表示该目标文本属于第一类的概率值,该分类结果向量的第二个值表示该目标文本属于第二类的概率值;对所有该分类结果向量进行加权平均以得到该最终结果向量,该最终结果向量为二值向量。本专利技术所述的短文本分类方法,其中对该训练样本进行采样的过程包括:以放回抽样的方式,从该训练样本中多次采样数据,以生成该训练集;其中,当该训练样本数量大于采样阈值时,生成的多个该训练集之间相互独立,当该训练样本数量小于或等于采样阈值时,生成的多个该训练集为相同。本专利技术还提出一种基于多模型集成的短文本分类系统,包括:分类模型选取模块,用于选取多个对短文本进行分类的分类模型;训练数据采集模块,用于对训练样本进行采样,生成多个与该分类模型一一对应的训练集;分类模型训练模块,用于通过对应的训练集对该分类模型进行训练,以获得多个最终模型;目标文本分类模块,用于通过所有该最终模型对目标文本进行分类,获取多个分类结果向量;分类结果集成模块,用于集成所有该分类结果向量以得到最终结果向量,以该最终结果向量中具有最大值的元素所代表的类别,作为该目标文本的类别。本专利技术所述的短文本分类系统,其中该分类模型包括:Bert模型、TextRnn模型、TextCNN模型和SVM模型。本专利技术所述的短文本分类系统,其中该目标文本分类模块中,该分类结果向量为二值向量,该分类结果向量的第一个值表示该目标文本属于第一类的概率值,该分类结果向量的第二个值表示该目标文本属于第二类的概率值;该分类结果集成模块中,对所有该分类结果向量进行加权平均以得到该最终结果向量,该最终结果向量为二值向量。本专利技术所述的短文本分类系统,其中该训练数据采集模块包括:以放回抽样的方式,从该训练样本中多次采样数据,以生成该训练集;其中,当该训练样本数量大于采样阈值时,生成的多个该训练集之间相互独立,当该训练样本数量小于或等于采样阈值时,生成的多个该训练集为相同。本专利技术还提出一种计算机可读存储介质,存储有可执行指令,该可执行指令用于执行如前所述的基于多模型集成的短文本分类方法。本专利技术还提出一种数据处理装置,包括如前所述的计算机可读存储介质,该数据处理装置的处理器调取并执行该可读存储介质中的可执行指令,以进行基于多模型集成的短文本分类。本专利技术的短文本分类方法,通过多个训练集,分别训练多个短文本的分类模型,然后对多个分类模型的分类结果进行加权平均,得到最终的分类结果,从而能够对未知数据具有更好的分类效果,取得更好的泛化能力。附图说明图1是本专利技术的基于多模型集成的短文本分类方法流程图。图2是本专利技术的短文本分类方法的训练样本采样流程图。图3是本专利技术的短文本分类方法的分类模型训练示意图。图4是本专利技术的多模型集成分类示意图。图5是本专利技术的数据处理装置示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图,对本专利技术提出的基于多模型集成的短文本分类方法和系统进一步详细说明。应当理解,此处所描述的具体实施方法仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术是为了解决现实应用中,由于训练数据的规模不足以匹配模型的参数体量,而导致的本文档来自技高网...
【技术保护点】
1.一种基于多模型集成的短文本分类方法,其特征在于,包括:/n选取多个对短文本进行分类的分类模型;/n对训练样本进行采样,生成多个与该分类模型一一对应的训练集;/n通过对应的训练集对该分类模型进行训练,以获得对应的最终模型;/n通过所有该最终模型对目标文本进行分类,获取多个分类结果向量;/n集成所有该分类结果向量以得到最终结果向量,以该最终结果向量中具有最大值的元素所代表的类别,作为该目标文本的类别。/n
【技术特征摘要】
1.一种基于多模型集成的短文本分类方法,其特征在于,包括:
选取多个对短文本进行分类的分类模型;
对训练样本进行采样,生成多个与该分类模型一一对应的训练集;
通过对应的训练集对该分类模型进行训练,以获得对应的最终模型;
通过所有该最终模型对目标文本进行分类,获取多个分类结果向量;
集成所有该分类结果向量以得到最终结果向量,以该最终结果向量中具有最大值的元素所代表的类别,作为该目标文本的类别。
2.如权利要求1所述的短文本分类方法,其特征在于,该分类模型包括:Bert模型、TextRnn模型、TextCNN模型和SVM模型。
3.如权利要求1或2所述的短文本分类方法,其特征在于,该分类结果向量为二值向量,该分类结果向量的第一个值表示该目标文本属于第一类的概率值,该分类结果向量的第二个值表示该目标文本属于第二类的概率值;对所有该分类结果向量进行加权平均以得到该最终结果向量,该最终结果向量为二值向量。
4.如权利要求1所述的短文本分类方法,其特征在于,对该训练样本进行采样的过程包括:以放回抽样的方式,从该训练样本中多次采样数据,以生成该训练集;其中,当该训练样本数量大于采样阈值时,生成的多个该训练集之间相互独立,当该训练样本数量小于或等于采样阈值时,生成的多个该训练集为相同。
5.一种基于多模型集成的短文本分类系统,其特征在于,包括:
分类模型选取模块,用于选取多个对短文本进行分类的分类模型;
训练数据采集模块,用于对训练样本进行采样,生成多个与该分类模型一一对应的训练集;
分类模型训练...
【专利技术属性】
技术研发人员:段东圣,井雅琪,任博雅,时磊,孙旷怡,李扬曦,佟玲玲,习健,宋永浩,
申请(专利权)人:国家计算机网络与信息安全管理中心,中国科学院计算技术研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。