一种文本分类模型性能优化方法、装置及存储介质制造方法及图纸

技术编号:29584576 阅读:28 留言:0更新日期:2021-08-06 19:43
本发明专利技术公开了一种文本分类模型性能优化方法、装置及存储介质;该方法包括根据原始数据集和数据增强策略集,构建第一增强数据集;根据第一增强数据集,对源模型进行增量训练与测试,并根据性能预评价得分,计算得到性能增长评价信息;然后随机对第一增强数据集进行采样,构建待校验增强数据集;对待校验增强数据集中的每一组数据进行人工核验和校正,得到第二增强数据集;根据待校验增强数据集、第二增强数据集和性能增长评价信息,计算得到数据增强策略评价信息;根据数据增强策略评价信息,确定数据增强策略,得到文本分类模型优化数据;本发明专利技术能够优化文本分类模型的性能。本发明专利技术可广泛应用于机器学习领域。

【技术实现步骤摘要】
一种文本分类模型性能优化方法、装置及存储介质
本专利技术涉及机器学习领域,尤其是一种文本分类模型性能优化方法、装置及存储介质。
技术介绍
在文本分类任务中,小样本或不平衡数据集通常会影响分类模型的性能。传统的数据增强方法一般使用一种或多种数据增强模型来生成新的增强数据集,并基于新的增强数据集对文本分类模型进行增量训练,根据性能评价结果确定有效的增强模型。然而,增强数据集中的样本不一定与原始样本所对应的类标签相符,这有可能导致模型学习到错误的样本特征,因此,需要一种人机交互的方式来辅助构建有效的增强数据集,提高文本分类模型在新数据集上的泛化能力,优化文本分类模型的性能。
技术实现思路
本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术提出一种文本分类模型性能优化方法、装置及存储介质。本专利技术所采取的技术方案是:一方面,本专利技术实施例包括一种文本分类模型性能优化方法,包括:基于原始数据集,对文本分类模型进行预训练和测试,得到源模型和性能预评价得分;根据所述原始数据集和数据增强策略集,构建第一增强数据集;根据所述第一增强数据集,对所述源模型进行增量训练与测试,并根据所述性能预评价得分,计算得到性能增长评价信息;随机对所述第一增强数据集进行采样,构建待校验增强数据集;对所述待校验增强数据集中的每一组数据进行人工核验和校正,得到第二增强数据集;根据所述待校验增强数据集、所述第二增强数据集和所述性能增长评价信息,计算得到数据增强策略评价信息;根据所述数据增强策略评价信息,确定数据增强策略,并对所述文本分类模型进行迭代训练与测试,得到文本分类模型优化数据。进一步地,所述基于原始数据集,对文本分类模型进行预训练和测试,得到源模型和性能预评价得分这一步骤,具体包括:基于原始数据集,对文本分类模型进行预训练,得到源模型;对所述源模型进行测试,得到性能预评价得分。进一步地,所述根据所述第一增强数据集,对所述源模型进行增量训练与测试,并根据所述性能预评价得分,计算得到性能增长评价信息这一步骤,具体包括:基于所述第一增强数据集,对所述源模型进行增量训练,得到第一组目标模型集合;分别对所述第一组目标模型集合中的每个模型进行测试,得到第一组目标评价得分集合;根据所述预评价得分与所述第一组目标评价得分集合,计算得到所述第一组目标模型集合的性能增长评价信息。进一步地,所述根据所述预评价得分与所述第一组目标评价得分集合,计算得到所述第一组目标模型集合的性能增长评价信息这一步骤,具体包括:根据所述预评价得分与所述第一组目标评价得分集合,计算得到所述第一组目标模型集合的原始性能增长向量;对所述第一组目标模型集合的原始性能增长向量进行指数归一化计算,得到所述第一组目标模型集合的性能增长向量,所述性能增长向量为性能增长评价信息。进一步地,所述数据增强策略评价信息包括数据增强策略权重向量和第三组目标评价得分集合,所述根据所述待校验增强数据集、所述第二增强数据集和所述性能增长评价信息,计算得到数据增强策略评价信息这一步骤,具体包括:根据待校验增强数据集和所述第二增强数据集,获取有效样本数;根据所述有效样本数,计算所述第一组目标模型集合中每个模型对应的样本有效率;根据所述第一组目标模型集合中每个模型对应的样本有效率,获取所述第一组目标模型集合的样本有效向量;根据所述第一组目标模型集合的性能增长评价信息与所述第一目标模型集合的样本有效向量,计算得到数据增强策略权重向量;基于所述第二增强数据集,对所述源模型进行增量训练,得到第二组目标模型集合;分别对所述第二组目标模型集合中的每个模型进行测试,得到第二组目标评价得分集合;根据所述第一组目标评价得分集合和所述第二组目标评价得分集合,得到所述第三组目标评价得分集合。进一步地,所述第一组目标评价得分集合中的元素和所述第二组目标评价得分集合中的元素一一对应,所述根据所述第一组目标评价得分集合和所述第二组目标评价得分集合,得到所述第三组目标评价得分集合具体为:将所述第一组目标评价得分集合中的第一元素和所述第二组目标评价得分集合中的第二元素进行对比,取最大值,得到所述第三组目标评价得分集合,所述第一元素为所述第一组目标评价得分集合中的任意元素,所述第二元素为所述第二组目标评价得分集合中的任意元素,所述第一元素与所述第二元素相对应。进一步地,所述根据所述数据增强策略评价信息,确定数据增强策略,并对所述文本分类模型进行迭代训练与测试,得到文本分类模型优化数据这一步骤,包括:获取预设性能阈值;获取目标得分,所述目标得分为所述第三组目标评价得分集合中的得分最大值;将所述目标得分与所述预设性能阈值进行比较;若所述目标得分大于所述预设性能阈值,获取文本分类模型优化数据,所述文本分类模型优化数据包括所述目标得分对应的原始数据、目标模型、增强数据及数据增强策略。进一步地,若所述目标得分不大于所述预设性能阈值,则执行以下步骤:将所述目标得分对应的目标模型替换为新的源模型;对所述新的源模型进行迭代训练与测试,得到文本分类模型优化数据。另一方面,本专利技术实施例还包括一种文本分类模型性能优化装置,包括:至少一个处理器;至少一个存储器,用于存储至少一个程序;当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现所述的文本分类模型性能优化方法。另一方面,本专利技术实施例还包括计算机可读存储介质,其上存储有处理器可执行的程序,所述处理器可执行的程序在被处理器执行时用于实现所述的文本分类模型性能优化方法。本专利技术的有益效果是:本专利技术基于原始数据集,对文本分类模型进行预训练和测试,得到源模型和性能预评价得分;根据原始数据集和数据增强策略集,构建第一增强数据集;根据第一增强数据集,对源模型进行增量训练与测试,并根据性能预评价得分,计算得到性能增长评价信息;然后随机对第一增强数据集进行采样,构建待校验增强数据集;对待校验增强数据集中的每一组数据进行人工核验和校正,得到第二增强数据集;根据待校验增强数据集、第二增强数据集和性能增长评价信息,计算得到数据增强策略评价信息;根据数据增强策略评价信息,确定数据增强策略,并对所述文本分类模型进行迭代训练与测试,得到文本分类模型优化数据;从而能够提高文本分类模型在数据集上的泛化能力,优化文本分类模型的性能。本专利技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:图1为本专利技术实施例所述文本分类模型性能优化方法的步骤流程图;图2为本专利技术实施例所述得到源模型和性能预评价得分的流程图;图3本文档来自技高网...

【技术保护点】
1.一种文本分类模型性能优化方法,其特征在于,包括:/n基于原始数据集,对文本分类模型进行预训练和测试,得到源模型和性能预评价得分;/n根据所述原始数据集和数据增强策略集,构建第一增强数据集;/n根据所述第一增强数据集,对所述源模型进行增量训练与测试,并根据所述性能预评价得分,计算得到性能增长评价信息;/n随机对所述第一增强数据集进行采样,构建待校验增强数据集;/n对所述待校验增强数据集中的每一组数据进行人工核验和校正,得到第二增强数据集;/n根据所述待校验增强数据集、所述第二增强数据集和所述性能增长评价信息,计算得到数据增强策略评价信息;/n根据所述数据增强策略评价信息,确定数据增强策略,并对所述文本分类模型进行迭代训练与测试,得到文本分类模型优化数据。/n

【技术特征摘要】
1.一种文本分类模型性能优化方法,其特征在于,包括:
基于原始数据集,对文本分类模型进行预训练和测试,得到源模型和性能预评价得分;
根据所述原始数据集和数据增强策略集,构建第一增强数据集;
根据所述第一增强数据集,对所述源模型进行增量训练与测试,并根据所述性能预评价得分,计算得到性能增长评价信息;
随机对所述第一增强数据集进行采样,构建待校验增强数据集;
对所述待校验增强数据集中的每一组数据进行人工核验和校正,得到第二增强数据集;
根据所述待校验增强数据集、所述第二增强数据集和所述性能增长评价信息,计算得到数据增强策略评价信息;
根据所述数据增强策略评价信息,确定数据增强策略,并对所述文本分类模型进行迭代训练与测试,得到文本分类模型优化数据。


2.根据权利要求1所述的一种文本分类模型性能优化方法,其特征在于,所述基于原始数据集,对文本分类模型进行预训练和测试,得到源模型和性能预评价得分这一步骤,具体包括:
基于原始数据集,对文本分类模型进行预训练,得到源模型;
对所述源模型进行测试,得到性能预评价得分。


3.根据权利要求1所述的一种文本分类模型性能优化方法,其特征在于,所述根据所述第一增强数据集,对所述源模型进行增量训练与测试,并根据所述性能预评价得分,计算得到性能增长评价信息这一步骤,具体包括:
基于所述第一增强数据集,对所述源模型进行增量训练,得到第一组目标模型集合;
分别对所述第一组目标模型集合中的每个模型进行测试,得到第一组目标评价得分集合;
根据所述预评价得分与所述第一组目标评价得分集合,计算得到所述第一组目标模型集合的性能增长评价信息。


4.根据权利要求3所述的一种文本分类模型性能优化方法,其特征在于,所述根据所述预评价得分与所述第一组目标评价得分集合,计算得到所述第一组目标模型集合的性能增长评价信息这一步骤,具体包括:
根据所述预评价得分与所述第一组目标评价得分集合,计算得到所述第一组目标模型集合的原始性能增长向量;
对所述第一组目标模型集合的原始性能增长向量进行指数归一化计算,得到所述第一组目标模型集合的性能增长向量,所述性能增长向量为性能增长评价信息。


5.根据权利要求3所述的一种文本分类模型性能优化方法,其特征在于,所述数据增强策略评价信息包括数据增强策略权重向量和第三组目标评价得分集合,所述根据所述待校验增强数据集、所述第二增强数据集和所述性能增长评价信息,计算得到数据增强策略评价信息这一步骤,具体包括:
根据待校验增强数据集和所述第二增强数据集,获取有效样本数;
根据所述有效样本数,计...

【专利技术属性】
技术研发人员:郝天永雷顺威瞿瑛瑛
申请(专利权)人:华南师范大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1