【技术实现步骤摘要】
一种文本分类模型性能优化方法、装置及存储介质
本专利技术涉及机器学习领域,尤其是一种文本分类模型性能优化方法、装置及存储介质。
技术介绍
在文本分类任务中,小样本或不平衡数据集通常会影响分类模型的性能。传统的数据增强方法一般使用一种或多种数据增强模型来生成新的增强数据集,并基于新的增强数据集对文本分类模型进行增量训练,根据性能评价结果确定有效的增强模型。然而,增强数据集中的样本不一定与原始样本所对应的类标签相符,这有可能导致模型学习到错误的样本特征,因此,需要一种人机交互的方式来辅助构建有效的增强数据集,提高文本分类模型在新数据集上的泛化能力,优化文本分类模型的性能。
技术实现思路
本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术提出一种文本分类模型性能优化方法、装置及存储介质。本专利技术所采取的技术方案是:一方面,本专利技术实施例包括一种文本分类模型性能优化方法,包括:基于原始数据集,对文本分类模型进行预训练和测试,得到源模型和性能预评价得分;根据所述原始数据集和数据增强策略集,构建第一增强数据集;根据所述第一增强数据集,对所述源模型进行增量训练与测试,并根据所述性能预评价得分,计算得到性能增长评价信息;随机对所述第一增强数据集进行采样,构建待校验增强数据集;对所述待校验增强数据集中的每一组数据进行人工核验和校正,得到第二增强数据集;根据所述待校验增强数据集、所述第二增强数据集和所述性能增长评价信息,计算得到数据 ...
【技术保护点】
1.一种文本分类模型性能优化方法,其特征在于,包括:/n基于原始数据集,对文本分类模型进行预训练和测试,得到源模型和性能预评价得分;/n根据所述原始数据集和数据增强策略集,构建第一增强数据集;/n根据所述第一增强数据集,对所述源模型进行增量训练与测试,并根据所述性能预评价得分,计算得到性能增长评价信息;/n随机对所述第一增强数据集进行采样,构建待校验增强数据集;/n对所述待校验增强数据集中的每一组数据进行人工核验和校正,得到第二增强数据集;/n根据所述待校验增强数据集、所述第二增强数据集和所述性能增长评价信息,计算得到数据增强策略评价信息;/n根据所述数据增强策略评价信息,确定数据增强策略,并对所述文本分类模型进行迭代训练与测试,得到文本分类模型优化数据。/n
【技术特征摘要】
1.一种文本分类模型性能优化方法,其特征在于,包括:
基于原始数据集,对文本分类模型进行预训练和测试,得到源模型和性能预评价得分;
根据所述原始数据集和数据增强策略集,构建第一增强数据集;
根据所述第一增强数据集,对所述源模型进行增量训练与测试,并根据所述性能预评价得分,计算得到性能增长评价信息;
随机对所述第一增强数据集进行采样,构建待校验增强数据集;
对所述待校验增强数据集中的每一组数据进行人工核验和校正,得到第二增强数据集;
根据所述待校验增强数据集、所述第二增强数据集和所述性能增长评价信息,计算得到数据增强策略评价信息;
根据所述数据增强策略评价信息,确定数据增强策略,并对所述文本分类模型进行迭代训练与测试,得到文本分类模型优化数据。
2.根据权利要求1所述的一种文本分类模型性能优化方法,其特征在于,所述基于原始数据集,对文本分类模型进行预训练和测试,得到源模型和性能预评价得分这一步骤,具体包括:
基于原始数据集,对文本分类模型进行预训练,得到源模型;
对所述源模型进行测试,得到性能预评价得分。
3.根据权利要求1所述的一种文本分类模型性能优化方法,其特征在于,所述根据所述第一增强数据集,对所述源模型进行增量训练与测试,并根据所述性能预评价得分,计算得到性能增长评价信息这一步骤,具体包括:
基于所述第一增强数据集,对所述源模型进行增量训练,得到第一组目标模型集合;
分别对所述第一组目标模型集合中的每个模型进行测试,得到第一组目标评价得分集合;
根据所述预评价得分与所述第一组目标评价得分集合,计算得到所述第一组目标模型集合的性能增长评价信息。
4.根据权利要求3所述的一种文本分类模型性能优化方法,其特征在于,所述根据所述预评价得分与所述第一组目标评价得分集合,计算得到所述第一组目标模型集合的性能增长评价信息这一步骤,具体包括:
根据所述预评价得分与所述第一组目标评价得分集合,计算得到所述第一组目标模型集合的原始性能增长向量;
对所述第一组目标模型集合的原始性能增长向量进行指数归一化计算,得到所述第一组目标模型集合的性能增长向量,所述性能增长向量为性能增长评价信息。
5.根据权利要求3所述的一种文本分类模型性能优化方法,其特征在于,所述数据增强策略评价信息包括数据增强策略权重向量和第三组目标评价得分集合,所述根据所述待校验增强数据集、所述第二增强数据集和所述性能增长评价信息,计算得到数据增强策略评价信息这一步骤,具体包括:
根据待校验增强数据集和所述第二增强数据集,获取有效样本数;
根据所述有效样本数,计...
【专利技术属性】
技术研发人员:郝天永,雷顺威,瞿瑛瑛,
申请(专利权)人:华南师范大学,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。