模型获得方法、分类方法、装置及电子设备和存储介质制造方法及图纸

技术编号：37778791 阅读：11 留言：0更新日期：2023-06-09 09:09

本申请实施例公开了一种模型获得方法、分类方法、装置及电子设备和存储介质，对文本分类模型进行初始训练，得到初始文本分类模型，基于利用样本数据集对初始文本分类模型的测试结果，确定分类性能较低的目标类别，以及目标类别最容易被错误识别成的配对类别，从目标类别及其配对类别对应的样本数据中提取目标类别对应的描述逻辑和配对类别对应的描述逻辑，然后对初始文本分类模型进行目标训练，在目标训练过程中，基于所述样本数据集中的各样本数据所属类别标签，以及所述描述逻辑对所述初始文本分类模型的参数进行更新。初始文本分类模型的参数进行更新。初始文本分类模型的参数进行更新。

全部详细技术资料下载

【技术实现步骤摘要】
模型获得方法、分类方法、装置及电子设备和存储介质

[0001]本申请涉及机器学习
，更具体地说，涉及一种模型获得方法、分类方法、装置及电子设备和存储介质。

技术介绍

[0002]真实世界中的分类任务中，各个类别的样本数量往往不是完全平衡的，某一或某些类别的样本数量远少于其他类别的样本数量的情况经常发生，使得数据不平衡成为机器学习任务中的一个常见问题。由于不平衡数据中少数类样本的数量远少于多数类样本，利用不平衡数据训练得到的分类模型会因为缺乏足够的数据，对少数类样本的刻画能力不足，难以有效的对这些少数类样本进行分类，容易将少数类的样本错误的识别为多数类样本，造成分类模型的分类性能低。
[0003]因此，如何提高分类模型的分类性能成为亟待解决的技术问题。

技术实现思路

[0004]本申请的目的是提供一种模型获得方法、分类方法、装置及电子设备和存储介质，包括如下技术方案：
[0005]一种模型获得方法，所述方法包括：
[0006]利用样本数据集对文本分类模型进行目标次数的初始训练，得到初始文本分类模型；
[0007]利用所述样本数据集对所述初始文本分类模型进行测试，以确定目标类别及其配对类别；其中，所述初始文本分类模型对所述目标类别的分类性能低于对非目标类别的分类性能；所述目标类别的样本数据被错误的识别为所述配对类别的数量多于被错误的识别为非配对类别的数量；
[0008]从所述样本数据集中属于所述任一目标类别及其配对类别的目标样本数据中，提取所述任一目标类别及其...

【技术保护点】

【技术特征摘要】
1.一种模型获得方法，所述方法包括：利用样本数据集对文本分类模型进行目标次数的初始训练，得到初始文本分类模型；利用所述样本数据集对所述初始文本分类模型进行测试，以确定目标类别及其配对类别；其中，所述初始文本分类模型对所述目标类别的分类性能低于对非目标类别的分类性能；所述目标类别的样本数据被错误的识别为所述配对类别的数量多于被错误的识别为非配对类别的数量；从所述样本数据集中属于所述任一目标类别及其配对类别的目标样本数据中，提取所述任一目标类别及其配对类别分别对应的描述逻辑；任一类别对应的描述逻辑表征样本数据所包含的知识与所述任一类别的关联关系；利用所述样本数据集对所述初始文本分类模型进行目标训练，得到目标文本分类模型；在训练过程中，基于所述样本数据集中的各样本数据所属类别标签，以及所述描述逻辑对所述初始文本分类模型的参数进行更新。2.根据权利要求1所述的方法，其中，确定目标类别的过程包括：对所述样本数据集中属于第一类别标签的样本数据，以及被所述初始文本分类模型错误分类为所述第一类别标签的样本数据进行统计分析，以确定所述第一类别标签对应的分类准确率和分类召回率；如果所述第一类别标签对应的分类准确率和分类召回率满足目标条件，确定所述第一类别标签为目标类别。3.根据权利要求1所述的方法，其中，确定目标类别的过程，包括：如果所述样本数据集中属于第一类别标签的至少一个样本数据被错误的分类为非第一类别标签，确定所述第一类别标签为目标类别。4.根据权利要求1所属的方法，所述基于所述样本数据集中的各样本数据的类别标签，以及所述描述逻辑对所述初始文本分类模型的参数进行更新，包括：以所述初始文本分类模型输出的各样本数据的分类结果趋近于输入所述初始文本分类模型的样本数据的类别标签，所述初始文本分类模型输出的符合所述描述逻辑的样本数据的分类结果匹配所述描述逻辑为目标，对所述初始文本分类模型的参数进行更新。5.根据权利要求4所述的方法，对所述初始文本分类模型的参数进行更新的过程，包括：获得初始文本分类模型输出的分类结果与输入所述初始文本分类模型的样本数据的类别标签之间的第一损失值；获得所述初始文本分类模型输出的符合所述描述逻辑...

【专利技术属性】
技术研发人员：莫森，
申请(专利权)人：联想北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人