不均衡样本分类方法、装置、电子设备及存储介质制造方法及图纸

技术编号：29331403 阅读：12 留言：0更新日期：2021-07-20 17:48

本发明专利技术涉及大数据技术领域，提供一种不均衡样本分类方法、装置、电子设备及存储介质，所述方法包括：获取目标标签；将目标标签的舆情新闻划分为正样本数据集和负样本数据集；对正样本数据集进行样本合成得到目标正样本数据集，及对负样本数据集进行层次聚类得到目标负样本数据集；对目标正样本数据集和目标负样本数据集采用预设的损失函数，训练分类模型；将舆情新闻输入训练好的分类模型中进行样本分类，得到样本分类结果。本发明专利技术通过对重新构建后的目标正样本数据集和目标负样本数据集，采用预设的损失函数重新训练分类模型，均衡了样本数据集中的数据量，解决了随机采样造成的分类样本不均衡的问题，提高了分类准确率。

全部详细技术资料下载

【技术实现步骤摘要】
不均衡样本分类方法、装置、电子设备及存储介质
本专利技术涉及大数据
，具体涉及一种不均衡样本分类方法、装置、电子设备及存储介质。
技术介绍
目前网络舆情的影响越来越大，爬取的舆情数据量很大，一般采用随机取样方法选取正样本数据和负样本数据，在采用随机取样过程中，可能出现数据分类不均衡的现象，现有技术通过采用随机过采样和随机欠采样解决样本不均衡的问题。然而，随机过采样容易出现少数类样本多次复制，增加了模型复杂度；随机欠采样会丢弃一部分原始样本，可能会损失部分有用的信息，造成模型偏离样本原始分布，上述两种方式都会导致训练出的分类模型的分类准确率低。因此，有必要提供一种快速准确的不均衡样本分类的方法。
技术实现思路
鉴于以上内容，有必要提出一种不均衡样本分类方法、装置、电子设备及存储介质，通过对重新构建后的目标正样本数据集和目标负样本数据集，采用预设的损失函数重新训练分类模型，均衡了样本数据集中的数据量，解决了随机采样造成的分类样本不均衡的问题，提高了分类准确率。本专利技术的第一方面提供一种不均衡样本分类方法，所述方法包括：接收舆情新闻的样本分类请求，解析所述样本分类请求获取目标标签；爬取所述目标标签对应的舆情新闻，将所述舆情新闻划分为正样本数据集和负样本数据集，其中，正样本数据集中的数据量小于负样本数据集中的数据量；对所述正样本数据集进行样本合成得到目标正样本数据集，及对所述负样本数据集进行层次聚类得到目标负样本数据集；对所述目标正样本数据集...

【技术保护点】
1.一种不均衡样本分类方法，其特征在于，所述方法包括：/n接收舆情新闻的样本分类请求，解析所述样本分类请求获取目标标签；/n爬取所述目标标签对应的舆情新闻，将所述舆情新闻划分为正样本数据集和负样本数据集，其中，正样本数据集中的数据量小于负样本数据集中的数据量；/n对所述正样本数据集进行样本合成得到目标正样本数据集，及对所述负样本数据集进行层次聚类得到目标负样本数据集；/n对所述目标正样本数据集和所述目标负样本数据集采用预设的损失函数，训练分类模型；/n将所述舆情新闻输入训练好的分类模型中进行样本分类，得到样本分类结果。/n

【技术特征摘要】
1.一种不均衡样本分类方法，其特征在于，所述方法包括：
接收舆情新闻的样本分类请求，解析所述样本分类请求获取目标标签；
爬取所述目标标签对应的舆情新闻，将所述舆情新闻划分为正样本数据集和负样本数据集，其中，正样本数据集中的数据量小于负样本数据集中的数据量；
对所述正样本数据集进行样本合成得到目标正样本数据集，及对所述负样本数据集进行层次聚类得到目标负样本数据集；
对所述目标正样本数据集和所述目标负样本数据集采用预设的损失函数，训练分类模型；
将所述舆情新闻输入训练好的分类模型中进行样本分类，得到样本分类结果。

2.如权利要求1所述的不均衡样本分类方法，其特征在于，所述对所述正样本数据集进行样本合成得到目标正样本数据集包括：
对所述正样本数据集中的每个正样本数据进行向量转换得到每个正样本数据的目标向量；
随机从所述正样品数据集中选取一个正样本数据作为一个目标正样本数据；
计算每个目标正样本数据的目标向量与剩余正样本数据的目标向量之间的距离，并选取距离最小的多个正样本数据；
对选取距离最小的多个正样本数据和对应的目标正样品数据进行样本合成，得到对应的目标正样品数据合成后的正样本数据；
将多个合成后的正样品数据确定为所述正样本数据集的目标正样本数据集。

3.如权利要求2所述的不均衡样本分类方法，其特征在于，所述对所述正样本数据集中的每个正样本数据进行向量转换得到每个正样本数据的目标向量包括：
获取所述正样本数据集中的多个正样本数据；
对每个正样本数据中的每个句子进行分词，得到多个分词；
将所述多个分词输入至预先训练好的BERT模型中，得到每个分词的词向量；
计算所述多个分词的词向量之和除以对应句子的分词总数得到每个句子的句向量；
合并每个正样本数据中的每个句子的句向量得到每个正样本数据的目标向量。

4.如权利要求2所述的不均衡样本分类方法，其特征在于，所述将多个合成后的正样品数据确定为所述正样本数据集的目标正样本数据集包括：
将所述多个合成后的正样品数据的第一数据量与预设的第一数据量阈值进行比较，当所述第一数据量大于或者等于所述预设的第一数据量阈值时，确定所述多个合成后的正样品数据达到所述预设的第一要求，将所述多个合成后的正样品数据确定为所述正样本数据集的目标正样本数据集；或者
当所述第一数据量小于所述预设的第一数据量阈值时，确定所述多个合成后的正样品数据未达到所述预设的第一要求，重复执行所述对所述正样本数据集进行预处理得到目标正样本数据集，直至获取满足所述预设条件的目标正样本数据集。

5.如权利要求3或4所述的不均衡样本分类方法，其特征在于，所述对所述负样本数据集进行层次聚类得到目标负样本数据集包括：
对所述负样本...

【专利技术属性】
技术研发人员：谢攀，
申请(专利权)人：平安国际智慧城市科技股份有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人