当前位置: 首页 > 专利查询>苏州大学专利>正文

一种联合混合采样和随机森林的语音样本均衡方法技术

技术编号:33632269 阅读:24 留言:0更新日期:2022-06-02 01:38
本发明专利技术涉及一种联合混合采样和随机森林的语音样本均衡方法,首先对初始语音数据集进行特征提取;然后利用SMOTE

【技术实现步骤摘要】
一种联合混合采样和随机森林的语音样本均衡方法


[0001]本专利技术涉及数据处理
,尤其是指一种联合混合采样和随机森林的语音样本均衡方法、装置、设备及计算机可读存储介质。

技术介绍

[0002]近年来,人工智能技术在语音识别取得突破性发展。然而数据不均衡问题一直是机器学习中一个具有挑战性的问题。类别不均衡分布的数据会导致分类器的识别能力明显偏向多数类别,而无法对少数类别达到满意的分类性能。
[0003]目前,用于解决不平衡数据分类问题的传统不均衡学习技术可分为两类:内部方法和外部方法。内部方法是对现有分类算法进行改进,以降低其对类不平衡的敏感度。外部方法则对训练数据进行预处理,使其达到平衡。在外部方法中,用来平衡不均衡数据集的采样方法,可以分为:SMOTE过采样和ENN欠采样。
[0004]SMOTE过采样的基本思想是对少数类样本进行分析并根据少数类样本人工合成新样本添加到数据集中,但在生成新样本时没有考虑附近多数类样本的分布情况,K近邻选择时存在盲目性,会合成很多噪声,并侵入到多数类样本空间中。ENN欠采样通过消除多数类样本以获得理想的类别分布率,但会造成数据集中分类信息的丢失,因此,需要设计一种联合混合采样和随机森林的语音样本均衡方法。

技术实现思路

[0005]为此,本专利技术所要解决的技术问题在于克服现有技术中SMOTE过采样在生成新样本时没有考虑附近多数类样本的分布情况,会合成很多噪声侵入到多数类样本空间中和ENN欠采样会造成数据集中分类信息丢失的缺陷。
[0006]为解决上述技术问题,本专利技术提供了一种联合混合采样和随机森林的语音样本均衡方法,包括:
[0007]S101:采集初始语音数据集,对所述初始语音数据集进行特征提取,获得提取后的语音数据特征集;
[0008]S102:利用过采样SMOTE分析所述语音数据特征集的少数类样本并根据所述少数类样本生成新的目标少数类样本,利用欠采样ENN分析所述目标少数类样本的最近邻样本和所述语音数据特征集中多数类样本的最近邻样本,根据所述目标少数类样本的最近邻样本和所述多数类样本的最近邻样本删除所述目标少数类样本和所述多数类样本,获得当前均衡的语音数据集;
[0009]S103:计算所述当前均衡语音数据集的信息增益率和基尼系数,利用双因子将所述当前均衡语音数据集的信息增益率和基尼系数线性组合,构建双因子随机森林模型;
[0010]S104:将所述当前均衡的语音数据集输入至所述双因子随机森林模型中,输出所述当前均衡的语音数据集在预设双因子条件下的分类评估指标和袋外错误分类率;
[0011]S105:判断所述分类评估指标是否收敛,若所述分类评估指标收敛,则输出所述当
前均衡的语音数据集;若所述分类评估指标发散,则根据所述袋外错误分类率更新所述过采样SMOTE的过采样率和所述欠采样ENN的欠采样率,返回执行所述步骤S102,直至所述分类评估指标收敛,输出所述当前均衡的语音数据集。
[0012]在本专利技术的一个实施例中,所述利用过采样SMOTE分析所述语音数据特征集的少数类样本并根据所述少数类样本生成新的目标少数类样本,利用欠采样ENN分析所述目标少数类样本的最近邻样本和所述语音数据特征集中多数类样本的最近邻样本,根据所述目标少数类样本的最近邻样本和所述多数类样本的最近邻样本删除所述目标少数类样本和所述多数类样本,获得当前均衡的语音数据集包括:
[0013]S201:利用所述过采样SMOTE分析所述少数类样本S
min
并根据所述少数类样本S
min
生成样本T
gen
,将所述样本T
gen
存储到少数类样本空间K
min
[]中;其中,所述样本T
gen
=count(K
min
);
[0014]S202:判断所述样本T
gen
是否小于所述过采样SMOTE需要生成样本的数量M
up
,若T
gen
<M
up
,则返回执行所述步骤S201,否则执行步骤S203;其中,M
up
=少数类样本S
min
×
过采样率N1;
[0015]S203:利用所述欠采样ENN分析所述样本T
gen
的最近邻样本和所述语音数据特征集中多数类样本S
maj
的最近邻样本,若所述样本T
gen
的最近邻样本存在k个及k个以上与所述样本T
gen
类别不同的样本,则删除K
min
[]中对应的所述样本T
gen
,若所述多数类样本S
maj
的最近邻样本存在k个及k个以上与所述多数类样本S
maj
类别不同的样本,则删除所述多数类样本S
maj
;其中,所述欠采样ENN删除的样本T
del
=T
gen
+S
maj

[0016]S204:判断所述欠采样ENN删除的样本T
del
是否小于所述欠采样ENN需要删除样本的数量M
down
,若T
del
<M
down
,则返回执行所述步骤S203,否则输出所述当前均衡的语音数据集;其中,M
down
=多数类样本S
maj
×
欠采样率N2。
[0017]在本专利技术的一个实施例中,所述利用过采样SMOTE分析所述少数类样本S
min
并根据所述少数类样本S
min
生成样本T
gen
包括:
[0018]在所述少数类样本S
min
中搜索k个最近邻样本S
min_i

[0019]假设所述过采样SMOTE生成的样本数量为M
up
,从所述S
min_i
中随机选择所述M
up
个样本,将所述M
up
个样本标记为S
min_1
,S
min_2
,......S
min_j

[0020]关联所述S
min_i
与所述S
min_j
,通过随机插值操作生成样本T
gen
=S
min_i
+rand(0,1)(S
min_j

S
min_i
);其中,rand(0,1)表示(0,1)区间内的一个随机数,i=1,2,......,k,j=1,2,......,M
up

[0021]在本专利技术的一个实施例中,所述若所述分类评估指标发散,则根据所述袋外错误分类率更新所述过采样SMOTE的过采样率和所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种联合混合采样和随机森林的语音样本均衡方法,其特征在于,包括:S101:采集初始语音数据集,对所述初始语音数据集进行特征提取,获得提取后的语音数据特征集;S102:利用过采样SMOTE分析所述语音数据特征集的少数类样本并根据所述少数类样本生成新的目标少数类样本,利用欠采样ENN分析所述目标少数类样本的最近邻样本和所述语音数据特征集中多数类样本的最近邻样本,根据所述目标少数类样本的最近邻样本和所述多数类样本的最近邻样本删除所述目标少数类样本和所述多数类样本,获得当前均衡的语音数据集;S103:计算所述当前均衡语音数据集的信息增益率和基尼系数,利用双因子将所述当前均衡语音数据集的信息增益率和基尼系数线性组合,构建双因子随机森林模型;S104:将所述当前均衡的语音数据集输入至所述双因子随机森林模型中,输出所述当前均衡的语音数据集在预设双因子条件下的分类评估指标和袋外错误分类率;S105:判断所述分类评估指标是否收敛,若所述分类评估指标收敛,则输出所述当前均衡的语音数据集;若所述分类评估指标发散,则根据所述袋外错误分类率更新所述过采样SMOTE的过采样率和所述欠采样ENN的欠采样率,返回执行所述步骤S102,直至所述分类评估指标收敛,输出所述当前均衡的语音数据集。2.根据权利要求1所述的方法,其特征在于,所述利用过采样SMOTE分析所述语音数据特征集的少数类样本并根据所述少数类样本生成新的目标少数类样本,利用欠采样ENN分析所述目标少数类样本的最近邻样本和所述语音数据特征集中多数类样本的最近邻样本,根据所述目标少数类样本的最近邻样本和所述多数类样本的最近邻样本删除所述目标少数类样本和所述多数类样本,获得当前均衡的语音数据集包括:S201:利用所述过采样SMOTE分析所述少数类样本S
min
并根据所述少数类样本S
min
生成样本T
gen
,将所述样本T
gen
存储到少数类样本空间K
min
[]中;其中,所述样本T
gen
=count(K
min
);S202:判断所述样本T
gen
是否小于所述过采样SMOTE需要生成样本的数量M
up
,若T
gen
<M
up
,则返回执行所述步骤S201,否则执行步骤S203;其中,M
up
=少数类样本S
min
×
过采样率N1;S203:利用所述欠采样ENN分析所述样本T
gen
的最近邻样本和所述语音数据特征集中多数类样本S
maj
的最近邻样本,若所述样本T
gen
的最近邻样本存在k个及k个以上与所述样本T
gen
类别不同的样本,则删除K
min
[]中对应的所述样本T
gen
,若所述多数类样本S
maj
的最近邻样本存在k个及k个以上与所述多数类样本S
maj
类别不同的样本,则删除所述多数类样本S
maj
;其中,所述欠采样ENN删除的样本T
del
=T
gen
+S
maj
;S204:判断所述欠采样ENN删除的样本T
del
是否小于所述欠采样ENN需要删除样本的数量M
down
,若T
del
<M
down
,则返回执行所述步骤S203,否则输出所述当前均衡的语音数据集;其中,M
down
=多数类样本S
maj
×
欠采样率N2。3.根据权利要求2所述的方法,其特征在于,所述利用过采样SMOTE分析所述少数类样本S
min
并根据所述少数类样本S
min
生成样本T
gen
包括:在所述少数类样本S
min
中搜索k个最近邻样本S
min_i
;假设所述过采样SMOTE生成的样本数量为M
up
,从所述S
min_i
中随机选择所述M
up
个样本,
将所述M
up
个样本标记为S
min_1
,S
min_2
,......S
min_j
;关联所述S
min_i
与所述S
min_j
,通过随机插值操作生成样本T
gen
=S
min_i
+rand(0,1)(S
min_j

S
min_i
);其中,rand(0,1)表示(0,1)区间内的一个随机数,i=1,2,......,k,j=1,2,......,M
up
。4.根据权利要求2所述的方法,其特征...

【专利技术属性】
技术研发人员:张晓俊周长伟朱欣程陶智赵鹤鸣
申请(专利权)人:苏州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1