一种基于特征交叉与融合特征选择的分类方法及装置制造方法及图纸

技术编号：43745722 阅读：25 留言：0更新日期：2024-12-20 13:05

本发明专利技术涉及一种基于特征交叉与融合特征选择的分类方法及装置。所述方法包括：构建包括若干条语音数据及标签的数据集；从每条语音数据中提取特征数据并据此构建拼接二维矩阵；根据标签对拼接二维矩阵依次进行第一次融合特征选择、自适应特征交叉、第二次融合特征选择得到待分类数据并将待分类数据划分为训练集与测试集；所述自适应特征交叉为：若特征间线性相关系数大于阈值则先非线性变换再特征交叉，否则直接进行特征交叉；将训练集与标签输入分类学习器，得到训练好的分类学习器；将测试集输入训练好的分类学习器中得到分类结果。所述装置实现了所述方法。本发明专利技术使用两次融合特征选择，改善了特征交叉时维度爆炸问题，具有较好的分类鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于机器学习领域，具体涉及一种基于特征交叉与融合特征选择的分类方法及装置。

技术介绍

1、时间序列是表示随时间延伸采集的一类信号，该类信号具有时间顺序特性，是按时间排序的数据点。时间序列分析既包含对过去数据的诊断，也包括未来数据的预测。许多应用都对时间序列的发展起到了重要贡献。典型应用有：医学、天气、经济学及天文学等方面。典型的时间序列分析方法，包括：基于统计学的方法、基于机器学习的方法以及集成方法。在使用机器学习进行分类的应用中，尤其在处理时间序列数据时具有显著优势。这类数据广泛存在于能源、金融及健康等多方面应用，如电力负荷、股票价格走势、心电图及语音等信号。通过时序序列分类，对未来趋势预测、对异常情况检测，进而做出更明智的决策。语音分类作为听觉通道的类别学习，能帮助个体迅速识别、判断声音刺激，具有特殊的生存意义。

2、使用何种特征提取与特征选择是影响最终效果的重要因素。因此，探索新的特征提取与特征选择长期以来都是机器学习领域中的研究热点。在特征提取方面，为了能提取数据中的深层特征，常常采用二次特征提取方法，包括：先提取特征再对提取的特征进行特征交叉或者提取完特征后，再对特征进行二次提取、升维或降维操作。所述特征交叉，包括显式特征交叉和隐式特征交叉。隐式特征交叉通常采用深度神经网络实现特征交叉，此种方法复杂度高。显式特征交叉通常基于已有特征的线性变换，如内积、笛卡尔积等，该种特征交叉对非线性模型的拟合度欠佳，一次只能对两类特征使用固定的特征交叉方法进行交叉，无法根据已有特征的特点自适应选择最佳交叉方法且交

技术实现思路

1、本专利技术的目的在于针对现有显示特征交叉方法难以拟合非线性模型、每次交叉的特征类型数有限、自适应性差、不保留原有特征以及单一特征选择导致分类准确率低的缺陷，提出了一种基于特征交叉与融合特征选择的分类方法及装置，所述方法，首先对受试者的语音信号进行采集，利用采集到的语音数据提取多种特征数据，所述多种特征数据在全部拼接后进行第一次融合特征选择得到第一次选择后数据，所述第一次选择后数据进行自适应特征交叉得到交叉后特征数据，所述交叉后特征数据在进行第二次融合特征选择后得到的待分类数据用于机器学习，通过机器学习最终得到能够对输入语音数据进行分类；所述分类装置用于实现基于特征交叉与融合特征选择的分类。

2、为了达到上述目的，本专利技术采取以下技术方案：

3、作为本专利技术的第一方面，提出了一种基于特征交叉与融合特征选择的分类装置，包括语音采集模块、特征提取模块、第一融合特征选择模块、自适应特征交叉模块、第二融合特征选择模块及模型训练模块；

4、所述语音采集模块与特征提取模块相连，所述特征提取模块与第一融合特征选择模块相连，所述第一融合特征选择模块与自适应特征交叉模块相连，所述自适应特征交叉模块与第二融合特征选择模块相连，所述第二融合特征选择模块与模型训练模块相连；

5、所述语音采集模块将语音信号进行数模转换成语音数据传递给特征提取模块；所述特征提取模块对语音数据提取多种特征，将得到的多种特征数据传递给第一融合特征选择模块；所述第一融合特征选择模块对特征数据选择预定数量的特征，将得到的第一次选择后数据传递给自适应特征交叉模块；所述自适应特征交叉模块对第一次选择后数据进行自适应特征交叉，将得到的交叉后特征数据传递给第二融合特征选择模块；所述第二融合特征选择模块对交叉后特征数据选择预定数量的特征，将得到的待分类数据传递给模型训练模块；所述模型训练模块利用上述待分类数据进行模型训练，最终导出训练准确率最高的分类模型；

6、所述语音采集模块，包括麦克风及模数转换器；

7、所述语音采集模块中的麦克风用于采集语音，所述麦克风采集的语音经过模数转换器进行模数转换为语音数据传递给特征提取模块；

8、所述特征提取模块，包括小波特征提取单元、滤波特征提取单元、熵特征提取单元；

9、所述小波特征提取单元的数量为w，所述w大于等于2；

10、所述滤波特征提取单元的数量为f，所述f大于等于1；

11、所述熵特征提取单元的数量为e，所述e大于等于1；

12、所述特征提取模块，接收上述语音数据，上述三种特征提取单元并行运行，分别提取得到w组小波特征、f组滤波特征及e组熵特征的特征数据；

13、所述w组小波特征、f组滤波特征以及e组熵特征的特征数据被传递给第一融合特征选择模块；

14、所述第一融合特征选择模块，包括第一平均mic计算单元、第一特征选择单元及第一特征补充单元；

15、所述第一特征选择单元的数量为c1，所述c1大于等于2；

16、所述第一融合特征选择模块，接收上述特征数据，利用第一平均mic计算单元计算特征与来自医生判断的标签、特征与其他特征的平均mic，根据此mic上述c1个第一特征选择单元并行运行，选择出c1类相应数量的特征，第一特征补充单元根据上述c1类特征取并集后的数量与希望保留的特征数量差补充特征，得到第一次选择后数据并传递给自适应特征交叉模块；

17、所述自适应特征交叉模块，包括线性相关系数计算单元、非线性变换单元、克罗内克积单元；

18、所述自适应特征交叉模块，接收上述第一次选择后数据，利用线性相关系数计算单元计算特征间平均线性相关系数，判断此线性相关系数是否大于等于阈值s，若否，即小于阈值s，则将第一次选择后数据作为输入数据传递给克罗内克积单元；若是，即大于等于阈值s,则将第一次选择后数据经非线性变换单元后再作为输入数据传递给克罗内克积单元。克罗内克积单元对所述输入数据与第一次选择后数据求克罗内克积，得到交叉后特征数据并传递给第二次特征选择模块；

19、所述阈值s的取值范围为0≤s≤1；

20、所述第二特征选择模块，包括第二平均mic计算单元、第二特征选择单元及第二特征补充单元；

21、所述第一特征选择单元的数量为c2，所述c2大于等于2；

22、所述第二特征选择模块，接收上述交叉后特征数据，利用第二平均mic计算单元计算特征与标签、特征与其他特征的平均mic，根据此mic上述c2个第二特征选择单元并行运行，选择出c2类相应数量的特征，第二特征补充单元根据上述c2类特征取并集后的数量与希望保留的特征数量差补充特征，得到待分类数据并传递给模型训练模块；

23、所述模型训练模块，包括若干分类模型；

24、所述模型训练模块，接收上述待分类数据后放入若干分类模型中进行训练，将训练准确率最高的模型作为模型训练模块的输出。

25、作为本专利技术的第二方面，提出了一种基于特征交叉与融合特征选择的分类方法，包括如下步骤：

<本文档来自技高网...

【技术保护点】

1.一种基于特征交叉与融合特征选择的分类装置，其特征在于，包括语音采集模块、特征提取模块、第一融合特征选择模块、自适应特征交叉模块、第二融合特征选择模块及模型训练模块；

2.根据权利要求1所述的一种基于特征交叉与融合特征选择的分类装置，其特征在于，所述特征提取模块，包括小波特征提取单元、滤波特征提取单元、熵特征提取单元；所述语音采集模块，包括麦克风及模数转换器；所述语音采集模块中的麦克风用于采集语音，所述麦克风采集的语音经过模数转换器进行模数转换为语音数据传递给特征提取模块。

3.根据权利要求1所述的一种基于特征交叉与融合特征选择的分类装置，其特征在于，所述特征提取模块，接收所述语音数据，所述特征提取单元并行运行，分别提取得到W组小波特征、F组滤波特征及E组熵特征的特征数据；

4.根据权利要求1所述的一种基于特征交叉与融合特征选择的分类装置，其特征在于，所述第一融合特征选择模块，包括第一平均MIC计算单元、第一特征选择单元及第一特征补充单元；

5.根据权利要求1所述的一种基于特征交叉与融合特征选择的分类装置，其特征在于，所述自适应特

6.根据权利要求1所述的一种基于特征交叉与融合特征选择的分类装置，其特征在于，所述第二特征选择模块，包括第二平均MIC计算单元、第二特征选择单元及第二特征补充单元；

7.一种基于特征交叉与融合特征选择的分类方法，其特征在于，包括：

8.根据权利要求7所述一种基于特征交叉与融合特征选择的分类方法，其特征在于，所述第一次融合特征选择或第二次融合特征选择，具体为：

9.跟据权利要求8所述一种基于特征交叉与融合特征选择的分类方法，其特征在于，S1所述语音数据的条数为X；X的取值范围为2≤X；

10.跟据权利要求7所述一种基于特征交叉与融合特征选择的分类方法，其特征在于，S5具体为：S51、计算第一次选择数据的每两列特征数据之间的线性相关系数后计算所有线性相关系数的均值；

...

【技术特征摘要】

3.根据权利要求1所述的一种基于特征交叉与融合特征选择的分类装置，其特征在于，所述特征提取模块，接收所述语音数据，所述特征提取单元并行运行，分别提取得到w组小波特征、f组滤波特征及e组熵特征的特征数据；

4.根据权利要求1所述的一种基于特征交叉与融合特征选择的分类装置，其特征在于，所述第一融合特征选择模块，包括第一平均mic计算单元、第一特征选择单元及第一特...

【专利技术属性】
技术研发人员：冯立辉，李兆军，刘海宽，高捷，唐星泽，卢继华，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人