基于Top-k加强音频词袋模型的语音情感识别方法技术

技术编号：15062788 阅读：89 留言：0更新日期：2017-04-06 11:52

本发明专利技术公开了一种基于Top-k加强音频词袋模型的语音情感识别方法，其包括：确定语音情感数据库及其中的训练集和测试集，并提取每一语音样本的帧特征向量；接着，将训练集中所有语音样本的帧特征向量集合起来，通过聚类算法，得到聚类中心，并用聚类中心组成音频词字典；通过计算帧特征向量与码词之间的距离，得到对于训练集和测试集中语音样本的第一句特征向量；然后，对第一句特征向量进行特征选择，得到第二句特征向量；再基于训练集中语音样本的第二句特征向量来训练机器学习识别模型，并使用测试集中语音样本的第二句特征向量作为机器学习识别模型的输入，以得到语音情感识别结果。通过本发明专利技术实施例，提高了语音情感识别的识别精度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术实施例涉及机器学习建模
，具体涉及一种基于Top-k加强音频词袋模型的语音情感识别方法。
技术介绍
语音是人和人之间交流的一种直接有效的方式，语音在形成的过程中会包含发音人的情感，例如高兴、生气、害怕，甚至中性(即，无明显情感流露)。语音情感识别，其目的是识别语音信号所属的情感类型。语音情感识别是人工智能领域的重点研究方向，对自然流畅的人机交互有良好的促进作用。通过对语音信号提取适宜的音频特征，对音频特征进行相应处理，再根据已训练完成的机器学习识别模型，可以最终识别出此语音信号所属的情感类型。特征提取和识别模型是语音情感识别任务中非常重要的部分。通过提取合适的特征向量来表征每一条语音样本，并基于良好的识别模型来识别每一条语音样本所属的情感类型。有鉴于此，特提出本专利技术。
技术实现思路
本专利技术实施例的主要目的在于提供一种基于Top-k加强音频词袋模型的语音情感识别方法，其至少部分地解决了如何提高语音情感识别的识别精度的技术问题。为了实现上述目的，根据本专利技术的一个方面，提供了以下技术方案：一种基于Top-k加强音频词袋模型的语音情感识别方法，所述方法包括：步骤a：确定语音情感数据库及其中的训练集和测试集，且分别对所述语音情感数据库中的每一语音样本进行加窗分帧，并在所述每一音频帧语音样本上提取帧特征向量；步骤b：将所述训练集中所有语音样本的帧特征向量集合起来，通过聚类算法，得到m个聚类中心，并用m个聚类中心组成音频词字典；其中，所述m取正整数，所述聚类...

【技术保护点】
一种基于Top‑k加强音频词袋模型的语音情感识别方法，其特征在于，所述方法包括：步骤a：确定语音情感数据库及其中的训练集和测试集，且分别对所述语音情感数据库中的每一语音样本进行加窗分帧，并在所述每一音频帧语音样本上提取帧特征向量；步骤b：将所述训练集中所有语音样本的帧特征向量集合起来，通过聚类算法，得到m个聚类中心，并用m个聚类中心组成音频词字典；其中，所述m取正整数，所述聚类中心与所述帧特征向量具有相同的维度；步骤c：对于所述训练集和所述测试集中的语音样本，基于所述Top‑k加强音频词袋模型，通过计算所述语音样本中的帧特征向量与所述音频词字典中码词之间的距离，得到对于所述训练集和所述测试集中语音样本的第一句特征向量；其中，所述第一句特征向量的维度与所述音频词字典中的码词数量相同；步骤d：对所述第一句特征向量进行特征选择，得到第二句特征向量；步骤e：基于所述训练集中语音样本的第二句特征向量来训练机器学习识别模型，并使用所述测试集中语音样本的第二句特征向量作为训练后的机器学习识别模型的输入，以得到所述机器学习识别模型的语音情感识别结果；步骤f：重复步骤b至步骤e，确定适于所述语音情感识别...

【技术特征摘要】
1.一种基于Top-k加强音频词袋模型的语音情感识别方法，其
特征在于，所述方法包括：
步骤a：确定语音情感数据库及其中的训练集和测试集，且分别
对所述语音情感数据库中的每一语音样本进行加窗分帧，并在所述每
一音频帧语音样本上提取帧特征向量；
步骤b：将所述训练集中所有语音样本的帧特征向量集合起来，
通过聚类算法，得到m个聚类中心，并用m个聚类中心组成音频词字
典；其中，所述m取正整数，所述聚类中心与所述帧特征向量具有相
同的维度；
步骤c：对于所述训练集和所述测试集中的语音样本，基于所述
Top-k加强音频词袋模型，通过计算所述语音样本中的帧特征向量与
所述音频词字典中码词之间的距离，得到对于所述训练集和所述测试
集中语音样本的第一句特征向量；其中，所述第一句特征向量的维度
与所述音频词字典中的码词数量相同；
步骤d：对所述第一句特征向量进行特征选择，得到第二句特征
向量；
步骤e：基于所述训练集中语音样本的第二句特征向量来训练机
器学习识别模型，并使用所述测试集中语音样本的第二句特征向量作
为训练后的机器学习识别模型的输入，以得到所述机器学习识别模型
的语音情感识别结果；
步骤f：重复步骤b至步骤e，确定适于所述语音情感识别任务
的聚类中心的数量及所述Top-k加强音频词袋模型的k值，其中，k

\t表示所述语音样本中的帧特征向量与所述音频词字典中码词之间距
离最近的码词数量。
2.根据权利要求1所述的方法，其特征在于，所述步骤a还包
括：如果所述语音情感数据库中未明确指出所述训练集和所述测...

【专利技术属性】
技术研发人员：刘文举，梁雅萌，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人