基于Top-k加强音频词袋模型的语音情感识别方法技术

技术编号:15062788 阅读:79 留言:0更新日期:2017-04-06 11:52
本发明专利技术公开了一种基于Top-k加强音频词袋模型的语音情感识别方法,其包括:确定语音情感数据库及其中的训练集和测试集,并提取每一语音样本的帧特征向量;接着,将训练集中所有语音样本的帧特征向量集合起来,通过聚类算法,得到聚类中心,并用聚类中心组成音频词字典;通过计算帧特征向量与码词之间的距离,得到对于训练集和测试集中语音样本的第一句特征向量;然后,对第一句特征向量进行特征选择,得到第二句特征向量;再基于训练集中语音样本的第二句特征向量来训练机器学习识别模型,并使用测试集中语音样本的第二句特征向量作为机器学习识别模型的输入,以得到语音情感识别结果。通过本发明专利技术实施例,提高了语音情感识别的识别精度。

【技术实现步骤摘要】

本专利技术实施例涉及机器学习建模
,具体涉及一种基于Top-k加强音频词袋模型的语音情感识别方法
技术介绍
语音是人和人之间交流的一种直接有效的方式,语音在形成的过程中会包含发音人的情感,例如高兴、生气、害怕,甚至中性(即,无明显情感流露)。语音情感识别,其目的是识别语音信号所属的情感类型。语音情感识别是人工智能领域的重点研究方向,对自然流畅的人机交互有良好的促进作用。通过对语音信号提取适宜的音频特征,对音频特征进行相应处理,再根据已训练完成的机器学习识别模型,可以最终识别出此语音信号所属的情感类型。特征提取和识别模型是语音情感识别任务中非常重要的部分。通过提取合适的特征向量来表征每一条语音样本,并基于良好的识别模型来识别每一条语音样本所属的情感类型。有鉴于此,特提出本专利技术。
技术实现思路
本专利技术实施例的主要目的在于提供一种基于Top-k加强音频词袋模型的语音情感识别方法,其至少部分地解决了如何提高语音情感识别的识别精度的技术问题。为了实现上述目的,根据本专利技术的一个方面,提供了以下技术方案:一种基于Top-k加强音频词袋模型的语音情感识别方法,所述方法包括:步骤a:确定语音情感数据库及其中的训练集和测试集,且分别对所述语音情感数据库中的每一语音样本进行加窗分帧,并在所述每一音频帧语音样本上提取帧特征向量;步骤b:将所述训练集中所有语音样本的帧特征向量集合起来,通过聚类算法,得到m个聚类中心,并用m个聚类中心组成音频词字典;其中,所述m取正整数,所述聚类中心与所述帧特征向量具有相同的维度;步骤c:对于所述训练集和所述测试集中的语音样本,基于所述Top-k加强音频词袋模型,通过计算所述语音样本中的帧特征向量与所述音频词字典中码词之间的距离,得到对于所述训练集和所述测试集中语音样本的第一句特征向量;其中,所述第一句特征向量的维度与所述音频词字典中的码词数量相同;步骤d:对所述第一句特征向量进行特征选择,得到第二句特征向量;步骤e:基于所述训练集中语音样本的第二句特征向量来训练机器学习识别模型,并使用所述测试集中语音样本的第二句特征向量作为所述训练后的机器学习识别模型的输入,以得到所述机器学习识别模型的语音情感识别结果;步骤f:重复步骤b至步骤e,确定适于所述语音情感识别任务的聚类中心的数量及所述Top-k加强音频词袋模型的k值,其中,k表示所述语音样本中的帧特征向量与所述音频词字典中码词之间距离最近的码词数量。与现有技术相比,上述技术方案至少具有以下有益效果:本专利技术实施例利用词袋模型在文本领域的计算统计特征,及词袋模型在语音领域的延伸应用,确定语音情感数据库及其中的训练集和测试集,且分别对语音情感数据库中的每一语音样本进行加窗分帧,并在每一音频帧语音样本上提取帧特征向量;接着,将训练集中所有语音样本的帧特征向量集合起来,通过聚类算法,得到m个聚类中心,并用m个聚类中心组成一个音频词字典;对于训练集和测试集中的语音样本,通过计算语音样本中的帧特征向量与音频词字典中码词之间的距离,得到对于训练集和测试集中语音样本的第一句特征向量;然后,对第一句特征向量进行特征选择,得到第二句特征向量;再基于训练集中语音样本的第二句特征向量来训练机器学习识别模型,并使用测试集中语音样本的第二句特征向量作为机器学习识别模型的输入,以得到机器学习识别模型的情感识别结果。本专利技术实施例通过采用Top-k加强音频词袋模型,使语音文件的原始帧特征向量在被音频词袋模型计算统计成句特征向量的过程中,解决了与语音情感相关的信息的丢失问题,使对语音文件进行全局表征的句特征向量能充分包含与情感相关的信息;从而提高语音情感识别的识别精度。当然,实施本专利技术的任一产品不一定需要同时实现以上所述的所有优点。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其它优点可通过在所写的说明书、权利要求书以及附图中所特别指出的方法来实现和获得。附图说明附图作为本专利技术的一部分,用来提供对本专利技术的进一步的理解,本专利技术的示意性实施例及其说明用于解释本专利技术,但不构成对本专利技术的不当限定。显然,下面描述中的附图仅仅是一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。在附图中:图1为根据一示例性实施例示出的基于Top-k加强音频词袋模型的语音情感识别方法的流程示意图;图2为根据另一示例性实施例示出的在每一音频帧语音样本上提取帧特征向量的流程示意图;图3为根据一示例性实施例示出的将训练集中所有语音样本的帧特征向量集合起来,通过聚类算法,得到聚类中心,并用聚类中心组成音频词字典的流程示意图;图4为根据一示例性实施例示出的对于训练集和测试集中的语音样本,通过计算语音样本中的帧特征向量与音频词字典中码词之间的距离,得到对于训练集和测试集中语音样本的第一句特征向量的流程示意图;图5为根据一示例性实施例示出的基于训练集中语音样本的第二句特征向量来训练机器学习识别模型,并使用测试集中语音样本的第二句特征向量作为训练后的机器学习识别模型的输入,以得到机器学习识别模型的情感识别结果的流程示意图。这些附图和文字描述并不旨在以任何方式限制本专利技术的构思范围,而是通过参考特定实施例为本领域技术人员说明本专利技术的概念。具体实施方式以下结合具体实施例,并参照实验附图,对本专利技术作进一步的详细说明。需明确,不同实施例及附图的相关详细说明不是意在把本专利技术限制在特殊的实施环境内,被详细解释说明的实施例仅是例证本专利技术的各个步骤。需要说明的是,在下面的描述中,为了方便理解,给出了许多具体细节。但是很明显,本专利技术的实现可以没有这些具体细节。需要说明的是,在没有明确限定或不冲突的情况下,本专利技术中的各个实施例及其中的技术特征可以相互组合而形成技术方案。现有语音情感识别在非相关特征干扰上存在问题。为了减少特征向量中对情感识别任务无用或有干扰的信息,使得句特征向量能更加准确的描述语音的情感信息,本专利技术实施例提出一种基于Top-k加强音频词袋模型的语音情感识别方法。如图1所示,该方法可以包括:步骤a至步骤f。其中:步骤a:确定语音情感数据库及其中的训练集和测试集,且分别对所述语音情感数据库中的每一语音样本进行加窗分帧,并在所述每一音频帧语音样本上提取帧特征向量。本专利技术实施例基于一个语音情感数据库。该语音情感数据库的语种、情感类型、采样频率都可以有不同的选择。优选地,本专利技术实施例选用柏林情感语料库,语种为德语,情感类型有7种,包括:生气、烦恼、厌恶、害怕、开心、和中性情感。中性情感用来标记无明显情感色彩的语音文件。语音情感数据库中语音文件的采样频率为16kHz。此外,语音情感数据库需要被分为训练集和测试集。如果语音情感数据库中未明确指出训练集和测试集的范围,则采用k折交叉验证方法得到训练集和测试集。优选地,k常取5或10。由于柏林情感语本文档来自技高网...

【技术保护点】
一种基于Top‑k加强音频词袋模型的语音情感识别方法,其特征在于,所述方法包括:步骤a:确定语音情感数据库及其中的训练集和测试集,且分别对所述语音情感数据库中的每一语音样本进行加窗分帧,并在所述每一音频帧语音样本上提取帧特征向量;步骤b:将所述训练集中所有语音样本的帧特征向量集合起来,通过聚类算法,得到m个聚类中心,并用m个聚类中心组成音频词字典;其中,所述m取正整数,所述聚类中心与所述帧特征向量具有相同的维度;步骤c:对于所述训练集和所述测试集中的语音样本,基于所述Top‑k加强音频词袋模型,通过计算所述语音样本中的帧特征向量与所述音频词字典中码词之间的距离,得到对于所述训练集和所述测试集中语音样本的第一句特征向量;其中,所述第一句特征向量的维度与所述音频词字典中的码词数量相同;步骤d:对所述第一句特征向量进行特征选择,得到第二句特征向量;步骤e:基于所述训练集中语音样本的第二句特征向量来训练机器学习识别模型,并使用所述测试集中语音样本的第二句特征向量作为训练后的机器学习识别模型的输入,以得到所述机器学习识别模型的语音情感识别结果;步骤f:重复步骤b至步骤e,确定适于所述语音情感识别任务的聚类中心的数量及所述Top‑k加强音频词袋模型的k值,其中,k表示所述语音样本中的帧特征向量与所述音频词字典中码词之间距离最近的码词数量。...

【技术特征摘要】
1.一种基于Top-k加强音频词袋模型的语音情感识别方法,其
特征在于,所述方法包括:
步骤a:确定语音情感数据库及其中的训练集和测试集,且分别
对所述语音情感数据库中的每一语音样本进行加窗分帧,并在所述每
一音频帧语音样本上提取帧特征向量;
步骤b:将所述训练集中所有语音样本的帧特征向量集合起来,
通过聚类算法,得到m个聚类中心,并用m个聚类中心组成音频词字
典;其中,所述m取正整数,所述聚类中心与所述帧特征向量具有相
同的维度;
步骤c:对于所述训练集和所述测试集中的语音样本,基于所述
Top-k加强音频词袋模型,通过计算所述语音样本中的帧特征向量与
所述音频词字典中码词之间的距离,得到对于所述训练集和所述测试
集中语音样本的第一句特征向量;其中,所述第一句特征向量的维度
与所述音频词字典中的码词数量相同;
步骤d:对所述第一句特征向量进行特征选择,得到第二句特征
向量;
步骤e:基于所述训练集中语音样本的第二句特征向量来训练机
器学习识别模型,并使用所述测试集中语音样本的第二句特征向量作
为训练后的机器学习识别模型的输入,以得到所述机器学习识别模型
的语音情感识别结果;
步骤f:重复步骤b至步骤e,确定适于所述语音情感识别任务
的聚类中心的数量及所述Top-k加强音频词袋模型的k值,其中,k

\t表示所述语音样本中的帧特征向量与所述音频词字典中码词之间距
离最近的码词数量。
2.根据权利要求1所述的方法,其特征在于,所述步骤a还包
括:如果所述语音情感数据库中未明确指出所述训练集和所述测...

【专利技术属性】
技术研发人员:刘文举梁雅萌
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1