本发明专利技术公开了一种基于情感数据场的连续语音情感预测算法,首先根据数据场理论,利用情感数据场中势函数建立不同语音情感特征向量之间的联系;其次,在短时间上选取多个语音情感特征向量,用群体智能算法在情感数据场中研究各语音情感特征向量的变化趋势,将这种变化趋势作为语音情感的识别结果。实验表明,本发明专利技术的方法可以有效的解决语音情感识别中存在的情感跟踪延迟问题并有效预测说话人情感的变化。
【技术实现步骤摘要】
一种基于情感数据场的连续语音情感预测方法
本专利技术涉及一种语音情感预测方法,特别涉及一种对情感变化连续语音的基于情感数据场的情感预测方法。
技术介绍
语音情感识别是人机智能化交互的一个重要研究领域,已有许多研究机构致力于该领域的研究。然而目前语音情感识别处理的对象往往局限于语料库中已分割好的短句,例如丹麦情感语音数据库(DES)、柏林情感语音数据库等,并且对语料库的语音情感识别已经能够获得比较高的识别率。但是在现实生活中,人们的情感表达和状态是一个连续变化的过程。实用语音情感识别系统要求处理的对象应该是未分割成短句的实时采集的连续情感语音。例如在电话服务中心,实用语音情感识别系统要能够预测和识别服务人员的情绪变化,预防对客户的不友好态度;航天、航空等特殊领域需要实时识别操作人员情感状态的变化,避免不必要的事故发生等。目前传统的语音情感识别方法都是孤立地考虑统计特征的情感特征向量,存在情感跟踪延迟或者不能及时识别情感的变化的问题,故无法实现对连续语音的情感预测。
技术实现思路
要解决的技术问题:针对现有技术的不足,本专利技术提出一种基于情感数据场的连续语音情感预测方法,解决现有技术的语音情感识别方法对连续语音的情感预测存跟踪延迟,无法实现对连续语音进行情感预测。技术方案:为解决上述技术问题,本专利技术采用以下技术方案:一种基于情感数据场的连续语音情感预测方法,获取训练样本的语音情感特征向量,利用语音情感特征向量作为数据构成情感数据场以形成语音情感特征空间,情感数据场中的势函数建立起不同语音情感特征向量之间的联系;在进行情感预测时,等间隔的对测试样本采集语音情感特征向量,判断语音情感是否发生变化,若未发生变化则返回重新获取下一时刻的语音情感特征向量并判断,若语音情感发生变化则等间隔的选取语音情感特征向量,利用TSP蚁群算法中的多个蚂蚁分别一一对应模拟选取出来的多个语音情感特征向量,利用TSP蚁群算法中的多个城市分别一一对应模拟多个语音情感的类型,在情感数据场中计算每种语音情感的类型在选取出来的多个情感特征向量处产生的势值大小,选择势值中最大的一个所对应的语音情感的类型即为预测语音情感变化后的情感类型。具体的,在本专利技术中,包括顺序执行的以下步骤:(1)、建立情感数据场首先求取训练样本中类属于各种情感类别的语音情感特征向量,将这些语音情感特征向量进行特征规范化后作为数据点构成情感数据场,其中类属于不同情感类别的数据点分布在情感数据场中不同的区域,然后建立情感数据场中的势函数,则情感数据场中任一语音情感特征向量x的位势即势函数值如下其中:D为与语音情感特征向量x类属于同一类情感的训练样本的集合;f(x,xi)=exp{-(x-xi)TΣ-1(x-xi)}其中,Σ表示训练样本的语音情感特征向量组成的协方差矩阵,Σ=E[x-E(x)][x-E(x)T];T表示转置矩阵;x表示待求位势的样本的语音情感特征向量;xi表示训练样本i的语音情感特征向量;(2)、利用情感数据场对情感变化的语音进行预测和识别步骤2-1、进行预测和识别时,依据已建立的情感数据场判别当前时刻的语音情感类型,将判断结果作为基本情感,基本情感的中心为ωi;步骤2-2、确定对测试样本的分析间隔,然后在预测和识别情感的时刻开始之前的1s或者2s内等间隔采集语音情感特征向量;步骤2-3、利用情感数据场判别语音情感是否发生变化,具体方法如下:当预测和识别情感的时刻,属于第i类情感的语音情感特征向量x满足x≥R(ωi,Di),则判断预测和识别情感的时刻的语音情感相对于基本情感发生语音情感变化,其中,上式中,表达式表示第i类情感的样本Di中位势值最小的样本点,表达式表示第i类情感的样本Di中距离基本情感的中心ωi最远样本点;步骤2-4、若判定为连续的语音情感,则返回步骤2-1;若判定为语音情感发生变化,则进入步骤2-5;步骤2-5、预测变化后的语音情感利用TSP蚁群算法中的蚂蚁模拟步骤2-2中采集到的语音情感特征向量,利用TSP蚁群算法中的城市模拟语音情感的类型,在情感数据场中根据式计算每种语音情感的类型在选取出来的语音情感特征向量处产生的势值大小,选择势值中最大的一个所对应的语音情感的类型即为预测语音情感变化后的情感类型。作为优选的,在本专利技术中,语音情感特征向量的求取过程包括以下步骤:首先提取基频、均方根短时能量、过零率、谐波信噪比以及1-12维LFPC系数共16个短时特征;然后求取这16个短时特征的一阶倒数;最后求取16个短时特征及其一阶倒数的统计量,所述统计量包括均值、最大值、最小值、方差、偏斜度、峭度、波动范围、线性回归系数的斜率、偏置及均方误差共10类,共得到320个语音情感特征向量。更进一步的,在本专利技术中,对320个语音情感特征向量的性能根据最大相关最小冗余算法进行等级排列,选择前10个语音情感特征向量并进行特征规范化后作为数据点构成情感数据场。有益效果:在本专利技术的方法中,通过情感数据场中的势函数建立起不同语音情感特征向量之间的联系,而非独立地研究单个语音情感特征向量,因此利用本专利技术的这种联系对应的情感空间模型更利于描述情感变化的相互关系;进一步的,由于情感变化的不确定性,根据本专利技术的计算模式得到多个情感特征向量,用群智能化的TSP蚁群算法模拟之,以达到避免情感跟踪延迟,并有效预测情感的目的。巧妙得的与群智能化的TSP蚁群算法相结合用以模拟多个语音情感特征向量,揭示情感的变化趋势,达到预测情感从而避免情感跟踪延迟的目的;实验证明,当语音情感识别对象是情感变化的语音时,本专利技术的预测方法较传统的识别方法如SVM、k-近邻法等能够更加有效地识别变化的情感,避免情感跟踪延迟,故本专利技术方法在连续语音情感识别领域中具有明显优势。附图说明图1为本专利技术方法的流程图;图2为本专利技术中5种基本情感识别率的混淆矩阵;图3为识别变化的语音情感时传统方法对情感特征向量的计算模式;图4为识别变化的语音情感时本专利技术方法对情感特征向量的计算模式;图5为5种基本情感发生改变时的相互变化情况。具体实施方式下面结合附图对本专利技术作更进一步的说明。本专利技术在实施过程中,首先从东南大学情感语料库中选取6000条语句,这些语句涵盖了包括害怕、愤怒、喜悦、平静及悲伤共5种情感状态。实验时,对这6000条语句按2:1随机分成训练集和测试集,即4000条语句为训练样本,另外2000条语句为测试样本。如图1所示,本专利技术的方法中主要由以下几大功能模块组成:语音情感特征向量的选取、情感数据场的建立、连续语音的分割、语音情感变化的判定、群智能化多情感特征向量和预测语音情感。下面具体介绍本专利技术方法的实现过程的各个模块。1、建立情感数据场(1)语音情感特征向量的选取现有的研究表明,说话人情感发生变化时,语音的韵律特征和音质特征也会发生相应的变化。其中,韵律特征主要包括基频、均方根短时能量、过零率。音质特征包括谐波信噪比及Mel频率倒谱系数(MelFrequencyCepstrumCoefficient,简称MFCC)、对数频率功率系数(LogFrequencyPowerCoefficients,简称LFPC)等。还有研究表明,LFPC系数作为特征参数时,较MFCC系数、线性预测倒谱系数(LinearPredictiv本文档来自技高网...
【技术保护点】
一种基于情感数据场的连续语音情感预测算法,其特征在于:获取训练样本的语音情感特征向量,利用语音情感特征向量作为数据构成情感数据场以形成语音情感特征空间,情感数据场中的势函数建立起不同语音情感特征向量之间的联系;在进行情感预测时,等间隔的对测试样本采集语音情感特征向量,判断语音情感是否发生变化,若未发生变化则返回重新获取下一时刻的语音情感特征向量并判断,若语音情感发生变化则等间隔的选取语音情感特征向量,利用TSP蚁群算法中的多个蚂蚁分别一一对应模拟选取出来的多个语音情感特征向量,利用TSP蚁群算法中的多个城市分别一一对应模拟多个语音情感的类型,在情感数据场中计算每种语音情感的类型在选取出来的多个情感特征向量处产生的势值大小,选择势值中最大的一个所对应的语音情感的类型即为预测语音情感变化后的情感类型。
【技术特征摘要】
1.一种基于情感数据场的连续语音情感预测方法,其特征在于:获取训练样本的语音情感特征向量,利用语音情感特征向量作为数据构成情感数据场以形成语音情感特征空间,情感数据场中的势函数建立起不同语音情感特征向量之间的联系;在进行情感预测时,等间隔的对测试样本采集语音情感特征向量,判断语音情感是否发生变化,若未发生变化则返回重新获取下一时刻的语音情感特征向量并判断,若语音情感发生变化则等间隔的选取语音情感特征向量,利用TSP蚁群算法中的多个蚂蚁分别一一对应模拟选取出来的多个语音情感特征向量,利用TSP蚁群算法中的多个城市分别一一对应模拟多个语音情感的类型,在情感数据场中计算每种语音情感的类型在选取出来的多个情感特征向量处产生的势值大小,选择势值中最大的一个所对应的语音情感的类型即为预测语音情感变化后的情感类型。2.根据权利要求1所述的一种基于情感数据场的连续语音情感预测方法,其特征在于:包括顺序执行的以下步骤:(1)、建立情感数据场首先求取训练样本中属于各种情感类别的语音情感特征向量,将这些语音情感特征向量进行特征规范化后作为数据点构成情感数据场,其中属于不同情感类别的数据点分布在情感数据场中不同的区域,然后建立情感数据场中的势函数,则情感数据场中任一语音情感特征向量x的位势即势函数值如下式中D表示同类情感训练样本的语音情感特征向量的集合;f(x,xi)=exp{-(x-xi)TΣ-1(x-xi)}其中:Σ表示训练样本的语音情感特征向量组成的协方差矩阵,Σ=E[x-E(x)][x-E(x)T];T表示转置矩阵;x表示待求位势的样本的语音情感特征向量;xi表示训练样本i的语音情感特征向量;(2)、利用情感数据场对情感变化的语音进行预测和识别步骤2-1、进行预测和识别时,依据已建立的情感数据场判别当前时刻的语音情感类型,将判断结果作为基本情感,基本情感的中心为ωi;步骤2-2、确定对测试样本的分析间隔,然后在预测和识别情感的时刻开始之前的...
【专利技术属性】
技术研发人员:查诚,黄程韦,赵力,
申请(专利权)人:东南大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。