面向语音通信的身份信息隐藏方法技术

技术编号:18897340 阅读:41 留言:0更新日期:2018-09-08 12:21
本发明专利技术公开了一种面向语音通信的身份信息隐藏方法,其按如下步骤进行:一、语音源建模;二、生成语音字典;三、采用身份信息隐藏算法将用户的语音转换成了与该用户差异最大的语音源的声音。通过建立N个说话人的语音库,并提取特征参数储存的方式,解决传统语音转换方法中需要对不同说话人建立不同转换函数的弊端。在本发明专利技术中,对于不同的用户,只需要少量语音数据就可以根据相似度选择转换函数,而不再需要重新训练转换函数即可实现身份信息隐藏,方便用户使用。

Identity information hiding method for voice communication

The invention discloses an identity information hiding method for voice communication, which is carried out in the following steps: first, modeling the voice source; second, generating the voice dictionary; third, using the identity information hiding algorithm to convert the user's voice into the voice of the most different voice source from the user. By building N speakers'voice database and extracting the way of storing feature parameters, the drawbacks of traditional voice conversion methods which need to establish different conversion functions for different speakers are solved. In the invention, for different users, only a small amount of voice data is needed to select the conversion function according to the similarity, and the identity information hiding can be realized without training the conversion function again, which is convenient for users to use.

【技术实现步骤摘要】
面向语音通信的身份信息隐藏方法
本专利技术属于信息安全
,具体涉及一种面向语音通信的身份信息隐藏方法。
技术介绍
说话人身份隐藏技术是指保持语言语义信息不变的情况下,改变说话人的个性特征,达到隐藏说话人身份的目的,在保密通信领域具有非常重要的应用。目前,在说话人身份隐藏技术中,常用的方法是通过改变语音的基频,达到变声的效果,但是这种方法语音的听觉质量较差。此外还有一种是通过语音转换技术,实现基频和声道谱同时转换,合成具有更高质量的语音,但是这种方式,需要获取大量源、目标说话人的对称语音数据(即语义内容相同的语音),建立语音的转换函数,不同的说话人需要建立不同的转换函数。在使用过程中,用户需要录制较多的语音数据,费时费力,在实际应用中使用不方便。
技术实现思路
针对现有技术存在的上述问题,本专利技术提出了一种面向语音通信的身份信息隐藏方法,其通过建立预训练的语音转换函数库,可以便捷、实时地进行说话人身份隐藏。为达到上述技术目的,本专利技术采取如下技术方案:一种面向语音通信的身份信息隐藏方法,其按如下步骤进行:一、说话人即语音源建模具体的,利用GMM对每个说话人即语音源的语音特征参数空间进行建模,它是用多个高斯分布的概率密度的组合来描述特征矢量在概率空间的分布状况,每个人对应一个GMM,即其中,x为d维特征矢量;ωm为混合权重,且满足为d维高斯函数,表示GMM模型的第m个高斯分量;μm表示该高斯分量的均值矢量;∑m表示协方差矩阵。整个高斯混合模型(GMM)由各混合分量的均值矢量、协方差矩阵以及混合权重来描述,用λ来表示该模型,有:λ={ωm,μm,∑m},m=1,2,...,M(3)模型参数λ是通过期望最大(ExpectationMaximization,EM)算法求得,假设语音特征参数空间是长度为T的矢量序列X={xt,t=1,2,...,T},则有:通过上述EM算法求解GMM模型参数,为每个说话人分别构建一个GMM模型。二、生成语音字典具体的,对语音库中的N个说话人,分别通过STRAIGHT模型进行信号建模,提取每帧语音的声道谱和基频,并从声道谱中求出梅尔倒谱系数(Mel-CepstralCoefficients,MCC)。声道谱参数用于生成语音字典和进行特征参数的转换,MCC参数用于动态时间规整(DynamicTimeWarping,DTW)和说话人特征参数空间的GMM建模。用DTW对N个说话人的MCC矢量序列进行时间对齐,再根据这些时间对齐信息,将N个说话人的声道谱特征参数矢量序列进行相应的时间对齐,然后在每个对齐的声道谱特征参数矢量序列的相同位置上随机地抽取出L个特征参数矢量。每个说话人分别用各自随机抽取的L个的声道谱特征参数矢量构成的字典,这样就获得了N个对称的字典,即{An,n=1,2,L,N}。同时对每个说话的基音频率进行统计分析,得到均值μ和方差σ。三、身份信息隐藏算法本专利技术由两部分构成,第一部分为对任意用户(源说话人)语音,分别计算在N个GMM模型下的概率,作为用户语音与库中任一说话人之间相似度度量指标,分别找到对应的N个概率值中最大和最小值,概率最大表明用户语音与语音库中的该说话人语音最相似,概率最小说明它们之间差异最为明显。这样就找到最相似的说话人i和差异最大的说话人j,在语音转换阶段,利用说话人i和j对应的语音字典通过NMF算法实现声道谱的转换,最后结合基频的均值方差转换合成目标语音。因此,整个过程就将用户的语音转换成了与他差异最大的说话人的声音,达到了说话人身份信息隐藏的目的。详细的算法过程如下。(1)建立包含N个说话人的语音库;(2)分别为每个说话人的特征参数矢量空间建立GMM模型,求得GMM模型参数,即可得到N个GMM模型。此处所采用的特征参数矢量是MCC参数。(3)分别为每个说话人确定语音字典和基频转换参数。利用上一步MCC参数,通过动态时间规整算法(DTW)对语音库中N个说话人的语音进行时间对齐;根据时间对齐信息,为N个说话人的STRAIGHT声道谱参数矢量序列进行规整对齐;在N个时间对齐的声道谱矢量序列中,分别随机抽取相同位置上的声道谱参数矢量构成语音字典,这样就建立N个说话人的对齐的语音字典并储存。同时,分别为语音库中每个说话人的基音频率进行统计,得到均值和方差。(4)对于任意的用户,获取一小段语音,并由STRAIGHT模型提取声道谱和基频,并通过声道谱得到MCC参数,然后分别计算MCC参数矢量序列在N个GMM模型下的概率,以用于用户语音和库中各个说话人之间语音相似度的判决,即:其中,T是MCC参数矢量序列的长度。(5)找出N个概率中的最大值所对应的说话人i和最小值所对应的说话人j,即:(6)找出对应存储的说话人i和说话人j的语音字典Ai和Aj以及他们的基频均值μi、μj和方差σi、σj。(7)由用户声道谱参数矢量序列S和说话人i的语音字典Ai通过非负矩阵分解算法(NMF)计算权值矩阵H。在S和Ai已知的情况下,通过最小化损失函数来估计权值矩阵H,即:H=argmin{dKL(S,AiH)+||εΛ1×L.*H||1}s.t.H≥0(11)其中,dKL(·)表示KL散度,||·||1表示L1范数,ε表示稀疏惩罚因子,Λ表示全1矩阵,L表示特征参数矢量维数。公式(11)可由NMF算法迭代求解H。(8)由说话人j的语音字典Aj与上一步求得的权值矩阵H获得合成目标语音谱;(9)基频转换利用统计的方法,通过上述说话人i和说话人j对应的基频均值μi、μj和方差σi、σj,得到转换后的基频为:其中,fx表示用户语音的基频,表示转换基频。(10)利用步骤(8)、(9)得到的目标频谱和转换基频通过STRAIGHT模型合成语音,从而使得用户的语音转换成了第j个说话人的声音,达到隐藏说话人身份信息的目的。本专利技术具有如下优点:(1)通过建立N个说话人的语音库,并提取特征参数储存的方式,解决传统语音转换方法中需要对不同说话人建立不同转换函数的弊端。在本专利技术中,对于不同的用户,只需要少量语音数据就可以根据相似度选择转换函数,而不再需要重新训练转换函数即可实现身份信息隐藏,方便用户使用。(2)通过GMM评分确定说话人差异性,结合构建语音字典,以这种说话人识别系统和语音转换系统相结合的方式,实现用户语音和相似语音字典的匹配,通过NMF算法实现语音转换,避免在用户使用过程中复杂的转换函数训练过程,极大的减少计算量,提高了系统的实时性。附图说明图1身份信息隐藏系统工作流程示意图。图2字典生成和基频建模框图。图3身份信息隐藏系统中声道谱转换流程框图。具体实施方式下面结合附图对本专利技术优选实施例作详细说明。本专利技术实施例一种面向语音通信的身份信息隐藏方法,其通过建立预训练的语音转换函数库,可以便捷、实时地进行说话人身份隐藏。在预训练阶段,从语音库中提取任意N个说话人的对称语音并用高斯混合模型(GaussianMixtureModel,GMM)为每个说话人语音的特征参数空间进行概率分布密度建模。同时,根据这N个说话人的对称语音,利用非负矩阵分解(Non-negativeMatrixFactorization,NMF)技术建立相应的N个对称语音字典。当用户使用系统时,仅需要少量的用户语音数据,计算在各个GM本文档来自技高网...

【技术保护点】
1.一种面向语音通信的身份信息隐藏方法,其特征是按如下步骤进行:一、语音源建模;二、生成语音字典;三、采用身份信息隐藏算法将用户的语音转换成了与该用户差异最大的语音源的声音。

【技术特征摘要】
1.一种面向语音通信的身份信息隐藏方法,其特征是按如下步骤进行:一、语音源建模;二、生成语音字典;三、采用身份信息隐藏算法将用户的语音转换成了与该用户差异最大的语音源的声音。2.如权利要求1所述面向语音通信的身份信息隐藏方法,其特征是:步骤一具体如下:利用GMM对每个说话人即语音源的语音特征参数空间进行建模,每个人对应一个GMM,即其中,x为d维特征矢量;ωm为混合权重,且满足Pm(x;μm,∑m)为d维高斯函数,表示GMM模型的第m个高斯分量;μm表示该高斯分量的均值矢量;∑m表示协方差矩阵;整个高斯混合模型用λ来表示:λ={ωm,μm,∑m},m=1,2,...,M(3)模型参数λ是通过期望最大算法求得,假设语音特征参数空间是长度为T的矢量序列X={xt,t=1,2,...,T},则有:通过上述算法求解GMM模型参数,为每一说话人构建一个GMM模型。3.如权利要求2所述面向语音通信的身份信息隐藏方法,其特征是:步骤二具体的如下:对语音库中的N个说话人,分别通过STRAIGHT模型进行信号建模,提取每帧语音的声道谱和基频,并从声道谱中求出梅尔倒谱系数;声道谱参数用于生成语音字典和进行特征参数的转换,MCC参数用于动态时间规整和说话人特征参数空间的GMM建模;用DTW对N个说话人的MCC矢量序列进行时间对齐,再根据这些时间对齐信息,将N个说话人的声道谱特征参数矢量序列进行相应的时间对齐,然后在每个对齐的声道谱特征参数矢量序列的相同位置上随机抽取L个特征参数矢量;每一说话人分别用各自随机抽取的L个的声道谱特征参数矢量构成的字典,获得N个对称的字典,即{An,n=1,2,L,N};同时对每一说话人的基音频率进行统计分析,得到均值μ和方差σ。4.如权利要求3所述面向语音通信的身份信息隐藏方法,其特征是:步骤三具体如下:(1)建立包含N个说话人的语音库;(2)分别为每个说话人的特征参数矢量空间建立GMM模型,求得...

【专利技术属性】
技术研发人员:简志华张石磊
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1