一种基于i-vector说话人识别的声源定位方法技术

技术编号:13903341 阅读:85 留言:0更新日期:2016-10-26 00:42
本发明专利技术公开了一种基于i‑vector说话人识别的声源定位方法,该方法通过引入鉴别互相关函数的特征,得到鉴别互相关函数,将此特征分为训练集合测试集,对i‑vector说话人识别系统中的模型进行训练和测试,采用最大期望算法实现对开发集i‑vector向量分布概率函数的最大似然估计,建立起一个受语音时长约束的PLDA模型,能够准确地进行语音识别以及声源定位,这种算法的实现,有效地解决了传统声源定位中噪声和混响的问题。

【技术实现步骤摘要】

本专利技术涉及一种基于i-vector说话人识别的声源定位方法,属于互联网信息

技术介绍
说话人识别作为生物认证技术的一种,是根据应用语音波形中反映说话人生理和行为特征语音参数,自动鉴别说话人身份的一种技术。说话人识别是一种自动识别说话人的过程,它是人体个性特征识别中的重要分支,它是根据语音波形中反映说话人生理和行为特征的语音参数自动识别说话人身份的技术。随着信息技术的不断发展,与其他生物识别技术相比,说话人识别有着更为简便,经济及可扩展性良好等优势,可广泛应用于数据库访问、安全验证、电话银行、计算机远程登录等领域。说话人识别技术作为一项重要的生物特征身份鉴定技术,有着广泛的应用前景,国内外许多研究者都投身到了这一领域的研究中。近几年来,以身份认证矢量i-vector为基础的说话人建模技术取得了非常大的成功,使得说话人识别系统的性能有了很大的提升。基于身份认证矢量(identity vector,i-vector)的子空间建模被证明是目前最前沿最有效的说话人建模技术。随着计算机技术与信息产业的迅猛发展,声源定位已经成为当前研究的一个热点。确定一个声源在空间中的位置是一项很有广阔应用前景的研究,可广泛应用于社会生产和生活的各个方面。声源定位是通过测量物体发出的声音对物体定位,与使用声纳、雷达、无线通讯的定位方法不同,前者信号是普通的声音,是宽带信号,而后者信源是窄带信号。根据声音信号的特点,人们提出了不同的声源定位算法,但由于噪声和混响的存在,使得现有的声源定位算法的定位精度较低。当前声源定位算法大致可以分为3类:基于高分辨率谱估计的定位算法、基于时延估计(TDE:Time Delay Estimation)的定位算法和基于可控波束形成的定位算法。(1)基于高分辨率谱估计方法主要有4种:ARMA谱估计法、最小方差谱估计法、熵谱估计法和子空间法。ARMA谱估计法通过对平稳线性信号过程建立模型来估计功率谱密度。熵谱估计法包含最大熵法和最小交叉熵法两种。子空间法包括了Pisarenko谐波分解法、Prony法、多重信号分类(MUSIC:Multiple Signal Classification)法和基于旋转不变技术信号参数估计方法(ESPRIT:Estimation of Signal Parameters via Rotational Invariance Techniques)。基于高分辨率谱估计的定位算法都要利用接收信号的协方差矩阵,而信号的协方差矩阵在实际中是未知的,必须从观测数据中估计得到。估计信号的协方差矩阵,需要假定声源和噪声是统计平均的,且待估计的参数(声源位置)是固定不变的,在一定时间间隔内平均得到,而 语音是短时平稳信号,往往不能满足这个条件。目前的方法绝大多数是基于远场窄带信号设计的,在室内环境中的混响会使得这类算法的性能严重恶化。(2)基于时延估计的定位算法基于时延估计的算法分为两个步骤。第一步为时延估计,即计算声源到每两个麦克风之间的时延;第二步为位置估计,即根据时延和麦克风阵列的几何位置估计出声源的位置,其中时延估计(TDE)最为关键。广义互相关(GCC:Generalized Cross Correlation)时延估计法,通过计算不同麦克风接收信号之间的互相关函数,可以估计出达到时间差(TDOA:Time Difference Arrival)。但是在实际环境中,由于噪声和混响的影响,相关函数的最大峰会被弱化,造成峰值检测困难。广义互相关法通过对两个麦克风信号的互功率谱进行加权,使得相关函数在时延外的峰值更加突出。Knapp列举了五种常用的加权函数,其中最大似然加权的广义互相关法(GCC-ML:GCC using Maximum Likelihood)和相位变换(PHAT:Phase Transform)加权的广义互相关法(GCC-PHAT:GCC using Phase Transform)最为典型。计算复杂度低和易于实现的特点使得GCC方法得到了比较广泛的应用。(3)基于可控波束形成的定位算法基于可控波束形成的定位算法早期用于雷达和声纳系统的目标定位,后来被引入到麦克风阵列信号处理。麦克风阵波束形成技术在语音信号处理中主要有两个方面的应用:1)语音增强;2)声源定位。 当声源的位置已知时,调整每个麦克风的导引时延,可以使得每个麦克风的信号在时间上对齐,从而使得麦克风阵被到引导声源的位置,然后将每个麦克风的信号相加,达到抑制噪声、增强信号的目的。上述这种最简单实用的波束被称为延时-求和(delay-and-sum)波束形成。在强混响的环境下传统的算法受到了严重的限制。例如,基于最大输出功率可控波束对外界环境以及声源频率反映比较敏感,会限制应用场合;基于高分辨率谱估计技术的定位方法运算量极大且不适于近距离的定位;基于时延的定位方法的时延精度易受到混响和噪声干扰的影响。
技术实现思路
本专利技术目的在于解决了上述现有技术的不足,提出一种基于i-vector说话人识别的声源定位算法,该方法通过引入鉴别互相关函数的特征,得到鉴别互相关函数,将此特征分为训练集合测试集,对i-vector说话人识别系统中的模型进行训练和测试,采用最大期望(EM:expectation maximization)算法实现对开发集i-vector向量分布概率函数的最大似然估计,建立起一个受语音时长约束的PLDA模型,能够准确地进行语音识别以及声源定位,这种算法的实现,有效地解决了传统声源定位中噪声和混响的问题。本专利技术解决其技术问题所采取的技术方案是:一种基于i-vector说话人识别的声源定位算法,该方法包括训练阶段和定位阶段。其中,训练阶段的步骤如下:步骤1:声源位于每个训练位置ri,i=1,2,...K,麦克风阵记录下声源在该位置处发出的信号(混响信号);步骤2:利用记录下的混响信号,计算出互相关函数;步骤3:由互相关函数生成特征向量y;步骤4:对于每个训练位置ri,利用特征向量,计算出互相关函数PLDA模型的均值向量μ和固定维度的说话人子空间以及残差εij。定位阶段的步骤如下:步骤1:麦克风阵记录下信号,该信号包括声源发出的信号(混响信号)及噪声;步骤2:利用记录下的信号,计算出互相关函数;步骤3:由互相关函数生成特征向量y;如果有N帧数据,则生成一个特征向量集合y={yt,t=1,...N本文档来自技高网
...

【技术保护点】
一种基于i‑vector说话人识别的声源定位方法,其特征在于,所述方法包括如下步骤:步骤1:声源位于每个训练位置ri,i=1,2,...K,麦克风阵记录下声源在该位置处发出的信号;步骤2:利用记录下的混响信号,计算出互相关函数;步骤3:由互相关函数生成特征向量y;步骤4:对于每个训练位置ri,利用特征向量,计算出互相关函数PLDA模型的均值向量μ和固定维度的说话人子空间以及残差εij;步骤5:麦克风阵记录下信号,该信号包括声源发出的信号及噪声;步骤6:利用记录下的信号,计算出互相关函数;步骤7:由互相关函数生成特征向量y;如果有N帧数据,则生成一个特征向量集合y。步骤8:利用PLDA模型对特征进行测试,估计声源的位置。

【技术特征摘要】
1.一种基于i-vector说话人识别的声源定位方法,其特征在于,所述方法包括如下步骤:步骤1:声源位于每个训练位置ri,i=1,2,...K,麦克风阵记录下声源在该位置处发出的信号;步骤2:利用记录下的混响信号,计算出互相关函数;步骤3:由互相关函数生成特征向量y;步骤4:对于每个训练位置ri,利用特征向量,计算出互相关函数PLDA模型的均值向量μ和固定维度的说话人子空间以及残差εij;步骤5:麦克风阵记录下信号,该信号包括声源发出的信号及噪声;步骤6:利用记录下的信号,计算出互相关函数;步骤7:由互相关函数生成特征向量y;如果有N帧数据,则生成一个特征向量集合y。步骤8:利用PLDA模型对特征进行测试,估计声源的位置。2.根据权利要求1所述的一种基于i-vector说话人识别的声源定位算法,其特征在于,步骤2...

【专利技术属性】
技术研发人员:万新旺顾晓瑜杨悦廖鹏程
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1