当前位置: 首页 > 专利查询>清华大学专利>正文

一种分布式麦克风的说话人聚类方法技术

技术编号:5341959 阅读:307 留言:0更新日期:2012-04-11 18:40
一种分布式麦克风的说话人聚类方法,先对分布式麦克风采集的信号进行预处理,再对声源信号片段采用时延估计法计算,得到对应的时延估计向量,然后排除错误数据并进行说话人分割,最后根据说话人分割的结果进行说话人聚类,本发明专利技术以分布式麦克风作为信号采集和输出设备,计算语音信号片段的时延向量,通过排除错误数据提高时延估计精度,对时延向量采用聚类算法将语音信号片段按说话人身份分别归类,设备价格低廉,具有使用方便的优势,可应用于复杂声学环境下的多人多方对话场景。

【技术实现步骤摘要】

本专利技术属于语音
,具体地涉及。
技术介绍
随着网络和通讯技术的不断发展,利用现有的多媒体技术、网络与通讯技术、分布 式处理技术等可以实现复杂声学环境场景下的多人多方对话。传统声源输入和录音设备 包括头戴式麦克风、全向性和方向性单麦克风、麦克风阵列等。单麦克风作为传统声源输 入和录音设备,具有体积小、价格低廉等优点,但不具备对环境噪声处理以及声源定位的能 力;麦克风阵列由多个按照特定几何位置摆放的麦克风组成,对空间信号进行时空域联合 处理,其能力包括辨识与分离声源、混响条件下的声源定位、增强语音信号等。分布式麦克风是由多个单麦克风组成的声音信号采集系统,各个麦克风由不同设 备控制,对麦克风的排列和间距没有任何限制,麦克风采集的信号在时间域不完全同步。分 布式麦克风结构简单、使用方便、节约成本,符合多声源多方向复杂对话场景的要求,可有 效地完成说话人聚类、识别及定位等多种应用。与麦克风阵列系统不同的是,分布式麦克风 对麦克风的位置和摆放没有任何约束和限制,此外分布式麦克风系统中的声源和麦克风位 置信息未知。对声音信息进行自动分类是语音信号处理领域的研究课题之一,说话人分割 (Speaker Segmentation)和说话人聚类(Speaker Clustering)是其中的重要组成部分。 通常的方法是说话人分割将整个测试语音分割成一系列语音片段,这些语音片段只属于 某一特定说话人;说话人聚类负责将分散的同属于一个说话人的语音归为一类。传统的说话人分割方法基本以高斯模型的窗移统计法为基础,采用不同的距离测 度选择,通过基于贝叶斯的信息准则进行融合得到分割点。说话人聚类方法可以采用进化 隐马尔科夫(EHMM)计算方法,通过衡量路径分数更新分割结果。当说话人数目不限定时, 可以采用分级聚类的方法进行说话人聚类。麦克风阵列的说话人聚类方法主要利用说话人的空间位置差异进行分类。主要原 理为将时延估计向量作为说话人的空间特征,在GMM/HMM(高斯混合模型/隐马尔可夫模 型)模型中对这些特征进行整合和分类。麦克风阵列的时延估计算法主要包括GCC(广义 互相关)方法和LMS (最小均方误差)方法。GCC(广义互相关)受混响影响比较严重,改 进后产生了 CEP (倒谱预滤波)方法和基音加权的GCC(广义互相关)方法,EVD (特征值分 解)和基于ATF(声学传递函数)的时延估计方法则分别利用子空间的技术和传递函数比 来求解。但是麦克风阵列系统计算时对各个设备之间采样的误差敏感,因此对音频数据同 步性要求十分严格;而普通的多人多方会议场景中声源个数未知、麦克风位置未知、房间声 学环境未知,即需要在时间和空间先验信息均缺失的场景下对声音数据进行处理。作为传统声源输入和录音设备的单麦克风,价格低廉、结构简单,缺点是易受环境 干扰,且不能对声源进行定位;传统麦克风阵列系统已被广泛研究,没有商用化的主要原因 是专用硬件价格昂贵以及算法复杂度较高。
技术实现思路
为了克服上述现有技术的缺点,本专利技术的目的在于提出一种分布式麦克风的说话 人聚类方法,以分布式麦克风作为信号采集和输出设备,计算语音信号片段的时延向量,通 过排除错误数据提高时延估计精度,对时延向量采用聚类算法将语音信号片段按说话人身 份分别归类,设备价格低廉,具有使用方便的优势,可应用于复杂声学环境下的多人多方对 话场景。,包括以下步骤第一步,对分布式麦克风采集的信号进行预处理首先对分布式麦克风获得的多路声源信号进行预处理,先对多路声源信号分帧及 进行快速傅立叶变换(FFT)变换,然后对多路声源信号进行端点检测,将信号分为声源信 号和非声源信号两类,端点检测的目的在于从数字语音信号中区分出语音信号和非语音信 号,语音端点检测方法可采用子带频谱熵算法,首先将每帧语音的频谱划分成η (η为大于 零的整数)子带,计算出每个子带的频谱熵,然后把相继η帧的子带频谱熵经过一组顺序统 计滤波器获得每帧的频谱熵,根据频谱熵的值对输入的语音进行分类,具体步骤为将每帧 的语音信号经过快速傅立叶变换(FFT)之后得到它在功率谱上的Nfft个点Yi (0彡i彡Nfft), 每个点在频谱域上的概率密度可用公式(1)表示权利要求1. ,其特征在于包括以下步骤 第一步,对分布式麦克风采集的信号进行预处理首先对分布式麦克风获得的多路声源信号进行预处理,先对多路声源信号分帧及进行 快速傅立叶变换(FFT)变换,然后对多路声源信号进行端点检测,将信号分为声源信号和 非声源信号两类,端点检测的目的在于从数字语音信号中区分出语音信号和非语音信号, 语音端点检测方法可采用子带频谱熵算法,首先将每帧语音的频谱划分成η (η为大于零的 整数)子带,计算出每个子带的频谱熵,然后把相继η帧的子带频谱熵经过一组顺序统计滤 波器获得每帧的频谱熵,根据频谱熵的值对输入的语音进行分类,具体步骤为将每帧的语 音信号经过快速傅立叶变换(FFT)之后得到它在功率谱上的Nfft个点Yi (0彡i彡Nfft),每 个点在频谱域上的概率密度可用公式(1)表示全文摘要,先对分布式麦克风采集的信号进行预处理,再对声源信号片段采用时延估计法计算,得到对应的时延估计向量,然后排除错误数据并进行说话人分割,最后根据说话人分割的结果进行说话人聚类,本专利技术以分布式麦克风作为信号采集和输出设备,计算语音信号片段的时延向量,通过排除错误数据提高时延估计精度,对时延向量采用聚类算法将语音信号片段按说话人身份分别归类,设备价格低廉,具有使用方便的优势,可应用于复杂声学环境下的多人多方对话场景。文档编号G10L15/08GK102074236SQ20101056838公开日2011年5月25日 申请日期2010年11月29日 优先权日2010年11月29日专利技术者刘加, 杨毅 申请人:清华大学本文档来自技高网
...

【技术保护点】
一种分布式麦克风的说话人聚类方法,其特征在于:包括以下步骤:第一步,对分布式麦克风采集的信号进行预处理首先对分布式麦克风获得的多路声源信号进行预处理,先对多路声源信号分帧及进行快速傅立叶变换(FFT)变换,然后对多路声源信号进行端点检测,将信号分为声源信号和非声源信号两类,端点检测的目的在于从数字语音信号中区分出语音信号和非语音信号,语音端点检测方法可采用子带频谱熵算法,首先将每帧语音的频谱划分成n(n为大于零的整数)子带,计算出每个子带的频谱熵,然后把相继n帧的子带频谱熵经过一组顺序统计滤波器获得每帧的频谱熵,根据频谱熵的值对输入的语音进行分类,具体步骤为:将每帧的语音信号经过快速傅立叶变换(FFT)之后得到它在功率谱上的N↓[FFT]个点Y↓[i](0≤i≤N↓[FFT]),每个点在频谱域上的概率密度可用公式(1)表示:p↓[i]=Y↓[i]/*Y↓[k](1)其中:Y↓[k]为经过FFT变换的语音信号在功率谱上的第k个点,Y↓[i]为经过FFT变换的语音信号在功率谱上的第i个点,N↓[FFT]为i的个数,p↓[i]为第i个点在频谱域上的概率密度,相应信号在频谱域上的熵函数定义可用公式(2)表示:H=-*p↓[k]log(p↓[k])(2)其中:p↓[k]为第k个点在频谱域上的概率密度,N↓[FFT]为i的个数,H为频谱域上的熵函数,将频域上的N↓[FFT]个点划分成K个互不重叠的频段,称为子带,计算第l帧频谱域上每个点的概率如公式(3)所示:p↓[l][k,i]=(Y↓[i]+Q)/*(Y↓[j]+Q)(3)其中:Y↓[j]为经过FFT变换的语音信号在功率谱上的第j个点,Y↓[i]为第k个子带上的点,m↓[k]=N↓[FFT]/Kk(0≤k≤K-1,m↓[k]≤i≤m↓[k+1]-1)为子带下限,Q为常数,p↓[l][k,i]为第l帧频谱域上每个点的概率,根据信息熵的定义,第l帧的第k个子带的频谱熵的值如公式(4)所示:E↓[s][l,k]=*p↓[l][k,i]log(p↓[l][k,i])(0≤k≤K-1)(4)其中:p↓[l][k,i]为第l帧频谱域上每个点的概率,E↓[s][l,k]为第l帧的第k个子带的频谱熵,根据下面公式(5)我们可以计算出第l帧的频谱信息熵:H↓[l]=-1/K*E↓[h][l,k](5)其中:E↓[h][l,k]为第l帧的第k个子带的频谱熵,K为子带个数,H↓[l]为经过滤...

【技术特征摘要】

【专利技术属性】
技术研发人员:杨毅刘加
申请(专利权)人:清华大学
类型:发明
国别省市:11[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利