一种分布式麦克风的说话人聚类方法技术

技术编号：5341959 阅读：321 留言：0更新日期：2012-04-11 18:40

一种分布式麦克风的说话人聚类方法，先对分布式麦克风采集的信号进行预处理，再对声源信号片段采用时延估计法计算，得到对应的时延估计向量，然后排除错误数据并进行说话人分割，最后根据说话人分割的结果进行说话人聚类，本发明专利技术以分布式麦克风作为信号采集和输出设备，计算语音信号片段的时延向量，通过排除错误数据提高时延估计精度，对时延向量采用聚类算法将语音信号片段按说话人身份分别归类，设备价格低廉，具有使用方便的优势，可应用于复杂声学环境下的多人多方对话场景。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于语音
，具体地涉及。
技术介绍
随着网络和通讯技术的不断发展，利用现有的多媒体技术、网络与通讯技术、分布式处理技术等可以实现复杂声学环境场景下的多人多方对话。传统声源输入和录音设备包括头戴式麦克风、全向性和方向性单麦克风、麦克风阵列等。单麦克风作为传统声源输入和录音设备，具有体积小、价格低廉等优点，但不具备对环境噪声处理以及声源定位的能力；麦克风阵列由多个按照特定几何位置摆放的麦克风组成，对空间信号进行时空域联合处理，其能力包括辨识与分离声源、混响条件下的声源定位、增强语音信号等。分布式麦克风是由多个单麦克风组成的声音信号采集系统，各个麦克风由不同设备控制，对麦克风的排列和间距没有任何限制，麦克风采集的信号在时间域不完全同步。分布式麦克风结构简单、使用方便、节约成本，符合多声源多方向复杂对话场景的要求，可有效地完成说话人聚类、识别及定位等多种应用。与麦克风阵列系统不同的是，分布式麦克风对麦克风的位置和摆放没有任何约束和限制，此外分布式麦克风系统中的声源和麦克风位置信息未知。对声音信息进行自动分类是语音信号处理领域的研究课题之一，说话人分割 (Speaker Segmentation)和说话人聚类(Speaker Clustering)是其中的重要组成部分。通常的方法是说话人分割将整个测试语音分割成一系列语音片段，这些语音片段只属于某一特定说话人；说话人聚类负责将分散的同属于一个说话人的语音归为一类。传统的说话人分割方法基本以高斯模型的窗移统计法为基础，采用不同的距离测度选择，通过基于贝叶斯的信息准则进行融合...

【技术保护点】
一种分布式麦克风的说话人聚类方法，其特征在于：包括以下步骤：第一步，对分布式麦克风采集的信号进行预处理首先对分布式麦克风获得的多路声源信号进行预处理，先对多路声源信号分帧及进行快速傅立叶变换（ＦＦＴ）变换，然后对多路声源信号进行端点检测，将信号分为声源信号和非声源信号两类，端点检测的目的在于从数字语音信号中区分出语音信号和非语音信号，语音端点检测方法可采用子带频谱熵算法，首先将每帧语音的频谱划分成ｎ（ｎ为大于零的整数）子带，计算出每个子带的频谱熵，然后把相继ｎ帧的子带频谱熵经过一组顺序统计滤波器获得每帧的频谱熵，根据频谱熵的值对输入的语音进行分类，具体步骤为：将每帧的语音信号经过快速傅立叶变换（ＦＦＴ）之后得到它在功率谱上的Ｎ↓［ＦＦＴ］个点Ｙ↓［ｉ］（０≤ｉ≤Ｎ↓［ＦＦＴ］），每个点在频谱域上的概率密度可用公式（１）表示：ｐ↓［ｉ］＝Ｙ↓［ｉ］／＊Ｙ↓［ｋ］（１）其中：Ｙ↓［ｋ］为经过ＦＦＴ变换的语音信号在功率谱上的第ｋ个点，Ｙ↓［ｉ］为经过ＦＦＴ变换的语音信号在功率谱上的第ｉ个点，Ｎ↓［ＦＦＴ］为ｉ的个数，ｐ↓［ｉ］为第ｉ个点在频谱域上的概率密度，相应信号在频谱域上的熵函数定义可用...

【技术特征摘要】

【专利技术属性】
技术研发人员：杨毅，刘加，
申请(专利权)人：清华大学，
类型：发明
国别省市：11[]

全部详细技术资料下载我是这个专利的主人