一种基于声源位置的语音分割聚类方法和装置制造方法及图纸

技术编号:37404234 阅读:12 留言:0更新日期:2023-04-30 09:31
本发明专利技术涉及一种基于声源位置的语音分割聚类方法和装置,包括:通过拥有多个信道的收音装置获取输入音频;将输入音频切割为固定长度的音频片段;获取每一个所述音频片段的预估声源位置,所述预估声源位置为所述音频片段中声源相较于收音装置的相对位置;统计各个方向上所述预估声源位置出现的频率以获取重点声源位置,所述重点声源位置为所述预估声源位置出现频率的局部极值;将与所述重点声源位置相邻的区域划分为对应的声源区域;对所述预估声源位置处于同一所述声源区域内的所述音频片段划分至同一个声源分类。本发明专利技术提供的基于声源位置的语音分割聚类方法和装置不需要通过神经网络系统进行音色识别,能够直接根据说话人的位置信息对音频进行分割聚类。人的位置信息对音频进行分割聚类。人的位置信息对音频进行分割聚类。

【技术实现步骤摘要】
一种基于声源位置的语音分割聚类方法和装置


[0001]本专利技术涉及语音处理领域,具体涉及一种基于声源位置的语音分割聚类方法和装置。

技术介绍

[0002]语音分割聚类技术是指在多人说话的场景中,将语音分割为只有一个人说话的语音片段,标记语音片段对应的说话人的身份,从而将同一个人说话的语音片段聚合,以便直观获得一段音频中不同的说话人进行说话的时间段的位置。
[0003]传统的语音分割聚类技术分为分割和聚类两个步骤,在分割步骤时,将固定帧数的声学特征片段分为多小段,将每一小段看做单个说话人的说话片段,并从小段中提取说话人的表示向量;在聚类步骤时,通过对说话人的音频进行音色识别,并根据识别结果将音频片段划分为不同的说话人分类中。现有技术的语音分割聚类技术通常需要使用庞大的数据将神经网络训练出识别特定人的语音的模型,且需要预先使用该特定人的大量音频进行训练,然后通过提取输入音频中的每个人的声纹嵌入码,将声纹嵌入码与单个说话人的模型进行对比,并通过对比的相似度对音频片段进行聚类。整个训练过程需要预先知道待处理人的范围,并根据对比论文中的音频进行模型训练,一方面特定人的语音模型往往需要花费大量的时间进行训练,前期工作量大,另一方面需要事先获取待处理人的音频进行模型训练,难以做到实际的落地应用。若参与对话的人发生了变化,特别是临时加入了模型未对其进行针对训练的说话人,现有技术提供的语音分割聚类技术将无法对该说话人的语音进行聚类。综上所述,现有技术的语音分割技术在实际应用中较为繁琐,计算量大,需要较长的时间和大量的数据进行模型训练,训练完成后的模型应对突发状况的能力弱。

技术实现思路

[0004]本专利技术旨在至少解决现有技术中存在的问题之一。为此,本专利技术提出一种基于声源位置的语音分割聚类方法和装置,相较于现有技术中使用神经网络对语音分割聚类方法,本专利技术提供的语音分割聚类方法和装置不需要根据说话的人对系统结构进行特殊训练,节省了分割聚类的准备工作,使得分割聚类更为方便,也提高了语音分割聚类方法应对突发状态的能力。
[0005]根据本专利技术实施例的一种基于声源位置的语音分割聚类方法,包括:从具有多个信道的收音装置获取输入音频,切割所述输入音频,获得多个音频片段;计算每一个所述音频片段的预估声源位置,所述预估声源位置为所述音频片段中声源相较于收音装置的相对位置;统计各个方向上所述预估声源位置出现的频率以获取重点声源位置,所述重点声源位置为所述预估声源位置出现频率的局部极值;将距离所述重点声源位置第一预设范围内的区域划分为所述重点声源位置对应的声源区域;基于所述预估声源位置和所述声源区域对所述多个音频片段进行归类。
[0006]优选的,所述预估声源位置为说话人相对于收音装置的角度信息;统计各个方向
上所述预估声源位置出现的频率以获取重点声源位置,具体包括:建立以角度与频率为轴线的平面直角坐标系,平面直角坐标系中角度为估计声源位置处于极坐标系中的角度,平面直角坐标系中频率为估计声源位置出现在该角度的次数,从平面直角坐标系中选取局部极值点作为重点声源位置。
[0007]优选的,切割所述输入音频,获得多个音频片段,包括:对所述音频进行固定帧长与帧移的切割。
[0008]优选的,所述收音装置拥有三个以上的信道输入;通过所述音频片段的多个所述信道的信息综合处理判断预估声源位置。
[0009]优选的,通过最大可控响应功率波束形成算法计算预估声源位置,具体包括:计算基于相位变换加权的所有信道接收器的广义互相关函数的和,并搜索整个声源空间以确定到波束值最大化的点作为估计声源位置。
[0010]优选的,所述统计各个方向上所述预估声源位置出现的频率以获取重点声源位置,包括:将所有所述预估声源位置标记在以位置角度以及频率为轴的坐标系中,形成音频频率图;确定所述音频频率图中的局部极值点作为所述重点声源位置;所述局部极值点为所述音频频率图中,沿位置角度递增的方向上,音频频率由单调递增变换为单调递减的位置。
[0011]优选的,将距离所述重点声源位置第一预设范围内的区域划分为所述重点声源位置对应的声源区域,包括:取相邻的两个所述重点声源位置的位置角度的平均值作为第一预设范围,沿所述平均值处划分所述声源区域。
[0012]优选的,切割所述输入音频前,还包括:对每个所述信道进行语音增强;所述语音增强为,获取所述收音装置的全信道音频信息,基于所述全信道音频信息对每个所述信道的音频信息进行互补增强,所述互补增强可以为合并全频带和子频带模型。
[0013]优选的,通过重点声源位置的数量确定说话人数;聚类模型根据所述说话人数进行聚类,输出聚类结果。
[0014]本专利技术还提供一种基于声源位置的语音分割聚类装置,包括:切割模块,用于从具有多个信道的收音装置获取输入音频,切割所述输入音频,获得多个音频片段;定位模块,用于计算每一个所述音频片段的预估声源位置,所述预估声源位置为所述音频片段中声源相较于收音装置的相对位置;统计模块,用于统计各个方向上所述预估声源位置出现的频率以获取重点声源位置,所述重点声源位置为所述预估声源位置出现频率的局部极值;聚类模块,用于将距离所述重点声源位置第一预设范围内的区域划分为所述重点声源位置对应的声源区域;基于所述预估声源位置和所述声源区域对所述多个音频片段进行归类。
[0015]综上所述,本专利技术提供一种不需要提前训练神经网络的说明人分割聚类方法,通过多个信道获取不同的输入音频,并根据输入音频中的音频片段判断该音频片段的说话人的预估声源位置,通过统计所有预估声源位置在不同的角度中出现的频率,获取说话人可能位于的重点声源位置;并将重点声源位置以及其相邻的区域划分为该重点声源位置的声源区域,即其中一个说话人所处的区域;将该区域内所有的音频片段进行聚合形成该说话人的声源分类,该声源分类中包含了所有该说话人的说话片段,实现对输入音频的说话人分割聚类。
[0016]相较于现有技术,本专利技术提供的基于声源位置的语音分割聚类方法不需要通过神
经网络系统进行音色识别,可以直接根据说话人的位置信息对音频进行分割聚类。避免了需要提前训练神经网络系统所需求的时间、人力以及金钱成本,并且因为不需要提前训练神经网络系统,可以做到及时应用,提升了分割聚类的效率,并且可以解决临时增加说话者的特殊突发情况。
附图说明
[0017]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0018]图1为本专利技术实施例提供的一种基于声源位置的语音分割聚类方法的流程示意图;图2为本专利技术实施例提供的一种不同会议中音频频率图的示意图;图3为本专利技术实施例提供的一种音频频率图划分声源区域的示意图;图4为本专利技术实施例提供的一种同一会议中进行语音增强前后的音频频率图对比图;图5为本专利技术实施例提供的一种基本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于声源位置的语音分割聚类方法,其特征在于,包括:从具有多个信道的收音装置获取输入音频,切割所述输入音频,获得多个音频片段;计算每一个所述音频片段的预估声源位置,所述预估声源位置为所述音频片段中声源相较于收音装置的相对位置;统计各个方向上所述预估声源位置出现的频率以获取重点声源位置,所述重点声源位置为所述预估声源位置出现频率的局部极值;将距离所述重点声源位置第一预设范围内的区域划分为所述重点声源位置对应的声源区域;基于所述预估声源位置和所述声源区域对所述多个音频片段进行归类。2.根据权利要求1所述的基于声源位置的语音分割聚类方法,其特征在于,所述预估声源位置为说话人相对于收音装置的角度信息;统计各个方向上所述预估声源位置出现的频率以获取重点声源位置,具体包括:建立以角度与频率为轴线的平面直角坐标系,平面直角坐标系中角度为估计声源位置处于极坐标系中的角度,平面直角坐标系中频率为估计声源位置出现在该角度的次数,从平面直角坐标系中选取局部极值点作为重点声源位置。3.根据权利要求1所述的基于声源位置的语音分割聚类方法,其特征在于,切割所述输入音频,获得多个音频片段,包括:对所述音频进行固定帧长与帧移的切割。4.根据权利要求1所述的基于声源位置的语音分割聚类方法,其特征在于,所述收音装置拥有三个以上的信道输入;通过所述音频片段的多个所述信道的信息综合处理判断预估声源位置。5.根据权利要求1所述的基于声源位置的语音分割聚类方法,其特征在于,通过最大可控响应功率波束形成算法计算所述预估声源位置,具体包括:计算基于相位变换加权的所有信道接收器的广义互相关函数的和,并搜索整个声源空间以确定到波束值最大化的点作为所述预估声源位置。6.根据权利要求1所述的基于声源位置的语音分割聚类方法,其特征在于,所述统计各个方向上所述预估声源位置出现的...

【专利技术属性】
技术研发人员:周若华杜雨轩胡辰磊罗启宝于秋雨虞秋辰
申请(专利权)人:北京建筑大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1