语音分离方法、装置、介质和电子设备制造方法及图纸

技术编号:26973655 阅读:14 留言:0更新日期:2021-01-06 00:07
公开了一种语音分离方法、装置、介质和电子设备。其中的语音分离方法包括:获取待处理的时频域混合信号;根据所述时频域混合信号以及包含有幅度调整因子的高斯混合模型的独立向量分析的代价函数,获得所述时频域混合信号的分离矩阵;根据所述分离矩阵,从所述时频域混合信号中获得每个声源的时频域信号。本公开提供的技术方案有利于提高语音分离技术的可实施性,从而有利于提高语音分离技术的适用范围。

【技术实现步骤摘要】
语音分离方法、装置、介质和电子设备
本公开涉及语音处理技术,尤其是一种语音分离方法、语音分离装置、存储介质以及电子设备。
技术介绍
语音分离技术可以从由多个声源混合信号中提取出初始声源信号,从而实现对期望信号的增强。目前,语音分离技术已被使用于智能家居系统、视频会议系统以及语音识别系统等多种应用中。基于GMM(GaussianMixtureModel,高斯混合模型)-IVA(IndependentVectorAnalysis,独立向量分析)的语音分离技术,是一种将GMM作为IVA算法中的声源先验模型的语音分离技术。然而,由于GMM中的参数通常需要采用预训练的方式来确定初始值,因此,基于GMM-IVA的语音分离技术不能较好的适用于无法进行预训练的应用场景中。如何提高基于GMM-IVA的语音分离技术的语音分离的适用范围,是一个值得关注的技术问题。
技术实现思路
为了解决上述技术问题,提出了本公开。本公开的实施例提供了一种语音分离方法、语音分离装置、存储介质以及电子设备。根据本公开实施例的一方面,提供一种语音分离方法,包括:获取待处理的时频域混合信号;根据所述时频域混合信号以及包含有幅度调整因子的高斯混合模型的独立向量分析的代价函数,获得所述时频域混合信号的分离矩阵;根据所述分离矩阵,从所述时频域混合信号中获得每个声源的时频域信号。根据本公开实施例的另一方面,提供一种语音分离装置,包括:获取混合信号模块,用于获取待处理的时频域混合信号;获取分离矩阵模块,用于根据所述获取混合信号模块获取到的时频域混合信号以及包含有幅度调整因子的高斯混合模型的独立向量分析的代价函数,获得所述时频域混合信号的分离矩阵;分离处理模块,用于根据所述获取分离矩阵模块获得的分离矩阵,从所述时频域混合信号中获得每个声源的时频域信号。基于本公开上述实施例提供的一种语音分离方法以及装置,通过在高斯混合模型中设置幅度调整因子来适应音频信号的非平稳特点,从而可以在不需要对高斯混合模型中的多个参数进行预训练的情况下,利用待处理的时频域混合信号以及独立向量分析的代价函数,快捷的获得分离矩阵,从而可以利用分离矩阵,快捷的从时频域混合信号中获得每个声源的时频域信号。由此可知,本公开提供的技术方案有利于提高语音分离技术的可实施性,从而有利于提高语音分离技术的适用范围。下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。附图说明构成说明书的一部分的附图描述了本公开的实施例,并且连同描述一起用于解释本公开的原理。参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:图1为本公开所适用的一个场景示意图;图2为本公开所适用的另一个场景示意图;图3为本公开的语音分离方法一个实施例的流程图;图4为本公开的获取待处理的时频域混合信号的过程一个实施例的流程图;图5为本公开的语音分离装置一个实施例的结构示意图图6为本公开一示例性实施例提供的电子设备的结构图。具体实施方式下面将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。还应理解,在本公开实施例中,“多个”可以指两个或者两个以上,“至少一个”可以指一个、两个或两个以上。还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。另外,本公开中术语“和/或”,仅是一种描述关联对象的关联关系,表示可以存在三种关系,如A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。本公开的实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或者专用计算系统环境或配置一起操作。适于与终端设备、计算机系统或者服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境等等。终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施。在分布式云计算环境中,任务可以是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。本公开概述在实现本公开的过程中,专利技术人发现,高斯混合模型是一种灵活度较高的模型。在为高斯混合模型选取了合适的参数后,在理论上,高斯混合模型可以表示任何概率密度分布,因此,将高斯混合模型作为IVA的声源先验模型,能够较好的实现语音分离。然而,高斯混合模型中存在着大量待估计模型参数,因此,在实现语音分离之前,通常需要利用纯净的声源信号对高斯混合模型进行训练,并利用训练获得的参数值,对高斯混合模型的参数进行初始化,以便于获得较好的语音分离结果。然而,在实际应用场景中,一方面有时难以获取到纯净的声源信号,另一方面,由于计算时间以及计算量限制等因素,往往无法实施预训练的过程。如果采用随机初始化等方式对高斯混合模型中的参数进行赋值,由于音频信号的幅度具有非平稳特性,因此,通常无法获得满意的语音分离效果。如果能够及时对音频信号的统计特性的幅度进行调整,则在采用随机初始化等方式对高斯混合模型中的参数进行赋值的情况下,可以获得较为满意的语音分离效果。示例性概述本公开提供的语音分离技术可广泛应用本文档来自技高网...

【技术保护点】
1.一种语音分离方法,包括:/n获取待处理的时频域混合信号;/n根据所述时频域混合信号以及包含有幅度调整因子的高斯混合模型的独立向量分析的代价函数,获得所述时频域混合信号的分离矩阵;/n根据所述分离矩阵,从所述时频域混合信号中获得每个声源的时频域信号。/n

【技术特征摘要】
1.一种语音分离方法,包括:
获取待处理的时频域混合信号;
根据所述时频域混合信号以及包含有幅度调整因子的高斯混合模型的独立向量分析的代价函数,获得所述时频域混合信号的分离矩阵;
根据所述分离矩阵,从所述时频域混合信号中获得每个声源的时频域信号。


2.根据权利要求1所述的语音分离方法,其中,所述获取待处理的时频域混合信号,包括:
基于多个音频采集装置各自对应的通道获取时域信号,得到多个时域信号;
将所述多个时域信号中的每一个时域信号转换为基于时频域的时频点信号,得到多个第一时频点信号;
将所述多个第一时频点信号进行空间白化处理,获得空间白化处理后的多个第二时频点信号;
其中,所述待处理的时频域混合信号由所述多个第二时频点信号形成。


3.根据权利要求1或2所述的语音分离方法,其中,所述根据所述时频域混合信号以及包含有幅度调整因子的高斯混合模型的独立向量分析的代价函数,获得所述时频域混合信号的分离矩阵,包括:
确定包含有幅度调整因子的高斯混合模型中的多个参数的初始值;
根据所述时频域混合信号,对具有初始值的高斯混合模型的独立向量分析的代价函数进行期望最大化处理,获得所述时频域混合信号的分离矩阵。


4.根据权利要求3所述的语音分离方法,其中,所述确定包含有幅度调整因子的高斯混合模型中的多个参数的初始值,包括:
为各声源的高斯混合模型中的各高斯模型的帧间共有频域特征以及各声源的高斯混合模型中的各帧的幅度调整因子分别设置初始值;
利用预先设置的均匀概率分布,确定各声源的高斯混合模型中的各高斯模型的先验概率的初始值。


5.根据权利要求3或4所述的语音分离方法,其中,所述根据所述时频域混合信号以及包含有幅度调整因子的高斯混合模型的独立向量分析的代价函数,获得所述时频域混合信号的分离矩阵,包括:
根据所述时频域混合信号,对具有初始值的高斯混合模型的独立向量分析的代价函数进行期望最大化处理,获得所述代价函数中...

【专利技术属性】
技术研发人员:顾昭仪卢晶
申请(专利权)人:南京人工智能高等研究院有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1