模型确定方法、模型应用方法和相关装置制造方法及图纸

技术编号:38527552 阅读:10 留言:0更新日期:2023-08-19 17:03
本申请实施例公开了模型确定方法、模型应用方法和相关装置,在初始语音分离模型中包括用于分析发音对象数量的初始数量确定模块,和用于基于初始数量确定模块确定出发音对象数量进行语音分离的初始语音分离模块,只需输入样本语音信息,即可通过该模型分离得到语音分离结果。通过该样本语音信息所对应的准确语音分离结果与模型输出之间的差异,能够体现出该模型对发音对象数量分析的准确度和对语音信息分离的准确度,从而基于该差异对初始语音分离模型进行参数调节可以使模型同时学习到如何准确进行发音对象数量分析和语音信息准确分离,使得到的语音分离模型可以无需除待分离语音信息外的其他信息输入即可实现准确的语音分离,提高语音分离效率。提高语音分离效率。提高语音分离效率。

【技术实现步骤摘要】
模型确定方法、模型应用方法和相关装置


[0001]本申请涉及机器学习
,特别是涉及一种模型确定方法、模型应用方法和相关装置。

技术介绍

[0002]语音识别是模型应用的主要领域之一,通过语音识别模型可以识别出语音信息所对应的对象。在一些场景下,由于同时说话的人数较多,采集到的语音信息中可能混杂着多个对象的语音信息,此时就需要通过语音分离模型将多个对象的语音信息进行分离,以针对每一个对象的语音信息进行准确的语音识别。
[0003]在相关技术中,语音分离模型在应用时,需要提前确定好待分离的语音信息中所包括的说话对象数量,语音分离模型才能够得到较为准确的语音分离结果。因此,在相关技术中,向语音分离模型输入待分离的语音信息之前需要先判断语音信息所对应的对象数量。
[0004]由此可见,相关技术中的语音分离过程较为繁琐,对信息输入侧的要求较高,难以实现高效、简洁的语音信息分离。

技术实现思路

[0005]为了解决上述技术问题,本申请提供了一种模型确定方法,通过该方法训练得到的模型具有自动识别待分离的语音信息所对应发音对象数量的能力,并可以基于该发音对象数量自动分离待分离的语音信息所对应的多个子语音信息,无需对待分离语音信息进行前期处理,提高了语音分离的效率和便捷度。
[0006]本申请实施例公开了如下技术方案:第一方面,本申请实施例公开了一种模型确定方法,所述方法包括:获取样本信息集合,所述样本信息集合包括多个样本语音信息,所述多个样本语音信息分别具有对应的多个样本子语音信息,目标样本语音信息是由所对应的多个目标样本子语音信息组合构成的,所述样本子语音信息与发音对象一一对应;将所述多个样本语音信息分别作为所述目标样本语音信息,通过初始语音分离模型中的初始数量确定模块确定所述目标样本语音信息对应的待定发音对象数量信息,以及通过所述初始语音分离模型中的初始语音分离模块,基于所述待定发音对象数量信息确定所述目标样本语音信息对应的多个第一语音信息;根据所述多个目标样本子语音信息确定所述目标样本语音信息对应的实际发音对象数量信息;根据所述待定发音对象数量信息和所述实际发音对象数量信息之间的差异,以及根据所述多个目标样本子语音信息与所述多个第一语音信息之间的差异,调节所述初始语音分离模型对应的模型参数,得到语音分离模型,所述语音分离模型用于确定待分离语音信息对应的多个子语音信息,所述子语音信息与发音对象一一对应。
[0007]第二方面,本申请实施例公开了一种模型应用方法,所述方法包括:获取待分离语音信息,所述待分离语音信息是由多个发音对象对应的子语音信息构成的;根据所述待分离语音信息,通过所述语音分离模型中的数量确定模块确定所述待分离语音信息对应的发音对象数量信息,以及通过所述语音分离模型中的语音分离模块,根据所述发音对象数量信息确定所述待分离语音信息对应的发音对象数量个子语音信息,所述发音对象数量个子语音信息与发音对象一一对应,所述发音对象数量信息用于标识所述待分离语音信息对应的所述发音对象数量。
[0008]第三方面,本申请实施例公开了一种模型确定装置,所述装置包括第一获取单元、第一确定单元、第二确定单元和调节单元:所述第一获取单元,用于获取样本信息集合,所述样本信息集合包括多个样本语音信息,所述多个样本语音信息分别具有对应的多个样本子语音信息,目标样本语音信息是由所对应的多个目标样本子语音信息组合构成的,所述样本子语音信息与发音对象一一对应;所述第一确定单元,用于将所述多个样本语音信息分别作为所述目标样本语音信息,通过初始语音分离模型中的初始数量确定模块确定所述目标样本语音信息对应的待定发音对象数量信息,以及通过所述初始语音分离模型中的初始语音分离模块,基于所述待定发音对象数量信息确定所述目标样本语音信息对应的多个第一语音信息;所述第二确定单元,用于根据所述多个目标样本子语音信息确定所述目标样本语音信息对应的实际发音对象数量信息;所述调节单元,用于根据所述待定发音对象数量信息和所述实际发音对象数量信息之间的差异,以及根据所述多个目标样本子语音信息与所述多个第一语音信息之间的差异,调节所述初始语音分离模型对应的模型参数,得到语音分离模型,所述语音分离模型用于确定待分离语音信息对应的多个子语音信息,所述子语音信息与发音对象一一对应。
[0009]在一种可能的实现方式中,所述第一确定单元具体用于:确定所述目标样本语音信息对应的多个第二子语音特征;根据所述多个第二子语音特征,确定所述多个第二子语音特征分别对应的待定计数信息,计数信息用于标识所对应子语音特征对应单一发音对象的概率;将所述多个第二子语音特征分别对应的待定计数信息确定为所述待定发音对象数量信息,发音对象数量信息用于标识对应单一发音对象的子语音特征数量;所述第二确定单元具体用于:确定所述多个第二子语音特征分别对应的第二子语音信息;将多个所述第二子语音信息分别确定为目标第二子语音信息,将所述目标第二子语音信息与所述多个目标样本子语音信息之间分别对应的相似度中的最大值确定为所述目标第二子语音信息对应的实际计数信息;将所述多个第二子语音特征分别对应的实际计数信息确定为所述实际发音对象数量信息;所述调节单元具体用于:将所述多个第二子语音特征分别确定为目标第二子语音特征,基于所述目标第二
子语音特征对应的待定计数信息与实际计数信息之间的差异,调节所述初始数量确定模块对应的模型参数;根据所述多个目标样本子语音信息与所述多个第一语音信息之间的差异,调节所述初始语音分离模型对应的模型参数。
[0010]在一种可能的实现方式中,所述第一确定单元具体用于:将所述多个第二子语音特征中,所对应待定计数信息标识的概率大于第一阈值的第二子语音特征数量确定为待定发音对象数量;基于所述待定发音对象数量确定所述目标样本语音信息对应的所述待定发音对象数量个第一语音信息。
[0011]在一种可能的实现方式中,所述调节单元具体用于:基于所述目标第二子语音特征对应的第二子语音信息与目标子语音信息之间的差异,以及所述目标第二子语音特征对应的待定计数信息与实际计数信息之间的差异,调节所述初始数量确定模块对应的模型参数,所述目标子语音信息为所述多个目标样本子语音信息中与所述目标第二子语音特征对应的第二子语音信息之间相似度最大的目标样本子语音信息。
[0012]在一种可能的实现方式中,所述第一确定单元具体用于:确定所述目标语音信息对应的多个第二子语音特征;根据所述多个第二子语音特征,确定所述目标样本语音信息对应的待定发音对象数量信息,所述待定发音对象数量信息用于标识所述多个第二子语音特征中对应单一发音对象的多个标准特征,目标标准特征用于标识所述目标标准特征所对应发音对象的发音特征;将所述多个标准特征分别作为所述目标标准特征,根据所述目标标准特征和所述目标样本语音信息确定所述目标标准特征对应的第一语音信息,所述目标标准特征对应的第一语音信息为所述目标标准特征所对应发音对象对应的语音信息。
[0013]在一种可能的实现方式中,所述第一确定单元具体用于:确定所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型确定方法,其特征在于,所述方法包括:获取样本信息集合,所述样本信息集合包括多个样本语音信息,所述多个样本语音信息分别具有对应的多个样本子语音信息,目标样本语音信息是由所对应的多个目标样本子语音信息组合构成的,所述样本子语音信息与发音对象一一对应;将所述多个样本语音信息分别作为所述目标样本语音信息,通过初始语音分离模型中的初始数量确定模块确定所述目标样本语音信息对应的待定发音对象数量信息,以及通过所述初始语音分离模型中的初始语音分离模块,基于所述待定发音对象数量信息确定所述目标样本语音信息对应的多个第一语音信息;根据所述多个目标样本子语音信息确定所述目标样本语音信息对应的实际发音对象数量信息;根据所述待定发音对象数量信息和所述实际发音对象数量信息之间的差异,以及根据所述多个目标样本子语音信息与所述多个第一语音信息之间的差异,调节所述初始语音分离模型对应的模型参数,得到语音分离模型,所述语音分离模型用于确定待分离语音信息对应的多个子语音信息,所述子语音信息与发音对象一一对应。2.根据权利要求1所述的方法,其特征在于,所述确定所述目标样本语音信息对应的待定发音对象数量信息,包括:确定所述目标样本语音信息对应的多个第二子语音特征;根据所述多个第二子语音特征,确定所述多个第二子语音特征分别对应的待定计数信息,计数信息用于标识所对应子语音特征对应单一发音对象的概率;将所述多个第二子语音特征分别对应的待定计数信息确定为所述待定发音对象数量信息,发音对象数量信息用于标识对应单一发音对象的子语音特征数量;所述根据所述多个目标样本子语音信息确定所述目标样本语音信息对应的实际发音对象数量信息,包括:确定所述多个第二子语音特征分别对应的第二子语音信息;将多个所述第二子语音信息分别确定为目标第二子语音信息,将所述目标第二子语音信息与所述多个目标样本子语音信息之间分别对应的相似度中的最大值确定为所述目标第二子语音信息对应的实际计数信息;将所述多个第二子语音特征分别对应的实际计数信息确定为所述实际发音对象数量信息;所述根据所述待定发音对象数量信息和所述实际发音对象数量信息之间的差异,以及根据所述多个目标样本子语音信息与所述多个第一语音信息之间的差异,调节所述初始语音分离模型对应的模型参数,包括:将所述多个第二子语音特征分别确定为目标第二子语音特征,基于所述目标第二子语音特征对应的待定计数信息与实际计数信息之间的差异,调节所述初始数量确定模块对应的模型参数;根据所述多个目标样本子语音信息与所述多个第一语音信息之间的差异,调节所述初始语音分离模型对应的模型参数。3.根据权利要求2所述的方法,其特征在于,所述基于所述待定发音对象数量信息确定所述目标样本语音信息对应的多个第一语音信息,包括:
将所述多个第二子语音特征中,所对应待定计数信息标识的概率大于第一阈值的第二子语音特征数量确定为待定发音对象数量;基于所述待定发音对象数量确定所述目标样本语音信息对应的所述待定发音对象数量个第一语音信息。4.根据权利要求2所述的方法,其特征在于,所述基于所述目标第二子语音特征对应的待定计数信息与实际计数信息之间的差异,调节所述初始数量确定模块对应的模型参数,包括:基于所述目标第二子语音特征对应的第二子语音信息与目标子语音信息之间的差异,以及所述目标第二子语音特征对应的待定计数信息与实际计数信息之间的差异,调节所述初始数量确定模块对应的模型参数,所述目标子语音信息为所述多个目标样本子语音信息中与所述目标第二子语音特征对应的第二子语音信息之间相似度最大的目标样本子语音信息。5.根据权利要求1所述的方法,其特征在于,所述确定所述目标样本语音信息对应的待定发音对象数量信息,包括:确定所述目标语音信息对应的多个第二子语音特征;根据所述多个第二子语音特征,确定所述目标样本语音信息对应的待定发音对象数量信息,所述待定发音对象数量信息用于标识所述多个第二子语音特征中对应单一发音对象的多个标准特征,目标标准特征用于标识所述目标标准特征所对应发音对象的发音特征;所述基于所述待定发音对象数量信息确定所述目标样本语音信息对应的多个第一语音信息,包括:将所述多个标准特征分别作为所述目标标准特征,根据所述目标标准特征和所述目标样本语音信息确定所述目标标准特征对应的第一语音信息,所述目标标准特征对应的第一语音信息为所述目标标准特征所对应发音对象对应的语音信息。6.根据权利要求5所述的方法,其特征在于,所述根据所述目标标准特征和所述目标样本语音信息确定所述目标子语音特征对应的第一语音信息,包括:确定所述目标样本语音信息对应的目标语音特征;根据所述目标标准特征从所述目标语音特征中提取所述目标标准特征对应的第一子语音特征,所述第一子语音特征与所述目标标准特征之间的相似度大于第二阈值;根据所述目标标准特征对应的第一子语音特征确定所述目标标准特征对应的第一语音信息。7.根据权利要求6所述的方法,其特征在于,所述根据所述目标标准特征对应的第一子语音特征确定所述目标标准特征对应的第一语音信息,包括:将所述多个标准特征中除所述目标标准特征外的标准特征分别对应的第一子语音特征作为多个对比子语音特征,根据所述多个对比子语音特征从所述目标标准特征所对应第一子语音特征中提取所述目标标准特征对应的第一语音特征,所述第一语音特征与所述多个对比子语音特征之间的相似度均小于第三阈值;根据所述目标标准特征对应的第一语音特征确定所述目标标准特征对应的第一语音信息。8.根据权利要求7所述的方法,其特征在于,所述初始语音分离模块还用于:
根据所述目标标准特征,从所述目标标准特征对应的第一子语音特征中提取所述目标标准特征对应的第二语音特征,所述第二语音特征与所述目标标准特征之间的相似度大于第四阈值,所述第四阈值大于所述第二阈值;所述根据所述目标标准特征对应的第一语音特征确定所述目标标准特征对应的第一语音信息,包括:融合所述目标标准特征对应的第一语音特征和所述目标标准特征对应的第二语音特征,生成所述目标标准特征对应的语音特征;根据所述目标标准特征对应的语音特征确定所述目标标准特征对应的第一语音信息。9.根据权利要求1所述的方法,其特征在于,所述初始语音分离模型还包括初始特征提取模块,所述初始特征提取模块用于提取所述目标样本语音信息对应的目标语音特征,所述通过初始语音分离模型中的初始数量确定模块确定所述目标样本语音信息对应的待定发音对象数量信息,以及通过所述初始语音分离模型中的初始语音分离模块,基于所述待定发音对象数量信息确定所述目标样本语音信息对应的多个第一语音信息,包括:通过初始语音分离模型中的初始数量确定模块,根据所述目标语音特征确定所述目标样本语音信息对应的待定发音对象数量信息,以及通过所述初始语音分离模型中的初始语音分离模块,基于所述待定发音对象数量信息和所述目标语音特征确定所述目标样本语音信息对应的多个第一语音信息。10.根据权利要求9所述的方法,其特征在于,所述提取所述目标样本语音信息对应的目标语音特征,包括:基于所述目标样本语音信息对应的时域信息提取所述目标样本语音信息对应的...

【专利技术属性】
技术研发人员:冯鑫
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1