当前位置: 首页 > 专利查询>王皓专利>正文

一种语音识别的方法、装置及设备制造方法及图纸

技术编号:28424896 阅读:47 留言:0更新日期:2021-05-11 18:33
本发明专利技术公开了一种语音识别的方法、装置及设备,该语音识别的方法包括:获取指定长度的待识别语音数据以及第一设定个数的参考者的参考语音数据,其中,所述参考者不包括指定用户;根据所述参考语音数据集以及梅尔频率倒谱系数,对所述待识别语音数据进行语音编码,以获取所述待识别语音数据的语音编码;根据所述语音编码识别所述待识别语音数据是否为所述指定用户的语音。本发明专利技术实施例的技术方案,通过参考者的语音数据及梅尔频率倒谱系数对待识别语音进行编码,在待识别语音数据中包含未知话语者的情况下,有效提高了语音识别的准确度,实现了特定话语者语音的识别。

【技术实现步骤摘要】
一种语音识别的方法、装置及设备
本专利技术实施例涉及语音识别
,尤其涉及一种语音识别的方法、装置及设备。
技术介绍
汽车销售人员每天需要接待不同的顾客,并为顾客提供汽车相关的介绍或咨询,为了考核汽车销售人员的业务水平,往往需要对汽车销售人员工作时对用户讲解的内容进行录音。然而,由于录音文件不仅包括汽车销售人员的语音,还包括如顾客等其他与考核无关的人员,从而导致考核效率大大降低,因此,需要将录音文件中指定汽车销售人员的语音筛选出来。但是在实际营销场景中,汽车销售部门由于无法事先获得全部顾客的语音数据,无法直接使用分类模型或算法进行销售人员与顾客语音的分类识别。此外,汽车销售行业流动性大的特点,也使得直接采用多分类算法的解决方案面临极大挑战。汽车销售行业因此需要一种可以在顾客语音与标签数据缺失情况下,有效识别汽车销售人员语音的技术方案,并保证该方案在实施中不会因为人员流动导致因模型频繁训练引起的性能下降。
技术实现思路
本专利技术提供了一种语音识别的方法、装置、设备及存储介质,以实现在语音数据中将指定用户的语音识别出来,识别速度快、准确度高。第一方面,本专利技术实施例提供了一种语音识别的方法,该方法包括:获取指定长度的待识别语音数据以及第一设定个数的参考者的参考语音数据,其中,所述参考者不包括指定用户;根据所述参考语音数据集以及梅尔频率倒谱系数,对所述待识别语音数据进行语音编码,以获取所述待识别语音数据的语音编码;根据所述语音编码识别所述待识别语音数据是否为所述指定用户的语音。第二方面,本专利技术实施例还提供了一种语音识别的装置,该装置包括:数据获取模块,用于获取指定长度的待识别语音数据以及第一设定个数的参考者的参考语音数据,其中,所述参考者不包括指定用户;语音编码模块,用于根据所述参考语音数据集以及梅尔频率倒谱系数,对所述待识别语音数据进行语音编码,以获取所述待识别语音数据的语音编码;语音识别模块,用于根据所述语音编码识别所述待识别语音数据是否为所述指定用户的语音。第三方面,本专利技术实施例还提供了一种设备,该设备包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术任意实施例提供的语音识别的方法。本专利技术实施例的技术方案,基于梅尔频率倒谱系数,将待识别的语音用多个参考者的参考语音数据进行语音编码,以实现用多个参考者的声音特征来表征待识别者声音特征的目的,提高了编码的唯一性。此后,通过使用指定用户的语音编码作为编码神经网络模型的唯一训练样本,从而编码神经网络模型仅可以有效还原指定用户的语音编码。通过编码神经网络模型对输入的语音编码的还原程度以及输入语音编码与指定用户的对应关系,可以实现在未分类语音数据(即顾客语音)出现情况下,快速而准确地识别指定用户语音。附图说明图1是本专利技术实施例一中的一种语音识别的方法的流程图;图2是本专利技术实施例二中的一种语音识别的方法的流程图;图3是本专利技术实施例三中的一种语音识别的方法的流程图;图4是本专利技术实施例四中的一种语音识别的装置的示意图;图5是本专利技术实施例五中的一种设备的示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1是本专利技术实施例一提供的一种语音识别的方法的流程图,本实施例可适用于对指定用户的语音识别的情况,该方法可以由语音识别的装置来执行,该装置可以通过软件和/或硬件的方式实现,如图1所示,该方法具体包括如下步骤:步骤110、获取指定长度的待识别语音数据以及第一设定个数的参考者的参考语音数据。其中,所述参考者不包括指定用户,参考者可以是一个公开语音数据集中的话语者,如WVU(WestVirginiaUniversity)-Multimodal2013公开语音数据集。使用公开语音集中的用户的语音的好处在于,参考者的特征多样化,基数大,且获取方便,不会造成侵权。指定长度可以是0.5s、0.8s、1s或者其他数值。第一设定个数的值应越大越好,采用越多的参考者的语音特征来描述指定用户的语音,则指定用户语音的识别准确度就越高,然而,相应的计算量和复杂度也会增加,同时也会降低后续语音切分的准确性。因此,第一设定个数可以是500、800、1000或其他数值。参考语音数据可以是包括多个指定长度的语音数据,如50、100或者更多指定长度的语音数据。可选的,获取指定长度的待识别语音数据,包括:获取原始语音数据;对所述原始语音数据进行划分,以获取各个指定长度的待识别语音数据。示例性的,如原始语音数据为指定销售人员的录音设备在考核时间段采集的所有语音数据,那么指定长度的待识别语音数据可以是0.8秒的待识别语音数据,可以按照设定频率获取指定长度的待识别语音数据,如16KHz。可选的,在获取指定长度的待识别语音数据之后,还包括:对所述待识别语音数据进行降噪。具体的,可以采用低通滤波器,也可以采用任意降噪算法降低所述待识别语音数据中的噪声。步骤120、根据所述参考语音数据集以及梅尔频率倒谱系数,对所述待识别语音数据进行语音编码,以获取所述待识别语音数据的语音编码。其中,梅尔频率倒谱系数((Mel-FrequencyCepstralCoefficients,MFCCs)即为组成梅尔频率倒谱的系数,采用梅尔频率倒谱系数来描述声音的特征更符合人类的听觉特性。可选的,根据所述参考语音数据集以及梅尔频率倒谱系数,对所述待识别语音数据进行语音编码,包括:将所述待识别语音数据以及各个所述参考者的参考语音数据分别划分为设定长度的语音子数据和参考子数据;采用设定维度的梅尔频率倒谱系数对各个所述语音子数据和参考子数据进行处理,以获得各个语音子数据的语音特征向量和各个参考子数据的参考特征向量;根据所述语音特征向量和参考特征向量确定所述待识别语音数据的语音编码。其中,设定长度可以是10ms、15ms、20ms、25ms或者其他数值,设定维度可以是25、40、50或者其他维度。示例性的,以0.8s的待识别语音数据为例,使用WVU-Multimodal2013公开语音数据集,该数据集包括1083人语音的数据集,随机从该数据集中抽取800个参照人,每个参照人抽取一段8秒的语音数据,由800个参考者每人8s的语音组成参考语音数据。将0.8s的待识别语音数据和各个参考者8s的参考语音数据划分长度为20ms的语音子数据和参考子数据。具体的,可以以20ms重叠窗口以10ms为步长进行数据划分。从而0.8s的待识别语音数据可以被划分为80个长度为20ms的语音子数据,而8s的参考语音数据则被划分为800个长度为20ms的参考子数据。进本文档来自技高网...

【技术保护点】
1.一种语音识别的方法,其特征在于,包括:/n获取指定长度的待识别语音数据以及第一设定个数的参考者的参考语音数据,其中,所述参考者不包括指定用户;/n根据所述参考语音数据集以及梅尔频率倒谱系数,对所述待识别语音数据进行语音编码,以获取所述待识别语音数据的语音编码;/n根据所述语音编码识别所述待识别语音数据是否为所述指定用户的语音。/n

【技术特征摘要】
1.一种语音识别的方法,其特征在于,包括:
获取指定长度的待识别语音数据以及第一设定个数的参考者的参考语音数据,其中,所述参考者不包括指定用户;
根据所述参考语音数据集以及梅尔频率倒谱系数,对所述待识别语音数据进行语音编码,以获取所述待识别语音数据的语音编码;
根据所述语音编码识别所述待识别语音数据是否为所述指定用户的语音。


2.根据权利要求1所述的方法,其特征在于,所述根据所述参考语音数据集以及梅尔频率倒谱系数,对所述待识别语音数据进行语音编码,包括:
将所述待识别语音数据以及各个所述参考者的参考语音数据分别划分为设定长度的语音子数据和参考子数据;
采用设定维度的梅尔频率倒谱系数对各个所述语音子数据和参考子数据进行处理,以获得各个语音子数据的语音特征向量和各个参考子数据的参考特征向量;
根据所述语音特征向量和参考特征向量确定所述待识别语音数据的语音编码。


3.根据权利要求2所述的方法,其特征在于,所述根据所述语音特征向量和参考特征向量确定所述待识别语音数据的语音编码,包括:
对所述第一设定个数的参考者进行分组;
计算各组的所述参考特征向量的平均值,以获取各组的参考均值向量;
根据各组的所述参考均值向量确定各组的各个所述参考者的特征映射矩阵,其中,所述特征映射矩阵为当前组的所述参考者的参考特征矩阵与当前组的特征向量矩阵的内积矩阵,所述参考特征矩阵为所述参考者的各个参考特征向量减去当前组的所述参考均值向量所得的向量组成的矩阵,所述特征向量矩阵为当前组的所述参考特征矩阵的协方差矩阵的特征向量组成的矩阵;
计算所述指定用户的各个所述语音特征向量与所述参考均值向量的差,记为差值向量,并将所述指定用户的各个差值向量组成差值矩阵;
将所述差值矩阵与所述特征向量矩阵的内积记为语音映射矩阵;
根据所述特征映射矩阵与所述语音映射矩阵确定所述待识别语音数据的语音编码。


4.根据权利要求3所述的方法,其特征在于,所述根据所述特征映射矩阵与所述语音映射矩阵确定所述待识别语音数据的语音编码,包括:
计算所述语音映射矩阵的每个行向量分别与所述特征映射矩阵的所有行向量的L2范数,各个所述L2范数即为所述待识别语音数据的语音编码。


5.根据权利要求1所述的方法,其特征在于,所述根据所述语音编码识别所述待识别语音数据是否为所述指定用户的语音,包括:
获取所述指定用户的编号信息;
根据所述编号信息确定所述指定用户的编码神经网络模型;
将所述语音编码输入所述编码神经网络模型,以获取所述编码神经网络模型输出的模型编码;
根据所述语音编码和模型编码确定所述待识别语音数据是否为所述指定用户的语音。


6.根据权利要求5所述的方法,其特征在于,所述编码神经网络模型的训练过程为:
获取所述指定用户的训练语音数据集,所述训练语音数据集包括第一指定个数的所述指定长度的训练语音数据;
对各个所述训练语音数据进行语音编码,以获取各个所述训练语音数据的训练编码,其中,对所述训练语音进行语音编码的方式与对所述待识别语音数...

【专利技术属性】
技术研发人员:高博王皓刘文超吴艳召熊伟凝
申请(专利权)人:王皓高博北京智月互联科技有限公司湾流北京智能科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1