基于元学习的自适应语音识别方法、装置、设备及介质制造方法及图纸

技术编号:27841363 阅读:28 留言:0更新日期:2021-03-30 12:28
本申请公开了一种基于元学习的自适应语音识别方法、装置、设备及介质,涉及人工智能技术领域,可以解决目前在对语音识别模型进行说话人自适应调节时,需要人工预先根据不同说话人类型进行调整准则的设计,设计过程繁琐、工作量较大,并且无法涵盖所有参数调整情况,进而导致语音识别效果不佳的问题。其中方法包括:利用预处理后的样本语音数据训练语音识别模型以及元学习适应模型;基于所述元学习适应模型,将所述语音识别模型的初始模型参数调整为与目标语音类型匹配的目标模型参数;利用配置有所述目标模型参数的语音识别模型识别所述目标语音类型下的目标语音。本申请适用于对语音的自适应识别。语音的自适应识别。语音的自适应识别。

【技术实现步骤摘要】
基于元学习的自适应语音识别方法、装置、设备及介质


[0001]本申请涉及人工智能
,尤其涉及到一种基于元学习的自适应语音识别方法、装置、设备及介质。

技术介绍

[0002]随着深度学习的发展,自动语音识别系统取得了显著的效果,并被用于日常生活的各种场景。目前最广泛使用的语音识别应用是智能助理,用户可以通过语音自然地与机器进行交流,协助工作。然而智能助理服务面向的多数场景是单一用户,其语音识别针对的是单一说话人。此时自动语音识别系统的性能可以通过调整声学模型参数来补偿训练和测试条件之间的不匹配,从而来改善识别的效果。这种针对未知说话人调整已有参数的方法被称为说话人自适应方法。
[0003]有效的说话人自适应方法依赖于选择合适的声学模型参数和合适的参数更新规则,以避免在较少的训练数据上的过拟合。为了依据不同说话人进行声学模型参数的有效调整,目前主要采用人工设计调整准则(如设计调整步骤数,学习率等)的方式来进行。然而这种调整方式需要人工预先根据不同说话人类型进行调整准则的设计,设计过程繁琐,且工作量较大,并且无法涵盖所有参数调整情况,进而容易导致语音识别效果不佳。

技术实现思路

[0004]有鉴于此,本申请提供了一种基于元学习的自适应语音识别方法、装置、设备及介质,主要解决目前在对语音识别模型进行说话人自适应调节时,需要人工预先根据不同说话人类型进行调整准则的设计,设计过程繁琐、工作量较大,并且无法涵盖所有参数调整情况,进而导致语音识别效果不佳的问题。
[0005]根据本申请的一个方面,提供了一种基于元学习的自适应语音识别方法,该方法包括:
[0006]利用预处理后的样本语音数据训练语音识别模型以及元学习适应模型;
[0007]基于所述元学习适应模型,将所述语音识别模型的初始模型参数调整为与目标语音类型匹配的目标模型参数;
[0008]利用配置有所述目标模型参数的语音识别模型识别所述目标语音类型下的目标语音。
[0009]根据本申请的另一个方面,提供了一种基于元学习的自适应语音识别装置,其特征在于,包括:
[0010]训练模块,用于利用预处理后的样本语音数据训练语音识别模型以及元学习适应模型;
[0011]调整模块,用于基于所述元学习适应模型,将所述语音识别模型的初始模型参数调整为与目标语音类型匹配的目标模型参数;
[0012]识别模块,用于利用配置有所述目标模型参数的语音识别模型识别所述目标语音
类型下的目标语音。
[0013]根据本申请的又一个方面,提供了一种非易失性可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述基于元学习的自适应语音识别方法。
[0014]根据本申请的再一个方面,提供了一种计算机设备,包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述基于元学习的自适应语音识别方法。
[0015]借由上述技术方案,本申请提供的一种基于元学习的自适应语音识别方法、装置、设备及介质,与通过人工设计调整准则来进行语音自适应识别的方式相比,本申请可首先通过样本语音数据对语音识别模型进行预训练,并且进一步将说话人适应任务当作元学习中的任务,设计用于根据不同语音类型,调整语音识别模型中模型参数的元学习适应模型。进而可在确定目标语音类型时,基于元学习适应模型将语音识别模型的初始模型参数调整为与目标语音类型匹配的目标模型参数,进而利用配置目标模型参数的语音识别模型实现对目标语音类型下目标语音的智能性精准识别。在本申请中,采用元学习适应模型实现对语音识别模型中模型参数的自适应调整,采用人工智能技术,不仅减少了人工设计的不稳定性,还使得模型参数更新可以针对不同的应用场景,进而保证语音识别的精准性。
附图说明
[0016]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本地申请的不当限定。在附图中:
[0017]图1示出了本申请实施例提供的一种基于元学习的自适应语音识别方法的流程示意图;
[0018]图2示出了本申请实施例提供的另一种基于元学习的自适应语音识别方法的流程示意图;
[0019]图3示出了本申请实施例提供的一种元学习适应模型训练过程的流程示意图;
[0020]图4示出了本申请实施例提供的一种基于元学习的自适应语音识别系统的流程示意图;
[0021]图5示出了本申请实施例提供的一种基于元学习的自适应语音识别装置的结构示意图;
[0022]图6示出了本申请实施例提供的另一种基于元学习的自适应语音识别装置的结构示意图。
具体实施方式
[0023]下文将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合。
[0024]针对目前在对语音识别模型进行说话人自适应调节时,需要人工预先根据不同说话人类型进行调整准则的设计,设计过程繁琐、工作量较大,并且无法涵盖所有参数调整情况,进而导致语音识别效果不佳的问题,本申请实施例提供了一种基于元学习的自适应语音识别方法,如图1所示,该方法包括:
[0025]101、利用预处理后的样本语音数据训练语音识别模型以及元学习适应模型。
[0026]其中,样本语音数据对应预设数量个未标注的语音数据,在利用样本语音数据训练语音识别模型以及元学习适应模型之前,需要利用预设语音处理工具(如Kaldi ASR工具)对样本语音数据进行数据预处理,数据预处理可包括预加重,分帧,加窗等操作,通过数据预处理,可消除因为人类发声器官缺陷和采集设备缺陷带来的混叠、高次谐波失真等因素对语音信号质量的影响。此外,为了方便对语音特征的分析,还需要利用特征提取工具(如梅尔频率倒谱系数(Mel

Frequency Cepstral Coefficients,MFCCs)或Filter

Bank特征等)进行特征提取,具体需要提取出语音特征以及文本特征。
[0027]此外,在利用样本语音数据训练元学习适应模型时,因为训练过程中不可以使用测试集数据,故还需要按照元学习的方式对样本语音数据进行数据块的预处理,具体可采用从样本语音数据中采样或划分转换为多个数据块的方式,从而在训练过程中,可以使用当前数据块进行适应训练,在当前数据块对应的下一数据块上取得损失降低。
[0028]对于本申请的执行主体可为用于实现说话人自适应的语音识别系统,在语音识别系统中配置有预训练好的语音识别模型,以及能够根据不同语音类型下的适应数据对语音识别模型中模型参数进行调整的元学习适应模型。
[0029]102、基于元学习适应模型,将语音识别模型的初始模型参数调整为与目标语音类型匹配的目标模型参数。
[0030]其中,目标语音类型为与待识别的说话人类型相同的语音类型,语音类型具体可根据实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于元学习的自适应语音识别方法,其特征在于,包括:利用预处理后的样本语音数据训练语音识别模型以及元学习适应模型;基于所述元学习适应模型,将所述语音识别模型的初始模型参数调整为与目标语音类型匹配的目标模型参数;利用配置有所述目标模型参数的语音识别模型识别所述目标语音类型下的目标语音。2.根据权利要求1所述的方法,其特征在于,所述利用预处理后的样本语音数据训练语音识别模型以及元学习适应模型,具体包括:对样本语音数据进行预处理,并标记所述样本语音数据对应的第一语音特征以及第一文本特征,所述预处理至少包括预加重处理、分帧处理、加窗处理;基于所述第一语音特征和所述第一文本特征训练符合第一训练标准的语音识别模型;利用所述样本语音数据以及所述语音识别模型,训练符合第二训练标准的元学习适应模型。3.根据权利要求2所述的方法,其特征在于,所述基于所述第一语音特征和所述第一文本特征训练符合第一训练标准的语音识别模型,具体包括:将所述第一语音特征输入所述语音识别模型,获取文本输出结果;依据所述文本输出结果与所述第一文本特征计算第一损失函数;若确定所述第一损失函数小于第一预设阈值,则判定所述语音识别模型符合第一训练标准;所述利用所述样本语音数据以及所述语音识别模型,训练符合第二训练标准的元学习适应模型,具体包括:将所述样本语音数据划分为预设数量个数据块,并提取各个所述数据块的第二语音特征和第二文本特征;依据所述第二语音特征、所述第二文本特征以及所述语音识别模型,训练符合第二训练标准的元学习适应模型。4.根据权利要求3所述的方法,其特征在于,所述依据所述第二语音特征、所述第二文本特征以及所述语音识别模型,训练符合第二训练标准的元学习适应模型,具体包括:提取所述语音识别模型的初始模型参数;若判定当前数据块为划分的第一个数据块,则依据所述初始模型参数以及当前数据块的第二语音特征和第二文本特征,计算所述元学习适应模型在第一个数据块中的损失值、损失梯度以及新模型参数;若判定当前数据块非所述第一个数据块,则依据前一数据块的新模型参数和当前数据块的第二语音特征和第二文本特征,计算所述元学习适应模型在当前数据块中的损失值、损失梯度以及新模型参数;若判定所有数据块均完成训练,则利用各个数据块计算得到的损失值、...

【专利技术属性】
技术研发人员:罗剑王健宗程宁
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1