语音信号识别模型构建方法、装置、设备及介质制造方法及图纸

技术编号:37377494 阅读:9 留言:0更新日期:2023-04-27 07:20
本发明专利技术公开了语音信号识别模型构建方法、装置、设备及介质,所述方法包括:响应于获取的语音信号数据集,构建元训练集和元测试集;构建语音信号识别模型,随机初始化后获得初始参数;使用所述元训练集对所述语音信号识别模型进行训练得到通用参数;使用所述元测试集对所述通用参数进行优化得到最优参数。本发明专利技术不但能够识别强干扰条件下的语音信号,还考虑了用户语音之间的差异性,提高了通信语音信号的识别效果。别效果。别效果。

【技术实现步骤摘要】
语音信号识别模型构建方法、装置、设备及介质


[0001]本专利技术属于信号识别
,尤其涉及语音信号识别模型构建方法、装置、设备及介质。

技术介绍

[0002]在特殊的语音通信条件下,语音信号会受到强烈的干扰,如来自飞机螺旋桨、机舱发动机等设备的噪音。语音信号混杂着噪声的同时,其信号传输也会受到干扰,导致语音整体质量较低。通信语音信号识别模型利用音频信号处理相关技术,抑制音频信号中的噪声成分,提取纯净语音信号,以提高通信语音的整体感知质量和可懂度,达到改善语音通信的效果。
[0003]常见的噪声估计算法,如最小值跟踪算法和时间递归平均算法,可以有效估计具有平稳性的慢变噪声,但无法快速跟踪瞬变的非平稳噪声。然而,在真实的环境中噪声一般是非平稳的并且信噪比可能较低,传统算法增强后的语音质量甚至可能不如原始带噪语音,如噪声过估计引起的语音包络丢失,其实际应用效果不佳。同时,对于不同用户来说,其对相同语句的发声所产生的语音信号也存在不可忽略的差异性,现有的方法未能解决这些问题。

技术实现思路

[0004]本专利技术的目的在于,为克服现有技术缺陷,提供了语音信号识别模型构建方法、装置、设备及介质,不但能够识别强干扰条件下的语音信号,还考虑了用户语音之间的差异性,提高了通信语音信号的识别效果。
[0005]本专利技术目的通过下述技术方案来实现:
[0006]一种语音信号识别模型构建方法,所述方法包括:
[0007]响应于获取的语音信号数据集,构建元训练集和元测试集;
[0008]构建语音信号识别模型,随机初始化后获得初始参数;
[0009]使用所述元训练集对所述语音信号识别模型进行训练得到通用参数。
[0010]进一步的,所述构建元训练集和元测试集具体包括:
[0011]按用户对所述数据集进行划分,将一个用户的全部语音信号数据作为一个任务;
[0012]在每一个原始任务中随机抽取若干条数据作为所述任务的支持集,在所述任务剩余的数据中随机抽取若干条数据组成所述任务的查询集,所述支持集和所述查询集组成新的任务,直至从所述数据集中每一个原始任务中都抽取出新的语音任务;
[0013]将全部新的语音任务随机划分为元训练集和元测试集。
[0014]进一步的,所述语音信号识别模型包括:
[0015]输入层,所述输入层包括卷积层,用于将数据输入一维卷积网络中进行特征提取;
[0016]隐藏层,所述隐藏层包括长短期记忆神经网络,将提取的特征输入到长短期记忆神经网络,获得隐藏层状态向量;
[0017]输出层,所述输出层包括全连接层,用于输出数据。
[0018]进一步的,所述使用所述元训练集对所述语音信号识别模型进行训练得到通用参数具体包括:
[0019]将支持集输入所述语音信号识别模型进行训练,采用损失函数如下:
[0020][0021]其中f
θ
(x)是通信语音识别网络模型使用初始参数θ计算出的输出,n为中的样本数据数量,为用户任务,为支持集;
[0022]求得损失后,使用随机梯度下降算法对模型参数θ进行更新,具体如下:
[0023][0024]其中α为任务学习率,θ
i
是所述模型在用户任务上取得的最优参数;
[0025]使用查询集的样本进行再次训练,并且使用均方根误差函数来计算损失:
[0026][0027]其中,为查询集,为语音识别网络模型使用参数θ
i
对样本x
i
的预测输出,n为中的样本数据数量;
[0028]通用参数θ

通过θ优化得到:
[0029][0030]进一步的,所述方法还包括使用所述元测试集对所述通用参数进行优化得到最优参数,具体包括以下步骤:
[0031]使用所述元测试集的样本对所述语音信号识别模型进行训练,计算得出在参数θ

上的损失值:
[0032][0033]根据对θ

进行更新:
[0034][0035]更新过后的θ
test

i
即是最优参数。
[0036]进一步的,所述方法还包括使用所述任务的查询集数据对最优参数进行评估。
[0037]进一步的,所述使用所述任务的查询集数据对所述最优参数进行评估具体包括:
[0038]使用损失计算公式:对
所述最优参数进行评估,为查询集数据,n为查询集数据中的样本数量。
[0039]另一方面,本专利技术还提供了一种语音信号识别模型构建装置,所述装置包括:
[0040]数据集构建模块,所述数据集构建模块用于响应获取的语音信号数据集,构建元训练集和元测试集;
[0041]模型构建模块,所述模型构建模块用于构建语音信号识别模型,随机初始化后获得初始参数;
[0042]通用参数获取模块,所述通用参数获取模块用于使用所述元训练集对所述语音信号识别模型进行训练得到通用参数;
[0043]可选地,本实施例提供的语音信号识别模型构建装置还包括最优参数获取模块,所述最优参数获取模块用于使用所述元测试集对所述通用参数进行优化得到最优参数。
[0044]另一方面,本专利技术还提供了一种计算机设备,计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现上述的任意一种语音信号识别模型构建方法。
[0045]另一方面,本专利技术还提供了一种计算机可读存储介质,所述存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现上述的任意一种语音信号识别模型构建方法。
[0046]本专利技术的有益效果在于:
[0047](1)本专利技术提出了一种小样本的用户通信语音信号识别方法,通过深度学习方法能够重新表征语音信号特征,将带有干扰噪声的通信语音信号解析为清晰易懂的语音数据。
[0048](2)本专利技术考虑了不同用户的发声差异性对语音信号数据产生的干扰。本方法能够训练一个可以快速适应新用户的通用模型,即通过独立训练多个用户的通信语音信号模型,通过元学习方法更新模型参数,获取较为通用的通信语音信号识别模型;新用户可以在此基础上仅使用少量训练数据就能够训练出其个性化的用户模型。
[0049](3)本专利技术够在面对新用户时,不必重新训练模型,而是在原有模型基础上进行微调和更新,降低了时间成本和模型训练难度。
附图说明
[0050]图1是本专利技术实施例提供的语音信号识别模型构建方法流程示意图;
[0051]图2是本专利技术实施例语音信号识别模型数据处理流程示意图;
[0052]图3是本专利技术实施例元学习流程示意图;
[0053]图4是本专利技术实施例提供的语音信号识别模型构建装置结构框图。
具体实施方式
[0054]以下通过特定的具体实例说明本专利技术的实施方式,本领域技术人员可由本说明书所揭露的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音信号识别模型构建方法,其特征在于,所述方法包括:响应于获取的语音信号数据集,构建元训练集和元测试集;构建语音信号识别模型,随机初始化后获得初始参数;使用所述元训练集对所述语音信号识别模型进行训练得到通用参数。2.如权利要求1所述的语音信号识别模型构建方法,其特征在于,所述构建元训练集和元测试集具体包括:按用户对所述数据集进行划分,将一个用户的全部语音信号数据作为一个任务;在每一个原始任务中随机抽取若干条数据作为所述任务的支持集,在所述任务剩余的数据中随机抽取若干条数据组成所述任务的查询集,所述支持集和所述查询集组成新的任务,直至从所述数据集中每一个原始任务中都抽取出新的语音任务;将全部新的语音任务随机划分为元训练集和元测试集。3.如权利要求2所述的语音信号识别模型构建方法,其特征在于,所述语音信号识别模型包括:输入层,所述输入层包括卷积层,用于将数据输入一维卷积网络中进行特征提取;隐藏层,所述隐藏层包括长短期记忆神经网络,将提取的特征输入到长短期记忆神经网络,获得隐藏层状态向量;输出层,所述输出层包括全连接层,用于输出数据。4.如权利要求3所述的语音信号识别模型构建方法,其特征在于,所述使用所述元训练集对所述语音信号识别模型进行训练得到通用参数具体包括:将支持集输入所述语音信号识别模型进行训练,采用损失函数如下:其中f
θ
(x)是通信语音识别网络模型使用初始参数θ计算出的输出,n为中的样本数据数量,为用户任务,为支持集;求得损失后,使用随机梯度下降算法对模型参数θ进行更新,具体如下:其中α为任务学习率,θ
i
是所述模型在用户任务上取得的最优参数;使用查询集的样本进行再次训练,并且使用均方根误差函数来计算损失:其中,为查询集,为语音识别网络模型使用参数θ
i
对样本x
i
的预测...

【专利技术属性】
技术研发人员:李文雄王帅陈丹丹罗宁娟徐亮孙天龙
申请(专利权)人:中国电子科技集团公司第十研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1