一种语音识别方法及系统技术方案

技术编号：40078562 阅读：9 留言：0更新日期：2024-01-17 02:02

本发明专利技术公开了一种语音识别方法及系统，涉及语音识别的技术领域。首先，获取音频信号，对所述音频信号进行预处理；然后引入滤波器组，对所述滤波器组进行分数阶设计，得到分数阶滤波器组，利用分数阶滤波器组从预处理后的音频信号中提取分数阶GFCC系数；构建随机森林机器学习模型，将所述分数阶GFCC系数划分为训练集与测试集，利用训练集对所述随机森林机器学习模型进行语音识别训练，利用测试集对完成每一轮次训练的随机森林机器学习模型进行语音识别测试，得到训练好的随机森林机器学习模型；最后，利用训练好的随机森林机器学习模型对待识别的音频信号进行语音识别，并输出识别结果。有效提升语音识别的性能，减小语音识别的工作量。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音识别的，尤其涉及一种语音识别方法及系统。

技术介绍

1、语言是人类最主要的交流方式之一，随着人工智能的不断发展进步，语言不仅用于人与人之间的日常交流，还用于人机交流，且人机交互越来越频繁与深入。现有的人机交互技术中，包括语言交互和语音交互等，语言交互是人通过手动操作，将字符信号输入至机器中，机器做出相应的反映，而语音交互是人将语音作为信号传输至机器中，机器做出相应的反应。

2、现有常用于语音识别技术的方法主要有lpcc(线性预测倒谱系数)、mfcc(mel频率倒谱系数)、分数阶gfcc(gammatone频率倒谱系数)以及它们的一些组合与各种深度学习模型等。lpcc是一种用于提取音频信号特征的方法，它通过线性预测分析(lpc)提取语音信号的预测系数，这些系数描述了信号的的频率特性与共振峰，对这些系数进行倒谱分析得到lpcc系数，以捕捉语音信号的主要特性。mfcc是基于梅尔尺度(mel scale)，将音频信号的频谱转换为与人耳感知特性接近的尺度，通过一系列预处理后通过梅尔滤波器与离散余弦变换(dct)得mfcc倒谱系数，并结合差分系数结合成完整的mfcc系数。而gfcc是在gammatone滤波器基础上改进的一种特征提取方法，它模拟了人耳对不同频率的敏感性，对音频信号滤波得到滤波器系数，再通过dct变化得到gfcc系数。

3、然而，上述方法存在动态特性建模能力与线性预测的抗噪声能力较弱，导致适用的场景受到限制，且对数据量要求高，在数据量少的情况下性能会断崖式下降，导致语音识别性能受限，从

技术实现思路

1、为解决现有语音识别技术存在语音识别性能差导致语音识别工作量大的问题，本专利技术提出一种语音识别方法及系统，可以有效地捕捉语音信号的频率细节，提升语音识别的性能，进而减小语音识别的工作量。

2、为实现本专利技术的目的，本专利技术采用如下技术方案实现：

3、一种语音识别方法，包括以下步骤：

4、s1：获取音频信号，对所述音频信号进行预处理；

5、s2：引入滤波器组，对所述滤波器组进行分数阶设计，得到分数阶滤波器组，将预处理后的音频信号输入至分数阶滤波器组；

6、s3：利用分数阶滤波器组提取音频信号的分数阶gfcc系数；

7、s4：构建随机森林机器学习模型，将所述分数阶gfcc系数划分为训练集与测试集，利用训练集对所述随机森林机器学习模型进行语音识别训练，利用测试集对完成每一轮次训练的随机森林机器学习模型进行语音识别测试，得到训练好的随机森林机器学习模型；

8、s5：利用训练好的随机森林机器学习模型对待识别的音频信号进行语音识别，并输出识别结果；

9、其中，gfcc系数表示gammatone频率倒谱系数。

10、在上述技术发中，对获取的音频信号进行预处理，能够有效的提高音频信号在使用过程中的有效性；对滤波器组进行分数阶设计，能够将滤波器组在时域上频率转换为频域上频率，得到分数阶滤波器组，进而增强语音识别过程中频率分辨的能力，从而更好地捕捉语音信号的频率细节，同时，分数阶滤波器组能够在时域与频域上更准确的分析语音信号的变化和动态特性，进而更好地捕捉语音信号中的非线性变换，从而有效地提取音频信号的分数阶gfcc系数；利用提取的gfcc系数对构建的随机森林机器学习模型进行训练与测试，能够得到一个满足预期要求并用于的语音识别随机森林机器学习模型，利用所述随机森林机器学习模型对待识别的语音信号进行语音识别，能够有效地捕捉语音信号的频率细节，提升语音识别的性能，进而减小语音识别的工作量。

11、步骤s1所述的对所述音频信号进行预处理的具体过程为：

12、s11：将音频信号划分为有声音频信号与无声音频信号，将无声音频信号切割剔除，保留有声音频信号；

13、s12：对有声音频信号进行预加重处理；

14、s13：将预加重处理后的有声音频信号进行分帧，对分帧后的每一帧有声音频信号进行加窗处理。

15、步骤s11中将无声音频信号切割剔除方法为语音活动检测方法vad。

16、在步骤12中，使用预加重函数对有声音频信号进行预加重处理，预加重函数表达式为：

17、

18、其中，α表示加重权重，表示vad切割后的有声音频信号段。

19、在步骤s13中，使用加窗函数对分帧后的每一帧有声音频信号进行加窗处理，加窗函数表达式为：

20、x(n)＝z(n)w(n)；

21、其中，w(n)表示窗函数，x(n)表示加窗后的有声音频信号，z(n)表示预加重后的有声音频信号。

22、根据上述技术方案，利用语音活动检测方法vad将音频信号中的无声音频信号剔除，保留有声音频信号，能够减少随机森林机器学习模型的训练量，进而减少训练时间，且增加训练的稳定性；对有声音频信号进行预加重处理，能够有效补偿声音在空气中传播损失的高频分量；对有声音频信号进行分帧，能够有效地将一整段有声音频信号划分为若干份一定程度的短时帧有声音频信号，对分帧后的每一帧有声音频信号进行加窗，能够有效地将每一帧有声音频信号独立出来，进而方便使用的过程中，更容易的提取使用。

23、步骤s2所述的对所述滤波器组进行分数阶设计的具体过程为：

24、s21：引入一个gammatone滤波器组，设所述gammatone滤波器组包含m个gammatone滤波器，每一个gammatone滤波器在时域上的频率为hi(t)，表达式为：

25、

26、其中，mi表示滤波器的阶数，bi表示滤波器的带宽，ai、fi、φ分别表示滤波器的振幅、中心频率和相位，i表示第i个gammatone滤波器，i＝0,...,m-1，表示单位阶跃函数；

27、s22：设用于对gammatone滤波器进行分数阶设计的分数阶微分函数为dp，表达式为：

28、

29、其中，dp表示第p阶导数算子，p≥1，γ(z)表示gamma函数，0≤1-p≤z；

30、s23：利用分数阶微分函数dp将每一个gammatone滤波器在时域上的频率转化为频域上的频率，得到分数阶gammatone滤波器组在频域上的频率h(ω)，表达式为：

31、

32、其中，j表示虚数，i＝0,...,m-1。

33、根据上述技术方案，利用分数阶微分函数为dp对gammatone滤波器组中的每一个gammatone滤波器进行进行分数阶设本文档来自技高网...

【技术保护点】

1.一种语音识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的语音识别方法，其特征在于，步骤S1所述的对所述音频信号进行预处理的具体过程为：

3.根据权利要求2所述的语音识别方法，其特征在于，将无声音频信号切割剔除方法为语音活动检测方法VAD。

4.根据权利要求3所述的语音识别方法，其特征在于，在步骤12中，使用预加重函数对有声音频信号进行预加重处理，预加重函数表达式为：

5.根据权利要求4所述的语音识别方法，其特征在于，在步骤S13中，使用加窗函数对分帧后的每一帧有声音频信号进行加窗处理，加窗函数表达式为：

6.根据权利要求5所述的语音识别方法，其特征在于，步骤S2所述的对每一个所述滤波器组进行分数阶设计的具体过程为：

7.根据权利要求6所述的语音识别方法，其特征在于，步骤S3所述的利用分数阶Gammatone滤波器组提取音频信号的分数阶GFCC系数的具体过程为：

8.根据权利要求7所述的语音识别方法，其特征在于，步骤S4所述的利用训练集对所述随机森林机器学习模型进行语音识别训练的具体过程为：

9.根据权利要求8所述的语音识别方法，其特征在于，利用训练集T1对所述随机森林机器学习模型进行语音识别训练时，采用自适应动量优化器Adam。

10.一种语音识别系统，其特征在于，包括：

...

【技术特征摘要】

1.一种语音识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的语音识别方法，其特征在于，步骤s1所述的对所述音频信号进行预处理的具体过程为：

3.根据权利要求2所述的语音识别方法，其特征在于，将无声音频信号切割剔除方法为语音活动检测方法vad。

4.根据权利要求3所述的语音识别方法，其特征在于，在步骤12中，使用预加重函数对有声音频信号进行预加重处理，预加重函数表达式为：

5.根据权利要求4所述的语音识别方法，其特征在于，在步骤s13中，使用加窗函数对分帧后的每一帧有声音频信号进行加窗处理，加窗函数表达式为：

6.根据权利要求5所...

【专利技术属性】
技术研发人员：凌永权，张家瑞，
申请(专利权)人：广东工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人