System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及语音识别,特别是涉及一种英语口语识别方法、系统、设备、介质及程序产品。
技术介绍
1、语音识别是一种将语音信号转换为文本或命令的技术,也被称为自动语音识别()。语音识别系统能够将说话者的口头语音转换为书面文本,使计算机能够理解和处理语音输入。
2、在深度学习技术兴起之前,语音识别主要采用传统的信号处理和模式匹配技术。模式匹配技术包括动态时间规整和隐马尔可夫模型,这些技术用于对语音信号的特征进行建模和匹配,以识别说话者的语音。
3、然而,传统的语音识别方法存在一些显著的缺点。首先,这类方法通常基于有限的词汇和手工设计的语法规则,限制这类方法在处理广泛的词汇和更自由的语言表达时的能力。其次,这类方法依赖手工设计的特征提取方法,如梅尔倒谱系数和线性预测编码,这些特征提取方法需要领域专业知识,且可能无法充分捕捉语音信号中的抽象特征。最后,这类方法所采用的模型如高斯混合模型和隐马尔可夫模型在捕捉复杂的语音模式和长期依赖性方面存在一定的局限性。
4、深度学习模型能够更好地处理复杂的语音模式、更大规模的数据集,并且对环境噪声更具鲁棒性。不过尽管基于深度学习的语音识别方法取得了显著的效果,但也仍存在着一些不足,如模型主要对音频数据的时间维度进行依赖性计算、数据量不足会导致模型的实际识别效果不佳等。
5、例如,在语音识别领域的一种新颖的卷积增强架构。由于能够从音频信号中同步捕获全局特征和局部特征,使得模块不仅成为任务的常用模型,而且还成为各种端到端语音处理任务的模型。但是,其大部分模型
6、另外,深度神经网络的主要驱动力是大量训练数据的可用性,但这对于语音识别来说并不总是可行的。这是因为收集大规模含有文本标签的音频数据的成本很高,特别是在口语考试场景下,大部分考生的口语发音并不标准且不统一,且音频中包含了很大一部分的静音或断断续续的片段,这很大程度上增加了转录的成本。这类质量较低的音频数据难以训练出高准确率的语音识别模型,影响识别准确率。
技术实现思路
1、为了解决上述问题,本专利技术提出了一种英语口语识别方法、系统、设备、介质及程序产品,设计(convolutional network net generation,下一代卷积神经网络)模块的堆叠强化模块中原有的下采样模块,以关注语音特征的时频特性,在下采样模块后设计时频依赖性计算模块同时计算时间维度和频率维度的依赖性,并把两种特征进行融合;同时在编码器中融合渐进式下采样和分组多头自注意力机制,提高模型计算效率。
2、为了实现上述目的,本专利技术采用如下技术方案:
3、第一方面,本专利技术提供一种英语口语识别方法,包括:
4、获取语音信号并提取音频特征,对音频特征提取时间特征和频率特征;
5、对时间特征经维度变换后计算时间依赖性,并与维度变换后的时间特征进行残差连接得到时间依赖性特征,对频率特征经维度变换后计算频率依赖性,并与维度变换后的频率特征进行残差连接得到频率依赖性特征,对时间依赖性特征和频率依赖性特征采用交叉注意力机制融合和残差连接后,得到融合特征;
6、对融合特征采用三阶段编码器进行渐进式下采样处理;其中,第一阶段中,对融合特征采用分组多头自注意力机制沿时间维度进行分组,每组单独计算注意力;
7、对三阶段编码器的输出特征进行解码得到字符概率分布,并以此得到语音识别结果。
8、作为可选择的实施方式,对音频特征提取时间特征和频率特征的过程包括:采用堆叠的模块构成下采样模块,且模块的通道依次增加,以此提取时间特征和频率特征;具体为:
9、对音频特征通过步幅为的卷积层在时间维度和频率维度上进行下采样,然后经批归一化操作后输入到第一模块中;
10、第一模块的输出依次通过步幅为的卷积层和批归一化操作后输入到第二模块中;
11、第二模块的输出依次通过步幅为的卷积层和批归一化操作后输入到第三模块中;
12、第三模块的输出依次经层归一化操作和线性层操作进行维度转换后完成对时间特征和频率特征的提取。
13、作为可选择的实施方式,提取时间依赖性特征和频率依赖性特征的过程包括:对时间特征和频率特征分别经维度重塑操作后,采用时域块和频域块分别计算时域依赖性和频域依赖性,再经残差连接后通过线性层统一到相同维度,从而分别得到时间依赖性特征和频率依赖性特征。
14、作为可选择的实施方式,特征融合的过程包括:通过交叉注意力机制将时域依赖性特征和频域依赖性特征进行融合后,通过线性投影和维度重塑后再与输入的时间特征和频率特征进行残差连接得到融合特征。
15、作为可选择的实施方式,分组多头自注意力机制包括:采用分组多头自注意力机制沿时间维度进行分组,每组内的注意力头共享相同的参数,每组进行一次线性变换后,将得到的注意力矩阵分别送入各自的组内注意力头中计算注意力,由此将注意力复杂度从降到,其中,是序列长度,是特征维度,是分组数,注意力矩阵的维度从×变为×,,。
16、作为可选择的实施方式,所述英语口语识别方法还包括:语音识别结果由训练后的语音识别模块处理得到,采用预训练-微调的范式训练语音识别模块,其中,微调时频依赖性计算过程的参数、第一阶段编码器中的参数和解码过程的参数,且统一采用激活函数。
17、第二方面,本专利技术提供一种英语口语识别系统,包括:
18、特征提取及下采样模块,被配置为获取语音信号并提取音频特征,对音频特征提取时间特征和频率特征;
19、时频依赖性计算模块,被配置为对时间特征经维度变换后计算时间依赖性,并与维度变换后的时间特征进行残差连接得到时间依赖性特征,对频率特征经维度变换后计算频率依赖性,并与维度变换后的频率特征进行残差连接得到频率依赖性特征,对时间依赖性特征和频率依赖性特征采用交叉注意力机制融合和残差连接后,得到融合特征;
20、编码模块,被配置为对融合特征采用三阶段编码器进行渐进式下采样处理;其中,第一阶段中,对融合特征采用分组多头自注意力机制沿时间维度进行分组,每组单独计算注意力;
21、解码模块,被配置为对三阶段编码器的输出特征进行解码得到字符概率分布,并以此得到语音识别结果。
22、第三方面,本专利技术提供一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成第一方面所述的方法。
23、第四方面,本专利技术提供一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的方法。
24、第五方面,本专利技术提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现完成第一方面所述的方法。
<本文档来自技高网...【技术保护点】
1.一种英语口语识别方法,其特征在于,包括:
2.如权利要求1所述的一种英语口语识别方法,其特征在于,对音频特征提取时间特征和频率特征的过程包括:采用堆叠的模块构成下采样模块,且模块的通道依次增加,以此提取时间特征和频率特征;具体为:
3.如权利要求1所述的一种英语口语识别方法,其特征在于,提取时间依赖性特征和频率依赖性特征的过程包括:对时间特征和频率特征分别经维度重塑操作后,采用时域块和频域块分别计算时域依赖性和频域依赖性,再经残差连接后通过线性层统一到相同维度,从而分别得到时间依赖性特征和频率依赖性特征。
4.如权利要求1所述的一种英语口语识别方法,其特征在于,特征融合的过程包括:通过交叉注意力机制将时域依赖性特征和频域依赖性特征进行融合后,通过线性投影和维度重塑后再与输入的时间特征和频率特征进行残差连接得到融合特征。
5.如权利要求1所述的一种英语口语识别方法,其特征在于,分组多头自注意力机制包括:采用分组多头自注意力机制沿时间维度进行分组,每组内的注意力头共享相同的参数,每组进行一次线性变换后,将得到的注意力矩阵分别送入各自
6.如权利要求1所述的一种英语口语识别方法,其特征在于,所述英语口语识别方法还包括:语音识别结果由训练后的语音识别模块处理得到,采用预训练-微调的范式训练语音识别模块,其中,微调时频依赖性计算过程的参数、第一阶段编码器中的参数和解码过程的参数,且统一采用激活函数。
7.一种英语口语识别系统,其特征在于,包括:
8.一种电子设备,其特征在于,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-6任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-6任一项所述的方法。
10.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序被处理器执行时实现完成权利要求1-6任一项所述的方法。
...【技术特征摘要】
1.一种英语口语识别方法,其特征在于,包括:
2.如权利要求1所述的一种英语口语识别方法,其特征在于,对音频特征提取时间特征和频率特征的过程包括:采用堆叠的模块构成下采样模块,且模块的通道依次增加,以此提取时间特征和频率特征;具体为:
3.如权利要求1所述的一种英语口语识别方法,其特征在于,提取时间依赖性特征和频率依赖性特征的过程包括:对时间特征和频率特征分别经维度重塑操作后,采用时域块和频域块分别计算时域依赖性和频域依赖性,再经残差连接后通过线性层统一到相同维度,从而分别得到时间依赖性特征和频率依赖性特征。
4.如权利要求1所述的一种英语口语识别方法,其特征在于,特征融合的过程包括:通过交叉注意力机制将时域依赖性特征和频域依赖性特征进行融合后,通过线性投影和维度重塑后再与输入的时间特征和频率特征进行残差连接得到融合特征。
5.如权利要求1所述的一种英语口语识别方法,其特征在于,分组多头自注意力机制包括:采用分组多头自注意力机制沿时间维度进行分组,每组内的注意力头共享相同的参数,每组进行一次线...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。