System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于特征差异集成的非自回归语音识别方法技术_技高网

基于特征差异集成的非自回归语音识别方法技术

技术编号:44945230 阅读:3 留言:0更新日期:2025-04-12 01:20
本发明专利技术公开了基于特征差异集成的非自回归语音识别方法,包括:步骤1,收集音频数据转为wav格式并标注,划分为训练集、验证集和测试集;步骤2,对数据集中音频文件进行预处理操作;步骤3,统计训练集中的文本数据,通过统计词频、排序、去重后形成token列表;步骤4,构建语音识别模型FDI;步骤5,使用训练集对步骤4构建的FDI模型进行训练,使用验证集评估模型的性能变化,得到语音识别模型;步骤6,使用测试集评估模型的性能。本发明专利技术更直观的从音频数据中学习音频和文字的对齐,并减少了环境噪音、停顿等情况下对语音识别的影响。

【技术实现步骤摘要】

本专利技术属于语音识别,具体涉及基于特征差异集成的非自回归语音识别方法


技术介绍

1、语音识别旨在将音频信号转换为对应的文本数据,通过学习语音样本间的变化规律来检测其中对应的文本内容。随着深度神经网络的出现和发展壮大,语音识别的发展方向也从传统算法走向了深度学习方向,达到并且超越了传统算法的性能。基于深度神经网络的语音识别模型分为了自回归方式和非自回归方式两种,非自回归方式能够在一步或有限步骤内直接预测音频数据中的文本表示,大幅度的提升语音识别过程中的推理效率,已经成为了当前研究热点。语音识别通常是通过大量训练直接将一段音频数据映射为对应的文本表示,由于缺乏对音频特征和文本对应关系的显式建模,现有方法难以精确描述音频中不同片段与文本内容的对应关系和对齐过程,导致模型的训练和优化过程缺乏透明性。面对空白语音、背景噪音和停顿等复杂干扰因素,现有模型在对齐精度和识别性能上表现出明显的局限性。


技术实现思路

1、本专利技术的目的是提供基于特征差异集成的非自回归语音识别方法,旨在以更加直观和高效的方式实现语音与文本的对齐,显著提升对齐过程的可解释性。同时,本专利技术对空白语音、背景噪音等干扰因素具有更强的鲁棒性,提升复杂场景下的对齐精度。

2、为了上述目的,本专利技术采用的技术方案是:基于特征差异集成的非自回归语音识别方法,具体按照以下步骤实施:

3、步骤1,收集音频数据转换为wav格式文件类型并进行标注,得到数据集,将数据集划分为训练集、验证集和测试集;

<p>4、步骤2,预处理数据集中的音频文件;

5、步骤3,统计训练数据集中的文本数据;

6、步骤4,构建语音识别模型fdi;

7、步骤5,使用训练集对步骤4构建的fdi模型进行训练,得到语音识别模型,使用验证集评估模型训练过程中的性能变化;

8、步骤6,将测试集输入到训练好的语音识别模型fdi中,测试语音识别模型的性能。

9、作为本专利技术的一种优选的技术方案,在所述步骤1中,收集各种音频格式的音频数据,将其统一转换为wav格式音频文件。

10、作为本专利技术的一种优选的技术方案,在所述步骤1中,标注是指将音频数据中的内容提取出来文本表示作为真实标签与音频数据对应。

11、作为本专利技术的一种优选的技术方案,所述步骤2中,预处理具体为:计算每个音频文件的采样率和音频长度信息,对于不符合采样要求或者音频长度过长和过短的音频数据进行丢弃。

12、作为本专利技术的一种优选的技术方案,在所述步骤3中,统计训练数据集中的文本数据具体为:

13、步骤3.1,将训练集中的文本数据,以字作为基本单元进行划分,统计出现频率并进行排序、去重后,形成初始的token列表;

14、步骤3.2,向初始token列表中添加开始标记、结束标记、未知标记和空白标记形成最终的token列表。

15、作为本专利技术的一种优选的技术方案,在所述步骤4中,构建的语音识别模型fdi包括依次连接的编码器层、fdi层、解码器层和损失层。

16、作为本专利技术的一种优选的技术方案,在所述步骤5中,将步骤2中预处理后的音频数据和对应的标签数据输入到语音识别模型fdi中进行训练,具体训练过程如下:

17、步骤5.1,首先对音频数据提取80维的fbank频谱特征,并对频谱特征在时间和频率上进行增强;

18、步骤5.2,将步骤5.1中增强后得到的音频数据输入到编码器层中,编码器层是基于注意力机制的conformer,首先进行4倍下采样,然后进入多个conformer块,每个conformer块包含了两个半步前馈层、一个多头注意力和一个卷积层,数据在conformer块中的流程如下:

19、

20、

21、x″i=x′i+cnn(x′i)

22、

23、其中:xi为下采样后的声学特征,ffn为前馈层,mhsa为多头注意力机制,cnn为卷积层,layernorm为层归一化;

24、步骤5.3,将经过编码器的编码结果输入到fdi层中进行对齐,特征在fdi中首先会对比前后相邻的特征之间的差异,将特征的差异并转化为一个具体数值,经过relu激活函数得到当前特征的变化量,变化量为0-1之间,根据变化量变化趋势判定当前语音前后边界并进行加权聚合,聚合的特征可以视为一个字符,之后继续聚合下一个字符;计算变化量时,空白语音、环境噪声和停顿会因为特征类似导致变化量较少,从而减少对语音识别准确率的影响;

25、步骤5.4,将步骤5.3的聚合结果输入到解码器层进行特征的最后编码,解码器层使用了transformer的编码器层,对经过fdi层聚合后的特征建立上下文关联;首先会对特征进行位置编码,之后会进入到多个编码器块中进行特征编码,每个编码器块包含了两个层归一化,一个多头注意力和一个前馈层,具体流程如下:

26、x′=x+pos

27、x″=layernorm(x′+mhsa(x′))

28、x″′=layernorm(x″+ffn(x″))

29、其中x为经过fdi层聚合后的特征,pos表示位置编码。

30、步骤5.5,将步骤5.4的结果输入到损失层计算损失函数,损失层由一个线性层和ctc损失函数构成,首先会将每个特征映射成token列表长度一致特征维度,通过ctc损失函数计算预测结果和真实标签的损失,使用adam优化器进行优化,优化器的学习率为0.001,在迭代结束后,得到的最终模型即为已经训练好的语音识别模型fdi。

31、作为本专利技术的一种优选的技术方案,在所述步骤6中,将步骤2中预处理好的测试集数据输入到步骤5中训练好的fdi模型中进行测试,通过词错率指标评估模型的性能。

32、本专利技术的有益效果是:本专利技术基于特征差异集成的非自回归语音识别方法,通过感知音频特征的前后差异性和变化趋势,判断音频特征序列和文本单元的对应关系,进一步引入差异性和变化趋势作为权重,对音频特征进行聚合。该方法不仅显式地对音频特征和文本单元进行对齐,提升对齐过程的可解释性,还能够有效应对复杂语音环境中的挑战,显著提升语音识别系统的鲁棒性和性能。

本文档来自技高网
...

【技术保护点】

1.基于特征差异集成的非自回归语音识别方法,其特征在于,具体按照以下步骤实施:

2.根据权利要求1所述的基于特征差异集成的非自回归语音识别方法,其特征在于,在所述步骤1中,收集各种音频格式的音频数据,将其统一转换为wav格式音频文件。

3.根据权利要求2所述的基于特征差异集成的非自回归语音识别方法,其特征在于,在所述步骤1中,标注是指将音频数据中的内容提取出来文本表示作为真实标签与音频数据对应。

4.根据权利要求3所述的基于特征差异集成的非自回归语音识别方法,其特征在于,所述步骤2中,预处理具体为:计算每个音频文件的采样率和音频长度信息,对于不符合采样要求或者音频长度过长和过短的音频数据进行丢弃。

5.根据权利要求4所述的基于特征差异集成的非自回归语音识别方法,其特征在于,在所述步骤3中,统计训练数据集中的文本数据具体为:

6.根据权利要求5所述的基于特征差异集成的非自回归语音识别方法,其特征在于,在所述步骤4中,构建的语音识别模型FDI包括依次连接的编码器层、FDI层、解码器层和损失层。

7.根据权利要求6所述的基于特征差异集成的非自回归语音识别方法,其特征在于,在所述步骤5中,将步骤2中预处理后的音频数据和对应的标签数据输入到语音识别模型FDI中进行训练,具体训练过程如下:

8.根据权利要求7所述的基于特征差异集成的非自回归语音识别方法,其特征在于,在所述步骤6中,将步骤2中预处理好的测试集数据输入到步骤5中训练好的FDI模型中进行测试,通过词错率指标评估模型的性能。

...

【技术特征摘要】

1.基于特征差异集成的非自回归语音识别方法,其特征在于,具体按照以下步骤实施:

2.根据权利要求1所述的基于特征差异集成的非自回归语音识别方法,其特征在于,在所述步骤1中,收集各种音频格式的音频数据,将其统一转换为wav格式音频文件。

3.根据权利要求2所述的基于特征差异集成的非自回归语音识别方法,其特征在于,在所述步骤1中,标注是指将音频数据中的内容提取出来文本表示作为真实标签与音频数据对应。

4.根据权利要求3所述的基于特征差异集成的非自回归语音识别方法,其特征在于,所述步骤2中,预处理具体为:计算每个音频文件的采样率和音频长度信息,对于不符合采样要求或者音频长度过长和过短的音频数据进行丢弃。

5.根据权利要求4所述的基于特征差...

【专利技术属性】
技术研发人员:黑新宏黄迁华姬文江邱原王一川朱磊郭铨霖
申请(专利权)人:西安理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1