System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于语音识别,具体涉及基于特征差异集成的非自回归语音识别方法。
技术介绍
1、语音识别旨在将音频信号转换为对应的文本数据,通过学习语音样本间的变化规律来检测其中对应的文本内容。随着深度神经网络的出现和发展壮大,语音识别的发展方向也从传统算法走向了深度学习方向,达到并且超越了传统算法的性能。基于深度神经网络的语音识别模型分为了自回归方式和非自回归方式两种,非自回归方式能够在一步或有限步骤内直接预测音频数据中的文本表示,大幅度的提升语音识别过程中的推理效率,已经成为了当前研究热点。语音识别通常是通过大量训练直接将一段音频数据映射为对应的文本表示,由于缺乏对音频特征和文本对应关系的显式建模,现有方法难以精确描述音频中不同片段与文本内容的对应关系和对齐过程,导致模型的训练和优化过程缺乏透明性。面对空白语音、背景噪音和停顿等复杂干扰因素,现有模型在对齐精度和识别性能上表现出明显的局限性。
技术实现思路
1、本专利技术的目的是提供基于特征差异集成的非自回归语音识别方法,旨在以更加直观和高效的方式实现语音与文本的对齐,显著提升对齐过程的可解释性。同时,本专利技术对空白语音、背景噪音等干扰因素具有更强的鲁棒性,提升复杂场景下的对齐精度。
2、为了上述目的,本专利技术采用的技术方案是:基于特征差异集成的非自回归语音识别方法,具体按照以下步骤实施:
3、步骤1,收集音频数据转换为wav格式文件类型并进行标注,得到数据集,将数据集划分为训练集、验证集和测试集;
< ...【技术保护点】
1.基于特征差异集成的非自回归语音识别方法,其特征在于,具体按照以下步骤实施:
2.根据权利要求1所述的基于特征差异集成的非自回归语音识别方法,其特征在于,在所述步骤1中,收集各种音频格式的音频数据,将其统一转换为wav格式音频文件。
3.根据权利要求2所述的基于特征差异集成的非自回归语音识别方法,其特征在于,在所述步骤1中,标注是指将音频数据中的内容提取出来文本表示作为真实标签与音频数据对应。
4.根据权利要求3所述的基于特征差异集成的非自回归语音识别方法,其特征在于,所述步骤2中,预处理具体为:计算每个音频文件的采样率和音频长度信息,对于不符合采样要求或者音频长度过长和过短的音频数据进行丢弃。
5.根据权利要求4所述的基于特征差异集成的非自回归语音识别方法,其特征在于,在所述步骤3中,统计训练数据集中的文本数据具体为:
6.根据权利要求5所述的基于特征差异集成的非自回归语音识别方法,其特征在于,在所述步骤4中,构建的语音识别模型FDI包括依次连接的编码器层、FDI层、解码器层和损失层。
7.根据权利要求6
8.根据权利要求7所述的基于特征差异集成的非自回归语音识别方法,其特征在于,在所述步骤6中,将步骤2中预处理好的测试集数据输入到步骤5中训练好的FDI模型中进行测试,通过词错率指标评估模型的性能。
...【技术特征摘要】
1.基于特征差异集成的非自回归语音识别方法,其特征在于,具体按照以下步骤实施:
2.根据权利要求1所述的基于特征差异集成的非自回归语音识别方法,其特征在于,在所述步骤1中,收集各种音频格式的音频数据,将其统一转换为wav格式音频文件。
3.根据权利要求2所述的基于特征差异集成的非自回归语音识别方法,其特征在于,在所述步骤1中,标注是指将音频数据中的内容提取出来文本表示作为真实标签与音频数据对应。
4.根据权利要求3所述的基于特征差异集成的非自回归语音识别方法,其特征在于,所述步骤2中,预处理具体为:计算每个音频文件的采样率和音频长度信息,对于不符合采样要求或者音频长度过长和过短的音频数据进行丢弃。
5.根据权利要求4所述的基于特征差...
【专利技术属性】
技术研发人员:黑新宏,黄迁华,姬文江,邱原,王一川,朱磊,郭铨霖,
申请(专利权)人:西安理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。