System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及语音识别,尤其涉及一种语音识别模型的训练方法、装置、计算机设备及存储介质。
技术介绍
1、语音识别技术是一种能够将人类语音信号转换为相应文本或指令的技术,其在人工智能、自然语言处理、机器翻译等领域都有着广泛的应用。传统的语音识别往往主要依赖人工录入的方式进行识别,该方式不仅效率低下,还会产生较高的人工成本。而语音识别模型借助对海量互联网语音数据的训练,已经具备了对多种语言进行自然流畅识别的能力,这使得语音识别工作的效率获得了极大程度的提升,同时也大幅度的降低了人工成本。
2、预训练的语音识别模型通常是在大规模通用语音数据上训练得到的,能处理较为宽泛的语音识别场景,然而,在面对诸如金融、医疗等特定的语音识别场景,该模型的语音识别效果不佳,而在语音识别模型训练时进行微调,可以使其更好地适配这些特定场景的需求,进而提升语音识别模型在特定场景下的识别准确率。传统的语音识别模型的微调方法,大多是以transformer结构作为基础架构,先是去收集并标注那些针对特定场景的语音数据,然后利用这些数据来对预训练的语音模型进行训练。但transformer结构缺乏关注语音识别任务中特有的输入语音信号与输出文本的单调对齐特性,同时缺少特定任务的指令输入,导致训练好的语音识别模型在特定场景下进行语音识别的准确率不高。
技术实现思路
1、本专利技术提供一种语音识别模型的训练方法、装置、计算机设备及存储介质,以解决现有的语音识别模型在特定场景下的语音识别效果不佳的技术问题。
...【技术保护点】
1.一种语音识别模型的训练方法,其特征在于,包括:
2.根据权利要求1所述的语音识别模型的训练方法,其特征在于,所述对获取的多任务语音训练数据进行数据预处理,包括:
3.根据权利要求1所述的语音识别模型的训练方法,其特征在于,所述对数据预处理后的多任务语音训练数据进行音频特征提取,得到多任务语音训练数据的音频特征序列,包括:
4.根据权利要求1所述的语音识别模型的训练方法,其特征在于,所述将提取的多任务语音训练数据的音频特征序列输入至预训练语音识别模型的编码器中进行编码处理,得到多任务语音训练数据的音频编码向量,包括:
5.根据权利要求1所述的语音识别模型的训练方法,其特征在于,所述将调整输入格式后的先验文本序列和多任务语音训练数据的音频编码向量输入至预训练语音识别模型的解码器中进行解码,并根据解码结果预测预训练语音识别模型输出的字符序列,包括:
6.根据权利要求1所述的语音识别模型的训练方法,其特征在于,所述根据预测的预训练语音识别模型输出的字符序列构建训练时的语音识别模型的单调性限制损失函数,包括:
7.
8.一种语音识别模型的训练装置,所述装置用于实现如权利要求1-7任一项所述的语音识别模型的训练方法,其特征在于,包括:
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的语音识别模型的训练方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的语音识别模型的训练方法的步骤。
...【技术特征摘要】
1.一种语音识别模型的训练方法,其特征在于,包括:
2.根据权利要求1所述的语音识别模型的训练方法,其特征在于,所述对获取的多任务语音训练数据进行数据预处理,包括:
3.根据权利要求1所述的语音识别模型的训练方法,其特征在于,所述对数据预处理后的多任务语音训练数据进行音频特征提取,得到多任务语音训练数据的音频特征序列,包括:
4.根据权利要求1所述的语音识别模型的训练方法,其特征在于,所述将提取的多任务语音训练数据的音频特征序列输入至预训练语音识别模型的编码器中进行编码处理,得到多任务语音训练数据的音频编码向量,包括:
5.根据权利要求1所述的语音识别模型的训练方法,其特征在于,所述将调整输入格式后的先验文本序列和多任务语音训练数据的音频编码向量输入至预训练语音识别模型的解码器中进行解码,并根据解码结果预测预训练语音识别模型输出的字符序列,包括:
6.根据...
【专利技术属性】
技术研发人员:庄子扬,魏韬,王少军,肖京,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。