【技术实现步骤摘要】
一种对语音识别模型进行压缩的方法、装置及存储介质
[0001]本申请涉及语音识别领域,更具体的说,涉及一种对语音识别模型进行压缩的方法、装置及存储介质。
技术介绍
[0002]语音识别,也被称为自动语音识别(Automat ic Speech Recogn it ion,ASR),是人机交互与通信的关键组成部分,其主要目的是使机器“听懂”人类所说的语音,将语音信号转变为文本信号。
[0003]目前,为了追求更高的语音识别性能,不可避免的会导致语音识别模型的网络结构更加复杂,网络计算量以及网络参数成倍增长,如此会带来高额的存储空间和计算资源消耗。
[0004]然而,在一些资源受限的场景,如智能手机、车载等场景,巨大的计算量以及参数量使语音识别模型很难部署到智能终端设备,无法满足资源受限的场景的语音识别使用需求。
技术实现思路
[0005]有鉴于此,本申请实施例公开一种对语音识别模型进行压缩的方法、装置及存储介质,对语音识别模型进行有效压缩,得到满足计算资源且识别精度较高的语音识别模型。
[0006]本申请实施例提供的技术方案如下:
[0007]第一方面,本申请实施例提供了一种对语音识别模型进行压缩的方法,所述方法包括:
[0008]以无标签语音数据集作为第一训练数据,利用知识蒸馏算法对原始语音识别模型进行训练,得到第一语音识别模型;
[0009]以所述无标签语音数据集和有标签语音数据集作为第二训练数据,对所述第一语音识别模型进行语音识别任务的微调,得到第二 ...
【技术保护点】
【技术特征摘要】
1.一种对语音识别模型进行压缩的方法,其特征在于,所述方法包括:以无标签语音数据集作为第一训练数据,利用知识蒸馏算法对原始语音识别模型进行训练,得到第一语音识别模型;以所述无标签语音数据集和有标签语音数据集作为第二训练数据,对所述第一语音识别模型进行语音识别任务的微调,得到第二语音识别模型;以所述有标签语音数据集作为第三训练数据,利用神经网络结构搜索算法对所述第二语音识别模型进行训练,得到第三语音识别模型;其中,所述第三语音识别模型包括多个子语音识别模型;从所述多个子语音识别模型中提取一个子语音识别模型,得到压缩后的语音识别模型;所述压缩后的语音识别模型用于对待识别的语音数据进行识别。2.根据权利要求1所述的方法,其特征在于,所述以无标签语音数据集作为第一训练数据,利用知识蒸馏算法对原始语音识别模型进行训练,得到第一语音识别模型,包括:在所述原始语音识别模型增加线性层,得到第四语音识别模型;所述线性层用于将所述第四语音识别模型的输出维度映射到和所述原始语音识别模型的输出维度一致;利用所述原始语音识别模型作为知识蒸馏算法的老师模型,所述第四语音识别模型作为知识蒸馏算法的学生模型,通过老师模型来指导学生模型进行训练,得到所述第一语音识别模型;其中,所述原始语音识别模型不对所述无标签语音数据集做掩码,所述第四语音识别模型对所述无标签语音数据集做掩码。3.根据权利要求2所述的方法,其特征在于,所述利用所述原始语音识别模型作为知识蒸馏算法的老师模型,所述第四语音识别模型作为知识蒸馏算法的学生模型,通过老师模型来指导学生模型进行训练,得到第一语音识别模型,包括:将所述无标签语音数据集输入所述原始语音识别模型进行训练,得到所述原始语音识别模型的Transformer模块中每个Transformer层的输出结果;对前K个所述Transformer层的输出结果进行均值计算,得到第一输出结果;将所述无标签语音数据集输入所述第四语音识别模型进行训练,得到第二输出结果;所述第二输出结果为所述第四语音识别模型的Transformer模块的输出结果;利用所述第一输出结果和所述第二输出结果计算得到第一损失值;以最小化第一损失值作为第一训练目标,对所述第四语音识别模型进行迭代训练,直至所述第四语音识别模型收敛,得到所述第一语音识别模型。4.根据权利要求1所述的方法,其特征在于,所述以所述无标签语音数据集和有标签语音数据集作为第二训练数据,对所述第一语音识别模型进行语音识别任务的微调,得到第二语音识别模型,包括:在所述第一语音识别模型增加线性映射模块,得到第五语音识别模型;将所述有标签语音数据集输入所述第五语音识别模型进行语音识别任务的微调,得到所述线性映射模块的第三输出结果;将所述无标签语音数据集输入所述第五语音识别模型进行语音识别任务的微调,得到所述线性映射模块的第四输出结果;利用所述第三输出结果和所述第四输出结果计算得到第二损失值;以最小化第二损失值作为第二训练目标,对所述第五语音识别模型进行迭代训练...
【专利技术属性】
技术研发人员:何雪,方磊,方四安,周振昆,胡鹏,
申请(专利权)人:合肥讯飞数码科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。