长语音识别模型训练方法及电子设备和存储介质技术

技术编号：36846646 阅读：9 留言：0更新日期：2023-03-15 16:34

本发明专利技术公开一种长语音识别模型训练方法及电子设备和存储介质，其中方法包括：获取构造完成的长语音训练数据，其中，所述长语音训练数据包括提取的声学输入特征、用于训练端点检测模型的帧级别分类标签和用于训练语音识别模型的文本标签；利用所述长语音训练数据对所述端点检测模型和所述语音识别模型进行联合训练。本发明专利技术实施例通过获取构造完成的长语音训练数据来对端点检测模型和语音识别模型进行联合训练，在优化端点检测模型的基础上引入识别模型提供的相关信息辅助端点检测模型的训练优化，实现一套完整的联合优化方法，有效的提升了长语音这个链路的识别性能。效的提升了长语音这个链路的识别性能。效的提升了长语音这个链路的识别性能。

全部详细技术资料下载

【技术实现步骤摘要】
长语音识别模型训练方法及电子设备和存储介质

[0001]本专利技术属于语音识别
，尤其涉及一种长语音识别模型训练方法及电子设备和存储介质。

技术介绍

[0002]随着深度学习的不断发展，语音识别的性能也得到了大幅度的提升，无论是在研究还是工业界都取得了广泛的应用。然而在实际落地的过程中，应用场景和数据的复杂性使得语音识别想要获得预期的识别性能往往需要限定许多前置条件，这些前置条件造成了测试和实际使用感受不一致的情况，尤其是在长语音转写的情况下，比如会议、质检以及音视频等场景下。
[0003]在现有技术中，长语音识别技术被广泛使用，如人机交互领域，利用人机交互的形式来实现在无人工主动控制的情形下机器人及时对物品跌落泼洒等情况产生的异物进行及时判断和清洁，避免了清洁机器人在使用时因无法及时发现并处理脏污导致的异味扩散以及牢固后无法方便清除等问题。该方法涉及到的语音识别系统主要还是针对传统交互领域，虽然方法中说明其是基于长语音的识别交互方法，但是在交互领域，识别内容的难度和复杂程度都远远要小于真正的长语音录音文件转写领域，针对真正的长语音领域识别目前存在的一些困难并没有给出特定的解决方案，还是基于传统的语音识别系统链路去进行方案的设计。对于中文长语音的识别方法，提到的长语音识别系统针对长语音的特性基于语音端点检测系统构、语音识别模型和语言模型构成整个链路，但是实际上长语音识别单独依靠以上各个模块很难解决在识别长语音的过程中遇到的各种噪声干扰，导致长语音整个链路端到端测试的准确率很难有效的提高。
[00...

【技术保护点】

【技术特征摘要】
1.一种长语音识别模型训练方法，包括：获取构造完成的长语音训练数据，其中，所述长语音训练数据包括提取的声学输入特征、用于训练端点检测模型的帧级别分类标签和用于训练语音识别模型的文本标签；利用所述长语音训练数据对所述端点检测模型和所述语音识别模型进行联合训练。2.根据权利要求1所述的方法，其中，所述利用所述长语音训练数据对所述端点检测模型和所述语音识别模型进行联合训练包括：利用声学嵌入特征提取模型从所述长语音训练数据中提取声学嵌入信息；将所述声学嵌入信息与所述声学输入特征进行拼接并输入至所述端点检测模型，至少结合所述帧级别分类标签对所述端点检测模型进行训练；获取所述端点检测模型的输出概率分布，对所述输出概率分布和所述声学输入特征进行处理并输入至所述语音识别模型，至少结合所述文本标签对所述语音识别模型进行训练。3.根据权利要求2所述的方法，其中，所述对所述输出概率分布和所述声学输入特征进行处理并输入至所述语音识别模型包括：将所述输出概率分布和所述声学输入做逐元素的相乘，将相乘后的特征输入至所述语音识别模型。4.根据权利要求3所述的方法，其中，所述将相乘后的特征输入至所述语音识别模型包括：对所述相乘后的特征在频域维度做频谱增强，将频谱增强后的特征输入至所述语音识别模型。5.根据权利要求1所述的方法，其中，所述构造长语音训练数据的过程包括：获取长语音数据，将所述长语音数据中的有效的语音片段对应的可标注文本拼接得到用于训练语音识别模型的文本标签；将所述长语音数据中有效的语音片段和与所述有效的语音片段相邻的噪声语...

【专利技术属性】
技术研发人员：朱冰清，唐健，薛少飞，
申请(专利权)人：思必驰科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人