长语音识别模型训练方法及电子设备和存储介质技术

技术编号:36846646 阅读:9 留言:0更新日期:2023-03-15 16:34
本发明专利技术公开一种长语音识别模型训练方法及电子设备和存储介质,其中方法包括:获取构造完成的长语音训练数据,其中,所述长语音训练数据包括提取的声学输入特征、用于训练端点检测模型的帧级别分类标签和用于训练语音识别模型的文本标签;利用所述长语音训练数据对所述端点检测模型和所述语音识别模型进行联合训练。本发明专利技术实施例通过获取构造完成的长语音训练数据来对端点检测模型和语音识别模型进行联合训练,在优化端点检测模型的基础上引入识别模型提供的相关信息辅助端点检测模型的训练优化,实现一套完整的联合优化方法,有效的提升了长语音这个链路的识别性能。效的提升了长语音这个链路的识别性能。效的提升了长语音这个链路的识别性能。

【技术实现步骤摘要】
长语音识别模型训练方法及电子设备和存储介质


[0001]本专利技术属于语音识别
,尤其涉及一种长语音识别模型训练方法及电子设备和存储介质。

技术介绍

[0002]随着深度学习的不断发展,语音识别的性能也得到了大幅度的提升,无论是在研究还是工业界都取得了广泛的应用。然而在实际落地的过程中,应用场景和数据的复杂性使得语音识别想要获得预期的识别性能往往需要限定许多前置条件,这些前置条件造成了测试和实际使用感受不一致的情况,尤其是在长语音转写的情况下,比如会议、质检以及音视频等场景下。
[0003]在现有技术中,长语音识别技术被广泛使用,如人机交互领域,利用人机交互的形式来实现在无人工主动控制的情形下机器人及时对物品跌落泼洒等情况产生的异物进行及时判断和清洁,避免了清洁机器人在使用时因无法及时发现并处理脏污导致的异味扩散以及牢固后无法方便清除等问题。该方法涉及到的语音识别系统主要还是针对传统交互领域,虽然方法中说明其是基于长语音的识别交互方法,但是在交互领域,识别内容的难度和复杂程度都远远要小于真正的长语音录音文件转写领域,针对真正的长语音领域识别目前存在的一些困难并没有给出特定的解决方案,还是基于传统的语音识别系统链路去进行方案的设计。对于中文长语音的识别方法,提到的长语音识别系统针对长语音的特性基于语音端点检测系统构、语音识别模型和语言模型构成整个链路,但是实际上长语音识别单独依靠以上各个模块很难解决在识别长语音的过程中遇到的各种噪声干扰,导致长语音整个链路端到端测试的准确率很难有效的提高。
[0004]无论是针对长语音还是短语音的识别,通常都需要有一个好的语音端点检测系统和方法,现有技术使用神经网络训练语音端点检测系统,比传统方案能获得更加准确的语音帧判断结果,但是很难针对长语音文件转写中的音频特性和在夹杂各类背景噪声的情况下做出是否是语音帧的准确判断,从而影响后续链路中的识别准确率。现有技术提出一种新的语音端点检测方法,其结合了声学后验进行特征融合,获得语音融合特征去优化语音端点检测系统。实际操作中需要训练一个额外的模块提取声学后验特征,并且实际情况下后验特征中所能包含的信息也相对较少,同时增加了语音端点检测系统训练的复杂度。
[0005]专利技术人发现:在人机交互领域没有提及针对长语音转写中的音频特性以及该场景识别的相关难点做具体的优化,如果直接迁移用于真正的长语音文件转写,很难获得比较好的识别性能。相似技术中涉及到的长语音链路优化也没有针对场景特性和现存较为明显的一些问题给出特定的解决方案。

技术实现思路

[0006]本专利技术实施例旨在至少解决上述技术问题之一。
[0007]第一方面,本专利技术实施例提供一种长语音识别模型训练方法,包括:获取构造完成
的长语音训练数据,其中,所述长语音训练数据包括提取的声学输入特征、用于训练端点检测模型的帧级别分类标签和用于训练语音识别模型的文本标签;利用所述长语音训练数据对所述端点检测模型和所述语音识别模型进行联合训练。
[0008]第二方面,本专利技术实施例提供一种长语音识别模型使用方法,包括:将原始长语音数据输入至所述长语音识别模型;获取所述端点检测模型输出的与所述原始长语音数据对应的有效语音片段的时间戳;根据所述时间戳切割所述原始长语音数据;将切割后的数据送入所述语音识别模型,得到识别文本。
[0009]第三方面,本专利技术实施例提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术上述任一项长语音识别模型训练方法。
[0010]第四方面,本专利技术实施例提供一种存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本专利技术上述任一项长语音识别模型训练方法。
[0011]第五方面,本专利技术实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项长语音识别模型训练方法。
[0012]本专利技术实施例通过获取构造完成的长语音训练数据来对端点检测模型和语音识别模型进行联合训练,在优化端点检测模型的基础上引入识别模型提供的相关信息辅助端点检测模型的训练优化,实现一套完整的联合优化方法,有效的提升了长语音这个链路的识别性能。
附图说明
[0013]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0014]图1为本专利技术的长语音识别模型训练方法的一实施例的流程图;
[0015]图2为本专利技术的长语音识别模型训练方法的另一实施例的流程图;
[0016]图3为本专利技术的长语音识别模型训练方法的又一实施例的流程图;
[0017]图4为本专利技术一实施例提供的一种长语音识别模型训练框架示意图;
[0018]图5为本专利技术一实施例提供的一种长语音识别模型训练过程流程图;
[0019]图6为本专利技术的电子设备的一实施例的结构示意图。
具体实施方式
[0020]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0021]需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相
互组合。
[0022]本专利技术可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本专利技术,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
[0023]在本专利技术中,“模块”、“装置”、“系统”等指应用于计算机的相关实体,如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说,例如,元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有,运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中,并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间,并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号,例如,来自一个与本地系统、分布本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种长语音识别模型训练方法,包括:获取构造完成的长语音训练数据,其中,所述长语音训练数据包括提取的声学输入特征、用于训练端点检测模型的帧级别分类标签和用于训练语音识别模型的文本标签;利用所述长语音训练数据对所述端点检测模型和所述语音识别模型进行联合训练。2.根据权利要求1所述的方法,其中,所述利用所述长语音训练数据对所述端点检测模型和所述语音识别模型进行联合训练包括:利用声学嵌入特征提取模型从所述长语音训练数据中提取声学嵌入信息;将所述声学嵌入信息与所述声学输入特征进行拼接并输入至所述端点检测模型,至少结合所述帧级别分类标签对所述端点检测模型进行训练;获取所述端点检测模型的输出概率分布,对所述输出概率分布和所述声学输入特征进行处理并输入至所述语音识别模型,至少结合所述文本标签对所述语音识别模型进行训练。3.根据权利要求2所述的方法,其中,所述对所述输出概率分布和所述声学输入特征进行处理并输入至所述语音识别模型包括:将所述输出概率分布和所述声学输入做逐元素的相乘,将相乘后的特征输入至所述语音识别模型。4.根据权利要求3所述的方法,其中,所述将相乘后的特征输入至所述语音识别模型包括:对所述相乘后的特征在频域维度做频谱增强,将频谱增强后的特征输入至所述语音识别模型。5.根据权利要求1所述的方法,其中,所述构造长语音训练数据的过程包括:获取长语音数据,将所述长语音数据中的有效的语音片段对应的可标注文本拼接得到用于训练语音识别模型的文本标签;将所述长语音数据中有效的语音片段和与所述有效的语音片段相邻的噪声语...

【专利技术属性】
技术研发人员:朱冰清唐健薛少飞
申请(专利权)人:思必驰科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1