本发明专利技术提供了一种语音识别模型构建及语音识别方法、装置,其中,语音识别模型构建方法包括:获取音频数据集;确定音频数据集中每一个音频数据的长度;当任一音频数据的长度大于预设长度则从音频数据中选取预设长度的音频数据作为训练样本,当任一音频数据的长度小于预设长度则将音频数据作为训练样本;对训练样本中的每一音频数据进行特征提取,得到每一个音频数据的目标语音特征并构建得到目标语音特征数据集;利用目标语音特征数据集对目标识别模型进行训练直至训练结果满足预设条件。本发明专利技术可解决现有技术中基于整条音频进行训练时速度慢及受静音干扰的技术问题。时速度慢及受静音干扰的技术问题。时速度慢及受静音干扰的技术问题。
【技术实现步骤摘要】
一种语音识别模型构建及语音识别方法、装置
[0001]本专利技术实施例涉及深度学习
,尤其涉及一种语音识别模型构建及语音识别方法、装置。
技术介绍
[0002]目前语种及方言分类模型的训练,多基于整条音频来进行训练,速度慢且会有较多的静音干扰;可以利用语音活动检测(Voice Activity Detection,VAD)去除音频中的静音,将整句音频中人声片段取出,但这样会对正常人声有一定的损害,特别在短音频上,不利于语种以及方言的分类,故亟待一种语音识别模型构建方法解决现有训练方式中基于整条音频进行训练时速度慢及受静音干扰的技术问题。
技术实现思路
[0003]本申请提供了一种语音识别模型构建及语音识别方法、装置,来解决现有技术中基于整条音频进行训练时速度慢及受静音干扰的技术问题。
[0004]本专利技术第一方面提供了一种语音识别模型构建方法,包括:获取音频数据集;确定音频数据集中每一个音频数据的长度;当任一音频数据的长度大于预设长度则从音频数据中选取预设长度的音频数据作为训练样本,当任一音频数据的长度小于预设长度则将音频数据作为训练样本;对训练样本中的每一音频数据进行特征提取,得到每一个音频数据的目标语音特征并构建得到目标语音特征数据集;利用目标语音特征数据集对目标识别模型进行训练直至训练结果满足预设条件。
[0005]本专利技术实施例提供的语音识别模型构建方法,通过根据预设规则在整条音频数据中选取预设长度的音频数据来作为目标识别模型的训练样本,预设长度的音频数据中选取到静音数据的概率相对较小,训练所得语音识别模型受静音影响小,可提高语音识别模型的抗干扰性和可靠性;同时从整条音频数据中可选取预设长度的音频数据,训练样本数量更加充足,可提高语音识别模型训练速度,以及识别精确度。解决了现有技术中基于整条音频进行训练时速度慢及受静音干扰的技术问题。同时通过短音频数据训练所得语音识别模型在实时语音交互中,推理识别时可作出提前预判,不需要等待整条音频结束才进行识别判断,提高了识别效率以及语音交互的实时性以及对话的流畅性。
[0006]可选地,对训练样本中的每一音频数据进行特征提取,得到每一个音频数据的目标语音特征并构建得到目标语音特征数据集,包括:对训练样本中的每一音频数据进行特征提取,得到音频数据的第一语音特征数据集;对第一语音特征数据集中每一语音特征进行提纯处理,得到音频数据的第二语音特征数据集,将第二语音特征数据集作为目标语音特征数据集。
[0007]可选地,利用目标语音特征数据集对目标识别模型进行训练直至训练结果满足预设条件,包括:利用语音特征数据集对目标识别模型进行迭代训练,计算每次迭代的损失值,直到连续预设次数的迭代周期内的损失值满足预设条件。
[0008]本专利技术第二方面提供了一种语音识别方法,包括:获取待识别音频数据;将待识别音频数据输入利用第一方面任一项的语音识别模型构建方法构建得到的目标识别模型;根据目标识别模型的输出结果确定待识别音频数据的类型。
[0009]可选地,根据目标识别模型的输出结果确定待识别音频数据的类型,包括:获取目标识别模型的输出结果中对应每一种预设音频类型的概率;将最大概率对应的音频类型作为最终输出结果。
[0010]本专利技术第三方面提供了一种语音识别模型构建装置,包括:第一获取模块,用于获取音频数据集;第一确定模块,用于确定音频数据集中每一个音频数据的长度;第一选取模块,用于当任一音频数据的长度大于预设长度则从音频数据中选取预设长度的音频数据作为训练样本,当任一音频数据的长度小于预设长度则将音频数据作为训练样本;第一提取模块,用于对训练样本中的每一音频数据进行特征提取,得到每一个音频数据的目标语音特征并构建得到目标语音特征数据集;第一训练模块,用于利用目标语音特征数据集对目标识别模型进行训练直至训练结果满足预设条件。
[0011]本专利技术提供的语音识别模型构建装置中各部件所执行的功能均已在上述第一方面任一方法实施例中得以应用,因此这里不再赘述。
[0012]可选的,第一提取模块包括:第一提取子模块,用于对训练样本中的每一音频数据进行特征提取,得到音频数据的第一语音特征数据集;第二提取子模块,用于对第一语音特征数据集中每一语音特征进行提纯处理,得到音频数据的第二语音特征数据集,将第二语音特征数据集作为目标语音特征数据集。
[0013]本专利技术第四方面提供了一种语音识别装置,包括:第二获取模块,用于获取待识别音频数据;第一输入模块,用于将待识别音频数据输入利用第一方面中任一项的语音识别模型构建方法构建得到的目标识别模型;第二确定模块,用于根据目标识别模型的输出结果确定待识别音频数据的类型。
[0014]本专利技术提供的语音识别模型构建装置中各部件所执行的功能均已在上述第二方面任一方法实施例中得以应用,因此这里不再赘述。
[0015]本专利技术第五方面提供了一种计算机设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现上述第一方面的语音识别模型构建方法的步骤,或者实现上述第二方面的语音识别方法的步骤。
[0016]本专利技术第六方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使计算机执行如本专利技术第一方面提供的语音识别模型构建方法,或者第二方面提供的语音识别方法。
附图说明
[0017]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0018]图1为本专利技术一实施例提供的语音识别模型构建方法流程示意图;
[0019]图2为本专利技术一实施例提供的语音识别方法结构示意图;
[0020]图3为本专利技术一实施例提供的语音识别方法流程示意图;
[0021]图4为本专利技术实施例提供的一种语音识别模型构建装置结构示意图;
[0022]图5为本专利技术实施例提供的一种语音识别装置结构示意图;
[0023]图6为本专利技术实施例提供的计算机设备结构示意图。
具体实施方式
[0024]为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例的附图,对本公开实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于所描述的本公开的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
[0025]除非另外定义,本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“一个”、“一”或者“该”等类似词语也不表示数量限制,而是表示存在至少一个。“包括”或者本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种语音识别模型构建方法,其特征在于,包括:获取音频数据集;确定所述音频数据集中每一个音频数据的长度;当任一音频数据的长度大于预设长度则从所述音频数据中选取预设长度的音频数据作为训练样本,当任一音频数据的长度小于所述预设长度则将所述音频数据作为训练样本;对训练样本中的每一音频数据进行特征提取,得到每一个音频数据的目标语音特征并构建得到目标语音特征数据集;利用所述目标语音特征数据集对目标识别模型进行训练直至训练结果满足预设条件。2.根据权利要求1所述的语音识别模型构建方法,其特征在于,所述对训练样本中的每一音频数据进行特征提取,得到每一个音频数据的目标语音特征并构建得到目标语音特征数据集,包括:对训练样本中的每一音频数据进行特征提取,得到音频数据的第一语音特征数据集;对所述第一语音特征数据集中每一语音特征进行提纯处理,得到音频数据的第二语音特征数据集,将所述第二语音特征数据集作为所述目标语音特征数据集。3.根据权利要求1所述的语音识别模型构建方法,其特征在于,所述利用所述目标语音特征数据集对目标识别模型进行训练直至训练结果满足预设条件,包括:利用所述语音特征数据集对目标识别模型进行迭代训练,计算每次迭代的损失值,直到连续预设次数的迭代周期内的损失值满足预设条件。4.一种语音识别方法,其特征在于,包括:获取待识别音频数据;将所述待识别音频数据输入利用如权利要求1
‑
3中任一项所述的语音识别模型构建方法构建得到的目标识别模型;根据所述目标识别模型的输出结果确定所述待识别音频数据的类型。5.根据权利要求4所述的语音识别方法,其特征在于,所述根据所述目标识别模型的输出结果确定所述待识别音频数据的类型,包括:获取所述目标识别模型的输出结果中对应每一种预设音频类型的概率;将最大概率对应的音频类型作为最终输出结果。6.一种语音识别模型构建装置,其特征在于,包括:第一获取模块,用于获取音频数据集;第一确定模块,用于确定所述音频数据集中每一个音频...
【专利技术属性】
技术研发人员:赵晴,
申请(专利权)人:镁佳北京科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。