本公开属于人工智能技术领域,涉及一种语音识别方法及装置、存储介质、电子设备。该方法包括:获取待识别语音数据的待匹配音素候选集;利用标准音素候选集对待匹配音素候选集进行匹配处理得到音素匹配结果,其中,标准音素候选集为通过对预先获取的口令数据进行音素预测处理得到;确定与音素匹配结果对应的音素匹配算子,并利用音素匹配算子对音素匹配结果进行口令匹配识别得到待识别语音数据的语音识别结果。本公开避免了语音识别过程中对大量样本进行训练带来的资源消耗问题和时间成本问题,满足了语音识别场景中快速迭代的要求,降低了用户的语音输入要求,优化了用户在使用该语音识别方法的场景下的娱乐体验。该语音识别方法的场景下的娱乐体验。该语音识别方法的场景下的娱乐体验。
【技术实现步骤摘要】
语音识别方法及装置、存储介质、电子设备
[0001]本公开涉及人工智能
,尤其涉及一种语音识别方法与语音识别装置、计算机可读存储介质及电子设备。
技术介绍
[0002]语音作为语言的声学表现,是人类交流信息最自然、最有效和最方便的手段之一。近年来,随着人工智能技术的发展,语音识别技术也取得了巨大的进展。因此,人们在输入语音的时候除了明确语言的输入之外,还会输入例如咒语等不明确语言。
[0003]通常,语音识别技术可以直接搭建对应的语音识别系统,使其输出与样本音频对应的文字符号。但是,这种语音识别方式无法对咒语等不明确语言进行口令识别,并且,如果直接使用语言识别系统匹配口令,需要大量样本对一个口令进行学习,更不用提在口令较多的情况下会造成极大的资源消耗,也使得口令的添加速度变慢,语音识别效果不佳。
[0004]鉴于此,本领域亟需开发一种新的语音识别方法及装置。
[0005]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
[0006]本公开的目的在于提供一种语音识别方法、语音识别装置、计算机可读存储介质及电子设备,进而至少在一定程度上克服由于相关技术的限制而导致的语音识别效果不佳的技术问题。
[0007]本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
[0008]根据本专利技术实施例的第一个方面,提供一种语音识别方法,所述方法包括:
[0009]获取待识别语音数据的待匹配音素候选集;
[0010]利用标准音素候选集对所述待匹配音素候选集进行匹配处理得到音素匹配结果,其中,所述标准音素候选集为通过对预先获取的口令数据进行音素预测处理得到;
[0011]确定与所述音素匹配结果对应的音素匹配算子,并利用所述音素匹配算子对所述音素匹配结果进行口令匹配识别得到所述待识别语音数据的语音识别结果。
[0012]在本专利技术的一种示例性实施例中,所述对预先获取的口令语音数据进行音素预测处理,包括:
[0013]若所述口令语音数据有多个,对多个所述口令语音数据进行音素预测处理得到多个单帧音素以及所述多个单帧音素的多个概率分布;
[0014]对所述多个概率分布进行概率分布计算得到分布计算结果,并利用所述分布计算结果在所述多个单帧音素中确定标准音素候选集。
[0015]在本专利技术的一种示例性实施例中,所述对所述多个概率分布进行概率分布计算得到分布计算结果,包括:
[0016]获取所述多个单帧音素的多个序列长度,并对所述多个序列长度进行比较得到长度比较结果;
[0017]按照所述长度比较结果从所述多个单帧音素中确定目标单帧音素,并对与所述目标单帧音素对应的多个概率分布进行概率分布计算得到分布计算结果。
[0018]在本专利技术的一种示例性实施例中,所述对多个所述口令语音数据进行音素预测处理得到多个单帧音素以及所述多个单帧音素的多个概率分布,包括:
[0019]对所述口令语音数据进行多重提取处理得到语音数据特征,并对所述语音数据特征进行特征卷积处理得到卷积音频特征;
[0020]对所述卷积音频特征进行特征融合处理得到高阶音频特征,并对所述高阶音频特征进行特征线性化得到多个单帧音素以及所述多个单帧音素的多个概率分布。
[0021]在本专利技术的一种示例性实施例中,所述对所述语音数据特征进行特征卷积处理得到卷积音频特征,包括:
[0022]对所述语音数据特征进行特征变换处理得到高维语音特征;
[0023]对所述高维语音特征进行降采样处理得到卷积音频特征。
[0024]在本专利技术的一种示例性实施例中,所述对所述高阶音频特征进行特征线性化得到多个单帧音素以及所述多个单帧音素的多个概率分布,包括:
[0025]对所述高阶音频特征进行特征线性化得到多个概率分布,并对所述多个概率分布进行分布损失计算得到分布损失值;
[0026]获取与所述分布损失值对应的损失阈值,并对所述分布损失值和所述损失阈值进行损失更新判断得到损失更新结果;
[0027]若所述损失更新结果为所述分布损失值小于所述损失阈值,对所述多个概率分布进行音素提取处理得到多个单帧音素。
[0028]在本专利技术的一种示例性实施例中,所述对所述多个概率分布进行音素提取处理得到多个单帧音素,包括:
[0029]对所述多个概率分布进行音素提取处理得到多个初始音素,并对所述多个初始音素进行静音符判定得到静音判定结果;
[0030]根据所述静音判定结果对所述多个初始音素进行静音剔除处理得到多个单帧音素。
[0031]在本专利技术的一种示例性实施例中,所述利用所述音素匹配算子对所述音素匹配结果进行口令匹配识别得到所述待识别语音数据的语音识别结果,包括:
[0032]利用所述音素匹配算子对所述音素匹配结果进行口令匹配识别得到所述待识别语音数据的初始识别结果;
[0033]获取所述标准音素候选集的实际顺序、标准顺序和序列长度,并利用所述实际顺序、所述标准顺序和所述序列长度对所述初始识别结果进行容错匹配处理得到所述待识别语音数据的语音识别结果。
[0034]在本专利技术的一种示例性实施例中,所述利用所述实际顺序、所述标准顺序和所述序列长度对所述初始识别结果进行容错匹配处理得到所述待识别语音数据的语音识别结果,包括:
[0035]对所述实际顺序的标准音素候选集和所述标准顺序的标准音素候选集进行顺序
距离计算得到误差距离;
[0036]确定与所述误差距离和所述序列长度对应的容错匹配算子,并获取与所述容错匹配算子对应的容错阈值;
[0037]对所述容错匹配算子和所述容错阈值进行算子比较得到所述待识别语音数据的语音识别结果。
[0038]在本专利技术的一种示例性实施例中,所述获取待识别语音数据的待匹配音素候选集,包括:
[0039]获取待识别语音数据的多个待识别音素,并获取与所述待识别语音数据对应的口令语音数据的标准音素候选集中的音素个数;
[0040]按照所述音素个数在所述多个待识别音素中确定多个有声音素,并对所述多个有声音素进行静音判定处理得到识别判定结果;
[0041]根据所述识别判定结果对所述多个有声音素进行剔除补充处理得到待匹配音素候选集。
[0042]根据本专利技术实施例的第二个方面,提供一种语音识别装置,包括:
[0043]数据获取模块,被配置为获取待识别语音数据的待匹配音素候选集;
[0044]顺序匹配模块,被配置为利用所述标准音素候选集对所述待匹配音素候选集进行匹配处理得到音素匹配结果,其中,所述标准音素候选集为通过对预先获取的口令数据进行音素预测处理得到;
[0045]语音识别模块,被配置为确定与所述音素匹配结果对应的音素匹配算子,并利用所述音素匹配算子对所述音素匹配结果进行口令匹本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种语音识别方法,其特征在于,所述方法包括:获取待识别语音数据的待匹配音素候选集;利用标准音素候选集对所述待匹配音素候选集进行匹配处理得到音素匹配结果,其中,所述标准音素候选集为通过对预先获取的口令数据进行音素预测处理得到;确定与所述音素匹配结果对应的音素匹配算子,并利用所述音素匹配算子对所述音素匹配结果进行口令匹配识别得到所述待识别语音数据的语音识别结果。2.根据权利要求1所述的语音识别方法,其特征在于,所述对预先获取的口令语音数据进行音素预测处理,包括:若所述口令语音数据有多个,对多个所述口令语音数据进行音素预测处理得到多个单帧音素以及所述多个单帧音素的多个概率分布;对所述多个概率分布进行概率分布计算得到分布计算结果,并利用所述分布计算结果在所述多个单帧音素中确定标准音素候选集。3.根据权利要求2所述的语音识别方法,其特征在于,所述对所述多个概率分布进行概率分布计算得到分布计算结果,包括:获取所述多个单帧音素的多个序列长度,并对所述多个序列长度进行比较得到长度比较结果;按照所述长度比较结果从所述多个单帧音素中确定目标单帧音素,并对与所述目标单帧音素对应的多个概率分布进行概率分布计算得到分布计算结果。4.根据权利要求2所述的语音识别方法,其特征在于,所述对多个所述口令语音数据进行音素预测处理得到多个单帧音素以及所述多个单帧音素的多个概率分布,包括:对所述口令语音数据进行多重提取处理得到语音数据特征,并对所述语音数据特征进行特征卷积处理得到卷积音频特征;对所述卷积音频特征进行特征融合处理得到高阶音频特征,并对所述高阶音频特征进行特征线性化得到多个单帧音素以及所述多个单帧音素的多个概率分布。5.根据权利要求4所述的语音识别方法,其特征在于,所述对所述语音数据特征进行特征卷积处理得到卷积音频特征,包括:对所述语音数据特征进行特征变换处理得到高维语音特征;对所述高维语音特征进行降采样处理得到卷积音频特征。6.根据权利要求4所述的语音识别方法,其特征在于,所述对所述高阶音频特征进行特征线性化得到多个单帧音素以及所述多个单帧音素的多个概率分布,包括:对所述高阶音频特征进行特征线性化得到多个概率分布,并对所述多个概率分布进行分布损失计算得到分布损失值;获取与所述分布损失值对应的损失阈值,并对所述分布损失值和所述损失阈值进行损失更新判断得到损失更新结果;若所述损失更新结果为所述分布损失值小于所述损失阈值,对所述多个概率分布进行音素提取处理得到多个单帧音素。7.根据权利要求6所述的语音识别方法,其特征在于,所述对所述多个概率分布进行音素提取处理得到多个单帧音素,包括:对所述多个概率分布进行音素提取处理得到多...
【专利技术属性】
技术研发人员:邓迪,刘永福,熊清亮,
申请(专利权)人:广州博冠信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。