音频处理方法、装置、电子设备、存储介质制造方法及图纸

技术编号:32639967 阅读:19 留言:0更新日期:2022-03-12 18:15
本发明专利技术公开了音频处理方法、装置、电子设备、存储介质。该音频处理方法,包括:确定音频数据的各音频帧的预估语料的概率以及所述预估语料的语料序列;确定目标语料在所述语料序列中的位置信息;将各个预估语料中概率与所述目标语料相匹配的预估语料的音频帧,确定为所述目标语料的初始音频帧;从所述初始音频帧中确定对应于所述位置信息的目标音频帧,并将所述目标音频帧确定为包含所述目标语料的音频片段。从而,能够准确定位目标语料在音频数据中的位置,准确确定音频数据中包含目标语料的音频片段,相较于人工确定目标语料的位置的方式,不仅节省了人力成本,还具有效率高、准确度高的优点。高的优点。高的优点。

【技术实现步骤摘要】
音频处理方法、装置、电子设备、存储介质


[0001]本专利技术涉及音频处理
,尤其涉及一种音频处理方法、装置、电子设备、存储介质。

技术介绍

[0002]AI(人工智能)技术引入智能语音领域,很大程度的提高了识别率,降低了误识别率,但是要求训练样本有大量的语料支持,而对于语音唤醒和多命令词识别来说,现有的开源数据十分有限,获取途径通常是人工录取或者人工确定开源的音频数据中目标语料的位置并手动截取音频片段作为训练样本,这种方法费时费力。

技术实现思路

[0003]本专利技术要解决的技术问题是为了克服现有技术中通过人工录取或者人工确定开源的音频数据中目标语料的位置并手动截取音频片段的方式费时费力的缺陷,提供一种音频处理方法、装置、电子设备、存储介质。
[0004]本专利技术是通过下述技术方案来解决上述技术问题:
[0005]第一方面,提供一种音频处理方法,包括:
[0006]确定音频数据的各音频帧的预估语料的概率以及所述预估语料的语料序列;
[0007]确定目标语料在所述语料序列中的位置信息;
[0008]将所述各个预估语料中概率与所述目标语料相匹配的预估语料的音频帧,确定为所述目标语料的初始音频帧;
[0009]从所述初始音频帧中确定对应于所述位置信息的目标音频帧,并将所述目标音频帧确定为包含所述目标语料的音频片段。
[0010]可选地,确定目标语料在所述语料序列中的位置信息,包括:
[0011]在所述目标语料包含多个语料的情况下,将所述语料序列的所有音素中与所述目标语料包含的多个语料的排序规则相匹配的音素的位置信息,确定为所述目标语料在所述语料序列中的位置信息。
[0012]可选地,从所述初始音频帧中确定对应于所述位置信息的目标音频帧,包括:
[0013]从所述音频数据的所有音频帧中确定出非静音帧;
[0014]将所述初始音频帧中帧坐标落入所述位置信息对应的非静音帧的帧坐标范围内的音频帧确定为所述目标音频帧;所述帧坐标范围的下限值为所述位置信息表征的帧坐标,所述帧坐标范围的上限值为所述位置信息表征的帧坐标与帧数差之和,所述帧数差为所述语料序列中语料的数量与从所述所有音频帧中确定出的非静音帧的数量之差。
[0015]可选地,确定音频数据的各音频帧的各个预估语料的概率以及所述各个预估语料的语料序列,包括:
[0016]将所述音频数据的输入预先训练的语音识别模型,根据所述语音识别模型的输出结果确定所述各个预估语料的概率和所述语料序列。
[0017]第二方面,提供一种音频处理装置,包括:
[0018]语料确定模块,用于确定音频数据的各音频帧的预估语料的概率以及所述预估语料的语料序列;
[0019]位置确定模块,用于确定目标语料在所述语料序列中的位置信息;
[0020]音频帧确定模块,用于将各个预估语料中概率与所述目标语料相匹配的预估语料的音频帧,确定为所述目标语料的初始音频帧;
[0021]片段确定模块,用于从所述初始音频帧中确定对应于所述位置信息的目标音频帧,并将所述目标音频帧确定为包含所述目标语料的音频片段。
[0022]可选地,所述位置确定模块具体用于:
[0023]在所述目标语料包含多个语料的情况下,将所述语料序列的所有音素中与所述目标语料包含的多个语料的排序规则相匹配的音素的位置信息,确定为所述目标语料在所述语料序列中的位置信息。
[0024]可选地,所述音频帧确定模块具体用于:
[0025]从所述音频数据的所有音频帧中确定出非静音帧;
[0026]将所述初始音频帧中帧坐标落入所述位置信息对应的非静音帧的帧坐标范围内的音频帧确定为所述目标音频帧;所述帧坐标范围的下限值为所述位置信息表征的帧坐标,所述帧坐标范围的上限值为所述位置信息表征的帧坐标与帧数差之和,所述帧数差为所述语料序列中语料的数量与从所述所有音频帧中确定出的非静音帧的数量之差。
[0027]可选地,所述语料确定模块具体用于:
[0028]将所述音频数据的输入预先训练的语音识别模型,根据所述语音识别模型的输出结果确定所述各个预估语料的概率和所述语料序列。
[0029]第三方面,提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的音频处理方法。
[0030]第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的音频处理方法。
[0031]本专利技术的积极进步效果在于:本专利技术实施例中,能够准确定位目标语料在音频数据中的位置,准确确定音频数据中包含目标语料的音频片段,相较于人工确定目标语料的位置的方式,不仅节省了人力成本,还具有效率高、准确度高的优点。
附图说明
[0032]图1为本专利技术一示例性实施例提供的一种音频处理方法的流程图;
[0033]图2为本专利技术一示例性实施例提供的一种音频处理装置的模块图;
[0034]图3为本专利技术一示例性实施例提供的一种电子设备的结构示意图。
具体实施方式
[0035]下面通过实施例的方式进一步说明本专利技术,但并不因此将本专利技术限制在所述的实施例范围之中。
[0036]图1为本专利技术一示例性实施例提供的一种音频处理方法的流程图,该音频处理方
法可以准确确定用户指定的目标语料在音频数据中的帧坐标位置(即目标语料在音频数据中的首尾帧),以便从音频数据中截取目标语料的音频片段。参见图1,该音频处理方法包括以下步骤:
[0037]步骤101、确定音频数据的各音频帧的预估语料的概率以及预估语料的语料序列。
[0038]音频数据包含多帧音频帧,预估语料的概率以及语料序列由对音频数据进行语音识别得到。预估语料为通过对各帧音频帧进行语音识别,预测得到的各音频帧可能表征的语料。其中,语料可以但不限于是拼音字符或者音素等。
[0039]在一个实施例中,使用概率矩阵表征一段音频数据的所有音频帧的各个预估语料的概率。概率矩阵P表示如下:
[0040][0041]其中,T表示音频数据包含的音频帧的帧数;N表示预估语料的个数;P
tn
表示第t帧音频帧为第n个预估语料的概率值。1≤t≤T,1≤n≤N。
[0042]举例来说,若音频数据对应的文字为“今天天气情况”,由于环境噪音或者用户发音等原因,对上述音频数据进行语音识别,对于每帧音频帧可能会识别出多个拼音字符(以语料为拼音字符为例),例如,对于对应于文字“今”的音频帧,语音识别的结果包括“jin”、“jing”、“gi”等,“今天天气情况”的概率矩阵中的第一列则分别表示“jin”、“jing”、“gi”的概率;对于对应于文字“天”的音频帧,语音识别的结果包括“ti
á
n”、“ti
à
n”“tian”等,“今天天气情况”的概率矩阵中的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频处理方法,其特征在于,包括:确定音频数据的各音频帧的预估语料的概率以及所述预估语料的语料序列;确定目标语料在所述语料序列中的位置信息;将各个预估语料中概率与所述目标语料相匹配的预估语料的音频帧,确定为所述目标语料的初始音频帧;从所述初始音频帧中确定对应于所述位置信息的目标音频帧,并将所述目标音频帧确定为包含所述目标语料的音频片段。2.根据权利要求1所述的音频处理方法,其特征在于,确定目标语料在所述语料序列中的位置信息,包括:在所述目标语料包含多个语料的情况下,将所述语料序列的所有音素中与所述目标语料包含的多个语料的排序规则相匹配的音素的位置信息,确定为所述目标语料在所述语料序列中的位置信息。3.根据权利要求1所述的音频处理方法,其特征在于,从所述初始音频帧中确定对应于所述位置信息的目标音频帧,包括:从所述音频数据的所有音频帧中确定出非静音帧;将所述初始音频帧中帧坐标落入所述位置信息对应的非静音帧的帧坐标范围内的音频帧确定为所述目标音频帧;所述帧坐标范围的下限值为所述位置信息表征的帧坐标,所述帧坐标范围的上限值为所述位置信息表征的帧坐标与帧数差之和,所述帧数差为所述语料序列中语料的数量与从所述所有音频帧中确定出的非静音帧的数量之差。4.根据权利要求1所述的音频处理方法,其特征在于,确定音频数据的各音频帧的预估语料的概率以及所述预估语料的语料序列,包括:将所述音频数据的输入预先训练的语音识别模型,根据所述语音识别模型的输出结果确定所述各个预估语料的概率和所述语料序列。5.一种音频处理装置,其特征在于,包括:语料确定模块,用于确定音频数据的各音频帧的预估语料的概率以及所述预估语料的语料序列;位置确定模块,用于确定目标语料在...

【专利技术属性】
技术研发人员:姜双双戚萌陆成董斐
申请(专利权)人:展讯通信上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1