音频段的匹配方法、装置、设备及可读存储介质制造方法及图纸

技术编号:23988073 阅读:23 留言:0更新日期:2020-04-29 14:33
本公开关于音频段的匹配方法、装置、设备及可读存储介质,涉及语音识别领域。该方法包括:获取目标音频段以及与所述目标音频段对应的参考音频段;获取与所述参考音频帧对应的偏移参数;根据所述偏移参数从所述目标音频段中确定与所述参考音频帧对应的候选音频帧;确定所述参考音频帧与所述候选音频帧之间的特征距离;根据所述特征距离从所述候选音频帧中确定与所述参考音频帧匹配的目标音频帧。本公开通过在参考音频段中选取参考音频帧,并通过参考音频帧和偏移参数确定候选音频帧的方法,对参考音频段和目标音频段进行了分段处理与匹配,大幅度降低了运算量级,且建立了较小的特征网格,使匹配过程中占用的内存减小。

Matching method, device, equipment and readable storage medium of audio segment

【技术实现步骤摘要】
音频段的匹配方法、装置、设备及可读存储介质
本公开涉及语音识别领域,特别涉及一种音频段的匹配方法、装置、设备及可读存储介质。
技术介绍
现今的音频处理软件常会具备修音功能,即根据参考音频段,对用户录制的音频段进行自动的音频匹配与修音。相关技术中,在进行音频匹配与修音的过程中,常采用动态时间规整(DynamicTimeWarping,DTW)算法对音频段中的特征进行识别和匹配,通过建立完整音频段之间的特征网格,并借助特征网格计算特征距离的方法,实现两个音频段中语音帧的匹配,并根据匹配的结果对用户录制的音频段进行修音。然而,相关技术中的DTW算法通过建立完整音频段之间的特征网格的形式来实现对音频段之间的匹配,建立特征网格的过程会占用较大的内存。
技术实现思路
本公开关于一种音频段的匹配方法、装置、设备及可读存储介质,可以解决通过相关技术中的DTW算法需要通过建立完整音频段之间的特征网格的形式来实现对音频段之间的匹配,建立特征网格的过程会占用较大的内存的问题。该技术方案如下:一方面,提供了一种音频段的匹配方法,该方法包括:获取目标音频段以及与目标音频段对应的参考音频段,参考音频段中包括参考音频帧;获取与参考音频帧对应的偏移参数,偏移参数用于指示目标音频段相对于参考音频段的偏移范围;根据偏移参数从目标音频段中确定与参考音频帧对应的候选音频帧;确定参考音频帧与候选音频帧之间的特征距离;根据特征距离从候选音频帧中确定与参考音频帧匹配的目标音频帧。在一个可选的实施例中,参考音频帧为参考音频段中位于目标时间点的音频帧,偏移参数为目标音频段的偏移帧数范围;根据偏移参数从目标音频段中确定与参考音频帧对应的候选音频帧,包括:从目标音频段中确定位于目标时间点的基准音频帧;以基准音频帧为偏移基准帧,获取偏移帧数范围内的音频帧为候选音频帧。在一个可选的实施例中,以基准音频帧为偏移基准帧,获取偏移帧数范围内的音频帧为候选音频帧,包括:以基准音频帧为中心帧,获取位于基准音频帧之前和之后且在偏移帧数范围内的音频帧为候选音频帧;或,以基准音频帧为起始帧,获取位于基准音频帧之后且在偏移帧数范围内的音频帧为候选音频帧;或,以基准音频帧为终止帧,获取位于基准音频帧之前且在偏移帧数范围内的音频帧为候选音频帧。在一个可选的实施例中,根据特征距离从候选音频帧中确定与参考音频帧匹配的目标音频帧,包括:根据每个参考音频帧与候选音频帧之间的特征距离建立特征网格;在特征网格中确定特征路径,特征路径对应有所述路径特征距离;确定路径特征距离最小的特征路径为最短音频帧路径,最短音频帧路径中包括与每个参考音频帧一一匹配的目标音频帧。在一个可选的实施例中,确定路径特征距离之和最小的特征路径为最短音频帧路径,包括:从特征网格的第一位置开始,向特征网格的第二位置进行路径特征距离的计算,第一位置位于特征路径的计算起点,第二位置位于特征路径的计算终点,第二位置和第一位置位于同一条竖直直线上;从第二位置开始,根据路径特征距离向第一位置进行路径回溯,得到最短音频帧路径。在一个可选的实施例中,从特征网格的第一位置开始,向特征网格的第二位置进行路径特征距离的计算,包括:从第一位置开始,向第二位置的直线方向分别进行路径特征距离的计算;其中,第一位置指向第二位置的直线方向包括第一方向、第二方向和第三方向中的至少一个方向,第一方向、第二方向和第三方向为由第一位置指向第二位置的分量方向。在一个可选的实施例中,从第一位置开始,向第二位置的直线方向分别进行路径特征距离的计算,包括:确定第一方向对应的第一累加参数、第二方向对应的第二累加参数以及第三方向对应的第三累加参数;当特征路径以第一方向累加时,通过第一累加参数对路径特征距离进行累加;当特征路径以第二方向累加时,通过第二累加参数对路径特征距离进行累加;当特征路径以第三方向累加时,通过第三累加参数对路径特征距离进行累加。另一方面,提供了一种音频段的匹配装置,该装置包括:获取模块,用于获取目标音频段以及与目标音频段对应的参考音频段,参考音频段中包括参考音频帧;获取模块,还用于获取与参考音频帧对应的偏移参数,偏移参数用于指示目标音频段相对于参考音频段的偏移范围;确定模块,用于根据偏移参数从目标音频段中确定与参考音频帧对应的候选音频帧;确定模块,用于确定参考音频帧与候选音频帧之间的特征距离;确定模块,用于根据特征距离从候选音频帧中确定与参考音频帧匹配的目标音频帧。在一个可选的实施例中,参考音频帧为参考音频段中位于目标时间点的音频帧,偏移参数为目标音频段的偏移帧数范围;确定模块,用于从目标音频段中确定位于目标时间点的基准音频帧;获取模块,用于以基准音频帧为偏移基准帧,获取偏移帧数范围内的音频帧为候选音频帧。在一个可选的实施例中,以基准音频帧为偏移基准帧,获取偏移帧数范围内的音频帧为候选音频帧,包括:以基准音频帧为中心帧,获取位于基准音频帧之前和之后且在偏移帧数范围内的音频帧为候选音频帧;或,以基准音频帧为起始帧,获取位于基准音频帧之后且在偏移帧数范围内的音频帧为候选音频帧;或,以基准音频帧为终止帧,获取位于基准音频帧之前且在偏移帧数范围内的音频帧为候选音频帧。在一个可选的实施例中,该装置,还包括:建立模块;建立模块,用于根据每个参考音频帧与候选音频帧之间的特征距离建立特征网格;确定模块,用于在所述特征网格中确定特征路径,所述特征路径对应有所述路径特征距离;确定模块,用于确定路径特征距离最小的特征路径为最短音频帧路径,最短音频帧路径中包括与每个参考音频帧一一匹配的目标音频帧。在一个可选的实施例中,该装置,还包括:计算模块;计算模块,用于从特征网格的第一位置开始,向特征网格的第二位置进行路径特征距离的计算,第一位置位于特征网格的特征路径起点,第二位置位于特征网格的特征路径终点,第二位置和第一位置位于同一条竖直直线上;确定模块,用于从第二位置开始,根据路径特征距离向第一位置进行路径回溯,得到最短音频帧路径。在一个可选的实施例中,计算模块,用于从第一位置开始,向第二位置的直线方向分别进行路径特征距离的计算;其中,第一位置指向第二位置方向包括第一方向、第二方向和第三方向中的至少一个方向,第一方向、第二方向和第三方向为由第一位置指向第二位置的分量方向。在一个可选的实施例中,确定模块,用于确定第一方向对应的第一累加参数、第二方向对应的第二累加参数以及第三方向对应的第三累加参数;计算模块,用于当特征路径以第一方向累加时,通过第一累加参数对路径特征距离进行累加;计算模块,用于当特征路径以第二方向累加时,通过第二本文档来自技高网...

【技术保护点】
1.一种音频段的匹配方法,其特征在于,所述方法包括:/n获取目标音频段以及与所述目标音频段对应的参考音频段,所述参考音频段中包括参考音频帧;/n获取与所述参考音频帧对应的偏移参数,所述偏移参数用于指示所述目标音频段相对于所述参考音频段的偏移范围;/n根据所述偏移参数从所述目标音频段中确定与所述参考音频帧对应的候选音频帧;/n确定所述参考音频帧与所述候选音频帧之间的特征距离;/n根据所述特征距离从所述候选音频帧中确定与所述参考音频帧匹配的目标音频帧。/n

【技术特征摘要】
1.一种音频段的匹配方法,其特征在于,所述方法包括:
获取目标音频段以及与所述目标音频段对应的参考音频段,所述参考音频段中包括参考音频帧;
获取与所述参考音频帧对应的偏移参数,所述偏移参数用于指示所述目标音频段相对于所述参考音频段的偏移范围;
根据所述偏移参数从所述目标音频段中确定与所述参考音频帧对应的候选音频帧;
确定所述参考音频帧与所述候选音频帧之间的特征距离;
根据所述特征距离从所述候选音频帧中确定与所述参考音频帧匹配的目标音频帧。


2.根据权利要求1所述的方法,其特征在于,所述参考音频帧为所述参考音频段中位于目标时间点的音频帧,所述偏移参数为所述目标音频段的偏移帧数范围;
所述根据所述偏移参数从所述目标音频段中确定与所述参考音频帧对应的候选音频帧,包括:
从所述目标音频段中确定位于所述目标时间点的基准音频帧;
以所述基准音频帧为偏移基准帧,从所述目标音频段中获取所述偏移帧数范围内的音频帧作为所述候选音频帧。


3.根据权利要求2所述的方法,其特征在于,所述以所述基准音频帧为偏移基准帧,从所述目标音频段中获取所述偏移帧数范围内的音频帧作为所述候选音频帧,包括:
以所述基准音频帧为中心帧,从所述目标音频段中获取位于所述基准音频帧之前和之后且在所述偏移帧数范围内的音频帧为所述候选音频帧;
或,
以所述基准音频帧为起始帧,从所述目标音频段中获取位于所述基准音频帧之后且在所述偏移帧数范围内的音频帧为所述候选音频帧;
或,
以所述基准音频帧为终止帧,从所述目标音频段中获取位于所述基准音频帧之前且在所述偏移帧数范围内的音频帧为所述候选音频帧。


4.根据权利要求1至3任一所述的方法,其特征在于,所述根据所述特征距离从所述候选音频帧中确定与所述参考音频帧匹配的目标音频帧,包括:
根据每个所述参考音频帧与所述候选音频帧之间的所述特征距离建立特征网格;
在所述特征网格中确定特征路径,所述特征路径对应有路径特征距离;
确定所述路径特征距离最小的所述特征路径为最短音频帧路径,所述最短音频帧路径中包括与每个所述参考音频帧匹配的所述目标音频帧。


5.根据权利要求4所述的方法,其特征在于,所述确定所述路径特征距离最小的特征路径为最短音频帧路径,包括:
从所述特征网格的第一位置开始,向所述特征网格的第二位置进行所述路径特征距离的计算,所述第一位置位于所述特征路径的计算起点,所述第二位置位于所述特征路径的计算终点...

【专利技术属性】
技术研发人员:肖纯智劳振锋
申请(专利权)人:广州酷狗计算机科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1