音频处理方法、装置、电子设备、存储介质制造方法及图纸

技术编号：32639967 阅读：19 留言：0更新日期：2022-03-12 18:15

本发明专利技术公开了音频处理方法、装置、电子设备、存储介质。该音频处理方法，包括：确定音频数据的各音频帧的预估语料的概率以及所述预估语料的语料序列；确定目标语料在所述语料序列中的位置信息；将各个预估语料中概率与所述目标语料相匹配的预估语料的音频帧，确定为所述目标语料的初始音频帧；从所述初始音频帧中确定对应于所述位置信息的目标音频帧，并将所述目标音频帧确定为包含所述目标语料的音频片段。从而，能够准确定位目标语料在音频数据中的位置，准确确定音频数据中包含目标语料的音频片段，相较于人工确定目标语料的位置的方式，不仅节省了人力成本，还具有效率高、准确度高的优点。高的优点。高的优点。

全部详细技术资料下载

【技术实现步骤摘要】
音频处理方法、装置、电子设备、存储介质

[0001]本专利技术涉及音频处理
，尤其涉及一种音频处理方法、装置、电子设备、存储介质。

技术介绍

[0002]AI(人工智能)技术引入智能语音领域，很大程度的提高了识别率，降低了误识别率，但是要求训练样本有大量的语料支持，而对于语音唤醒和多命令词识别来说，现有的开源数据十分有限，获取途径通常是人工录取或者人工确定开源的音频数据中目标语料的位置并手动截取音频片段作为训练样本，这种方法费时费力。

技术实现思路

[0003]本专利技术要解决的技术问题是为了克服现有技术中通过人工录取或者人工确定开源的音频数据中目标语料的位置并手动截取音频片段的方式费时费力的缺陷，提供一种音频处理方法、装置、电子设备、存储介质。
[0004]本专利技术是通过下述技术方案来解决上述技术问题：
[0005]第一方面，提供一种音频处理方法，包括：
[0006]确定音频数据的各音频帧的预估语料的概率以及所述预估语料的语料序列；
[0007]确定目标语料在所述语料序列中的位置信息；
[0008]将所述各个预估语料中概率与所述目标语料相匹配的预估语料的音频帧，确定为所述目标语料的初始音频帧；
[0009]从所述初始音频帧中确定对应于所述位置信息的目标音频帧，并将所述目标音频帧确定为包含所述目标语料的音频片段。
[0010]可选地，确定目标语料在所述语料序列中的位置信息，包括：
[0011]在所述目标语料包含多个语料的情况下，将...

【技术保护点】

【技术特征摘要】
1.一种音频处理方法，其特征在于，包括：确定音频数据的各音频帧的预估语料的概率以及所述预估语料的语料序列；确定目标语料在所述语料序列中的位置信息；将各个预估语料中概率与所述目标语料相匹配的预估语料的音频帧，确定为所述目标语料的初始音频帧；从所述初始音频帧中确定对应于所述位置信息的目标音频帧，并将所述目标音频帧确定为包含所述目标语料的音频片段。2.根据权利要求1所述的音频处理方法，其特征在于，确定目标语料在所述语料序列中的位置信息，包括：在所述目标语料包含多个语料的情况下，将所述语料序列的所有音素中与所述目标语料包含的多个语料的排序规则相匹配的音素的位置信息，确定为所述目标语料在所述语料序列中的位置信息。3.根据权利要求1所述的音频处理方法，其特征在于，从所述初始音频帧中确定对应于所述位置信息的目标音频帧，包括：从所述音频数据的所有音频帧中确定出非静音帧；将所述初始音频帧中帧坐标落入所述位置信息对应的非静音帧的帧坐标范围内的音频帧确定为所述目标音频帧；所述帧坐标范围的下限值为所述位置信息表征的帧坐标，所述帧坐标范围的上限值为所述位置信息表征的帧坐标与帧数差之和，所述帧数差为所述语料序列中语料的数量与从所述所有音频帧中确定出的非静音帧的数量之差。4.根据权利要求1所述的音频处理方法，其特征在于，确定音频数据的各音频帧的预估语料的概率以及所述预估语料的语料序列，包括：将所述音频数据的输入预先训练的语音识别模型，根据所述语音识别模型的输出结果确定所述各个预估语料的概率和所述语料序列。5.一种音频处理装置，其特征在于，包括：语料确定模块，用于确定音频数据的各音频帧的预估语料的概率以及所述预估语料的语料序列；位置确定模块，用于确定目标语料在...

【专利技术属性】
技术研发人员：姜双双，戚萌，陆成，董斐，
申请(专利权)人：展讯通信上海有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人