【技术实现步骤摘要】
处理音频信号的方法、模型训练方法、装置、设备和介质
[0001]本公开涉及人工智能领域,具体涉及语音识别、自然语言处理和深度学习领域,更具体地涉及一种处理音频信号的方法、语音识别模型的训练方法、语义识别模型的训练方法、装置、电子设备和存储介质。
技术介绍
[0002]随着电子技术的发展,为用户提供智能化服务的智能语音技术得到快速发展。为了得到良好的智能语音模型,需要依赖大量标注有正确语句的语音段。但通常一个音频会包括多个语音段,为了得到该多个语音段,需要对该音频进行切割,并对切割得到的语音段标注正确语句。相关技术中由人工对该音频进行切割和标注,但由于音频通常为连续录制的长度较长的音频,该人工方式存在效率低、人工成本高等问题。
技术实现思路
[0003]提供了一种提高标注效率和标注信息多样性的处理音频信号的方法,并基于得到的具有标注数据的语音段,提出一种语音识别模型的训练方法和一种语义识别模型的训练方法。
[0004]根据本公开的一个方面,提供了一种处理音频信号的方法,包括:识别待处理音频信号,获得待处理音频信号中的目标语音段及与目标语音段相关联的第一语句,其中,待处理音频信号是基于预定文本获得的;确定预定文本中与目标语音段相关联的第二语句;比对第一语句和第二语句,获得第一比对结果;以及基于第二语句和第一比对结果,对目标语音段进行标注,获得具有第一标注数据的语音段,其中,第一标注数据包括第二语句和指示第一比对结果的第一数据。
[0005]根据本公开的另一个方面,提供了一种语音识别模型的训 ...
【技术保护点】
【技术特征摘要】
1.一种处理音频信号的方法,包括:识别待处理音频信号,获得所述待处理音频信号中的目标语音段及与所述目标语音段相关联的第一语句,其中,所述待处理音频信号是基于预定文本获得的;确定所述预定文本中与所述目标语音段相关联的第二语句;比对所述第一语句和所述第二语句,获得第一比对结果;以及基于所述第二语句和所述第一比对结果,对所述目标语音段进行标注,获得具有第一标注数据的语音段,其中,所述第一标注数据包括所述第二语句和指示所述第一比对结果的第一数据。2.根据权利要求1所述的方法,其中,所述预定文本还包括所述第二语句的第二语义信息;所述方法还包括:提取所述第一语句的语义信息,获得第一语义信息;以及比对所述第一语义信息和所述第二语义信息,获得第二比对结果,其中,对所述目标语音段进行标注包括:基于所述第二语句、所述第二语义信息、所述第一比对结果和所述第二比对结果,对所述目标语音段进行标注;其中,所述第一标注数据还包括所述第二语义信息和指示所述第二比对结果的第二数据。3.根据权利要求1或2所述的方法,其中,识别待处理音频信号包括:响应于以文件流形式读取所述待处理音频信号的过程中检测到目标语音段的起始点,识别读取到的音频信号;响应于检测到所述目标语音段的终止点,停止所述音频信号的识别,以获得与所述目标语音段相关联的第一语句;以及提取所述起始点和所述终止点之间的音频信号,获得所述目标语音段。4.根据权利要求3所述的方法,其中,所述预定文本包括顺序排列的多个自然语句;所述待处理音频信号包括多个目标语音段;所述确定所述预定文本中与所述目标语音段相关联的第二语句包括:在以文件流形式读取所述待处理音频信号的过程中,确定获得所述第一语句相对于获得与多个所述目标语音段分别相关联的多个语句的次序;以及确定多个所述自然语句中排在所述次序的自然语句,作为所述第二语句。5.根据权利要求3所述的方法,其中,对所述目标语音段进行标注还包括:基于所述起始点和所述终止点,对所述目标语音段进行标注,其中,所述第一标注数据还包括指示所述起始点和所述终止点的第三数据。6.根据权利要求1或2所述的方法,还包括:确定所述待处理音频信号的存储容量;基于所述存储容量,确定处理所述待处理音频信号的预测时长;以及在处理所述待处理音频信号的过程中,基于处理所述待处理音频信号的起始时刻、当前时刻和所述预测时长,确定处理所述待处理音频信号所需的剩余时长。7.一种语音识别模型的训练方法,包括:以第一样本语音段作为语音识别模型的输入,获得与所述第一样本语音段相关联的第一预测语句,所述第一样本语音段具有第二标注数据,所述第二标注数据包括实际语句和
指示所述第一样本语音段的第一样本类型的第四数据;以及基于所述实际语句、所述第一预测语句和所述第一样本类型,对所述语音识别模型进行训练,其中,所述第一样本语音段是采用权利要求1~6中任一项所述的方法获得的,所述第一样本类型与所述第一比对结果相关联。8.一种语义识别模型的训练方法,包括:以第二样本语音段作为语音识别模型的输入,获得与所述第二样本语音段相关联的第二预测语句,所述第二样本语音段具有第三标注数据,所述第三标注数据包括实际语义信息和指示所述第二样本语音段的第二样本类型的第五数据;以所述第二预测语句作为语义识别模型的输入,获得所述第二预测语句的预测语义信息;以及基于所述预测语义信息、所述实际语义信息和所述第二样本类型,对所述语义识别模型进行训练,其中,所述第二样本语音段是采用权利要求2~6中任一项所述的方法获得的,所述第二样本类型与所述第二比对结果相关联。9.一种处理音频信号的装置,包括:音频识别模块,用于识别待处理音频信号,获得所述待处理音频信号中的目标语音段及与所述目标语音段相关联的第一语句,其中,所述待处理音频信号是基于预定文本获得的;关联语句确定模块,用于确定所述预定文本中与所述目标语音段相关联的第二语句;语句比对模块,用于比对所述第一语句和所述第二语句,获得第一比对结果;以及语音标注模块,用于基于所述第二语句和所述第一比对结果,对所述目标语音段进行标注,获得具有第一标注数据的语音段,其中,所述第一标注数据包括所述第二语句和指示所述第一比对结果的第一数据。1...
【专利技术属性】
技术研发人员:周毅,左声勇,
申请(专利权)人:阿波罗智联北京科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。