处理音频信号的方法、模型训练方法、装置、设备和介质制造方法及图纸

技术编号:30017631 阅读:12 留言:0更新日期:2021-09-11 06:29
本公开提供了一种处理音频信号的方法、语音识别模型的训练方法、语义识别模型的训练方法、装置、电子设备和存储介质,涉及人工智能领域,具体涉及语音识别、自然语言处理和深度学习领域。处理音频信号的方法包括:识别待处理音频信号,获得待处理音频信号中的目标语音段及与目标语音段相关联的第一语句,该待处理音频信号是基于预定文本获得的;确定预定文本中与目标语音段相关联的第二语句;比对第一语句和第二语句,获得第一比对结果;以及基于第二语句和第一比对结果,对目标语音段进行标注,获得具有第一标注数据的语音段。其中,第一标注数据包括第二语句和指示第一比对结果的第一数据。一数据。一数据。

【技术实现步骤摘要】
处理音频信号的方法、模型训练方法、装置、设备和介质


[0001]本公开涉及人工智能领域,具体涉及语音识别、自然语言处理和深度学习领域,更具体地涉及一种处理音频信号的方法、语音识别模型的训练方法、语义识别模型的训练方法、装置、电子设备和存储介质。

技术介绍

[0002]随着电子技术的发展,为用户提供智能化服务的智能语音技术得到快速发展。为了得到良好的智能语音模型,需要依赖大量标注有正确语句的语音段。但通常一个音频会包括多个语音段,为了得到该多个语音段,需要对该音频进行切割,并对切割得到的语音段标注正确语句。相关技术中由人工对该音频进行切割和标注,但由于音频通常为连续录制的长度较长的音频,该人工方式存在效率低、人工成本高等问题。

技术实现思路

[0003]提供了一种提高标注效率和标注信息多样性的处理音频信号的方法,并基于得到的具有标注数据的语音段,提出一种语音识别模型的训练方法和一种语义识别模型的训练方法。
[0004]根据本公开的一个方面,提供了一种处理音频信号的方法,包括:识别待处理音频信号,获得待处理音频信号中的目标语音段及与目标语音段相关联的第一语句,其中,待处理音频信号是基于预定文本获得的;确定预定文本中与目标语音段相关联的第二语句;比对第一语句和第二语句,获得第一比对结果;以及基于第二语句和第一比对结果,对目标语音段进行标注,获得具有第一标注数据的语音段,其中,第一标注数据包括第二语句和指示第一比对结果的第一数据。
[0005]根据本公开的另一个方面,提供了一种语音识别模型的训练方法,包括:以第一样本语音段作为语音识别模型的输入,获得与第一样本语音段相关联的第一预测语句,该第一样本语音段具有第二标注数据,第二标注数据包括实际语句和指示第一样本语音段的第一样本类型的第四数据;以及基于实际语句、第一预测语句和第一样本类型,对语音识别模型进行训练,其中,第一样本语音段是采用上述的处理音频信号的方法获得的,第一样本类型与第一比对结果相关联。
[0006]根据本公开的另一个方面,提供了一种语义识别模型的训练方法,包括:以第二样本语音段作为语音识别模型的输入,获得与第二样本语音段相关联的第二预测语句,第二样本语音段具有第三标注数据,第三标注数据包括实际语义信息和指示第二样本语音段的第二样本类型的第五数据;以第二预测语句作为语义识别模型的输入,获得第二预测语句的预测语义信息;以及基于预测语义信息、实际语义信息和第二样本类型,对语义识别模型进行训练,其中,第二样本语音段是上述的处理音频信号的方法获得的,第二样本类型与第二比对结果相关联。
[0007]根据本公开的另一个方面,提供了一种处理音频信号的装置,包括:音频识别模
块,用于识别待处理音频信号,获得待处理音频信号中的目标语音段及与目标语音段相关联的第一语句,其中,待处理音频信号是基于预定文本获得的;关联语句确定模块,用于确定预定文本中与目标语音段相关联的第二语句;语句比对模块,用于比对第一语句和第二语句,获得第一比对结果;以及语音标注模块,用于基于第二语句和第一比对结果,对目标语音段进行标注,获得具有第一标注数据的语音段,其中,第一标注数据包括第二语句和指示第一比对结果的第一数据。
[0008]根据本公开的另一个方面,提供了一种语音识别模型的训练装置,包括:第一语句预测模块,用于以第一样本语音段作为语音识别模型的输入,获得与第一样本语音段相关联的第一预测语句,第一样本语音段具有第二标注数据,第二标注数据包括实际语句和指示第一样本语音段的第一样本类型的第四数据;以及第一模型训练模块,用于基于实际语句、第一预测语句和第一样本类型,对语音识别模型进行训练,其中,第一样本语音段是采用上述的处理音频信号的装置获得的,第一样本类型与第一比对结果相关联。
[0009]根据本公开的另一个方面,提供了一种语义识别模型的训练方法,包括:第二语句预测模块,用于以第二样本语音段作为语音识别模型的输入,获得与第二样本语音段相关联的第二预测语句,第二样本语音段具有第三标注数据,第三标注数据包括实际语义信息和指示第二样本语音段的第二样本类型的第五数据;语义预测模块,用于以第二预测语句作为语义识别模型的输入,获得第二预测语句的预测语义信息;以及第二模型训练模块,用于基于预测语义信息、实际语义信息和第二样本类型,对语义识别模型进行训练,其中,第二样本语音段是采用上述的处理音频信号的装置获得的,第二样本类型与第二比对结果相关联。
[0010]根据本公开的另一个方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开提供的以下至少一种方法:处理音频信号的方法、语音识别模型的训练方法和语义识别模型的训练方法。
[0011]根据本公开的另一个方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开提供的以下至少一种方法:处理音频信号的方法、语音识别模型的训练方法和语义识别模型的训练方法。
[0012]根据本公开的另一个方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开提供的以下至少一种方法:处理音频信号的方法、语音识别模型的训练方法和语义识别模型的训练方法。
[0013]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0014]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0015]图1是根据本公开实施例的处理音频信号的方法、模型训练方法、装置、设备和介质的应用场景示意图;
[0016]图2是根据本公开实施例的处理音频信号的方法的流程示意图;
[0017]图3是根据本公开实施例的识别待处理音频信号的原理示意图;
[0018]图4是根据本公开实施例的处理音频信号的原理示意图;
[0019]图5是根据本公开另一实施例的处理音频信号的方法的流程示意图;
[0020]图6是根据本公开实施例的语音识别模型的训练方法的流程示意图;
[0021]图7是根据本公开实施例的语义识别模型的训练方法的流程示意图;
[0022]图8是根据本公开实施例的处理音频信号的装置的结构框图;
[0023]图9是根据本公开实施例的语音识别模型的训练装置的结构框图;
[0024]图10是根据本公开实施例的语义识别模型的训练装置的结构框图;以及
[0025]图11是用来实现本公开实施例的各方法的电子设备的框图。
具体实施方式
[0026]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种处理音频信号的方法,包括:识别待处理音频信号,获得所述待处理音频信号中的目标语音段及与所述目标语音段相关联的第一语句,其中,所述待处理音频信号是基于预定文本获得的;确定所述预定文本中与所述目标语音段相关联的第二语句;比对所述第一语句和所述第二语句,获得第一比对结果;以及基于所述第二语句和所述第一比对结果,对所述目标语音段进行标注,获得具有第一标注数据的语音段,其中,所述第一标注数据包括所述第二语句和指示所述第一比对结果的第一数据。2.根据权利要求1所述的方法,其中,所述预定文本还包括所述第二语句的第二语义信息;所述方法还包括:提取所述第一语句的语义信息,获得第一语义信息;以及比对所述第一语义信息和所述第二语义信息,获得第二比对结果,其中,对所述目标语音段进行标注包括:基于所述第二语句、所述第二语义信息、所述第一比对结果和所述第二比对结果,对所述目标语音段进行标注;其中,所述第一标注数据还包括所述第二语义信息和指示所述第二比对结果的第二数据。3.根据权利要求1或2所述的方法,其中,识别待处理音频信号包括:响应于以文件流形式读取所述待处理音频信号的过程中检测到目标语音段的起始点,识别读取到的音频信号;响应于检测到所述目标语音段的终止点,停止所述音频信号的识别,以获得与所述目标语音段相关联的第一语句;以及提取所述起始点和所述终止点之间的音频信号,获得所述目标语音段。4.根据权利要求3所述的方法,其中,所述预定文本包括顺序排列的多个自然语句;所述待处理音频信号包括多个目标语音段;所述确定所述预定文本中与所述目标语音段相关联的第二语句包括:在以文件流形式读取所述待处理音频信号的过程中,确定获得所述第一语句相对于获得与多个所述目标语音段分别相关联的多个语句的次序;以及确定多个所述自然语句中排在所述次序的自然语句,作为所述第二语句。5.根据权利要求3所述的方法,其中,对所述目标语音段进行标注还包括:基于所述起始点和所述终止点,对所述目标语音段进行标注,其中,所述第一标注数据还包括指示所述起始点和所述终止点的第三数据。6.根据权利要求1或2所述的方法,还包括:确定所述待处理音频信号的存储容量;基于所述存储容量,确定处理所述待处理音频信号的预测时长;以及在处理所述待处理音频信号的过程中,基于处理所述待处理音频信号的起始时刻、当前时刻和所述预测时长,确定处理所述待处理音频信号所需的剩余时长。7.一种语音识别模型的训练方法,包括:以第一样本语音段作为语音识别模型的输入,获得与所述第一样本语音段相关联的第一预测语句,所述第一样本语音段具有第二标注数据,所述第二标注数据包括实际语句和
指示所述第一样本语音段的第一样本类型的第四数据;以及基于所述实际语句、所述第一预测语句和所述第一样本类型,对所述语音识别模型进行训练,其中,所述第一样本语音段是采用权利要求1~6中任一项所述的方法获得的,所述第一样本类型与所述第一比对结果相关联。8.一种语义识别模型的训练方法,包括:以第二样本语音段作为语音识别模型的输入,获得与所述第二样本语音段相关联的第二预测语句,所述第二样本语音段具有第三标注数据,所述第三标注数据包括实际语义信息和指示所述第二样本语音段的第二样本类型的第五数据;以所述第二预测语句作为语义识别模型的输入,获得所述第二预测语句的预测语义信息;以及基于所述预测语义信息、所述实际语义信息和所述第二样本类型,对所述语义识别模型进行训练,其中,所述第二样本语音段是采用权利要求2~6中任一项所述的方法获得的,所述第二样本类型与所述第二比对结果相关联。9.一种处理音频信号的装置,包括:音频识别模块,用于识别待处理音频信号,获得所述待处理音频信号中的目标语音段及与所述目标语音段相关联的第一语句,其中,所述待处理音频信号是基于预定文本获得的;关联语句确定模块,用于确定所述预定文本中与所述目标语音段相关联的第二语句;语句比对模块,用于比对所述第一语句和所述第二语句,获得第一比对结果;以及语音标注模块,用于基于所述第二语句和所述第一比对结果,对所述目标语音段进行标注,获得具有第一标注数据的语音段,其中,所述第一标注数据包括所述第二语句和指示所述第一比对结果的第一数据。1...

【专利技术属性】
技术研发人员:周毅左声勇
申请(专利权)人:阿波罗智联北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1