System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 角色判定模型的构建方法、角色判定方法及电子设备技术_技高网

角色判定模型的构建方法、角色判定方法及电子设备技术

技术编号:41697464 阅读:2 留言:0更新日期:2024-06-19 12:32
本发明专利技术提供了一种角色判定模型的构建方法、角色判定方法及电子设备,涉及音频识别的技术领域,包括:针对样本通话音频数据进行数据预处理,确定目标语音信号;基于梅尔频谱语音处理算法,对目标语音信号进行特征提取处理,以提取目标语音信号对应的目标特征向量;将目标语音信号对应的目标特征向量及对应的标签发送至端对端音频预测分类器中,对端对端音频预测分类器进行分类训练,基于训练后的端对端音频预测分类器构建角色判定模型。本发明专利技术可以避免进行语音文本转换,直接通过端对端的方式,判断通话音频中各声道的通话角色,从而显著提升了角色判定效率。

【技术实现步骤摘要】

本专利技术涉及音频识别的,尤其是涉及一种角色判定模型的构建方法、角色判定方法及电子设备


技术介绍

1、在智能客服系统中,时常需要根据客服和客户的通话,判断客服端和客户端的角色,目前,相关技术提出,可以基于语音识别和文本分析技术,通过对通话内容进行语音-文本转换和文本分析,判断通话中的角色,但该方案需要同时采用语音转换和本文处理两个模块,并且,考虑到通话中的语音质量、口音、方言等因素对语音识别的影响,以及通话中可能存在的噪音、干扰等因素对文本分析的影响,导致判断角色需要耗费大量时间,进而导致角色判定效率较低。


技术实现思路

1、有鉴于此,本专利技术的目的在于提供一种角色判定模型的构建方法、角色判定方法及电子设备,可以避免进行语音文本转换,直接通过端对端的方式,判断通话音频中各声道的通话角色,从而显著提升了角色判定效率。

2、第一方面,本专利技术实施例提供了一种角色判定模型的构建方法,方法包括:针对样本通话音频数据进行数据预处理,确定目标语音信号,其中,样本通话音频数据为单声道音频和双声道音频混合的音频数据,数据预处理包括:音频分离处理和音频去静音处理;基于梅尔频谱语音处理算法,对目标语音信号进行特征提取处理,以提取目标语音信号对应的目标特征向量;将目标语音信号对应的目标特征向量及对应的标签发送至端对端音频预测分类器中,对端对端音频预测分类器进行分类训练,基于训练后的端对端音频预测分类器构建角色判定模型;其中,角色判定模型包括训练后的端对端音频预测分类器,端对端音频预测分类器用于确定通话音频中各声道的标签,角色判定模型用于根据通话音频中各声道的标签对应的标签占比,确定通话角色对应的通话音频中的声道。

3、在一种实施方式中,针对样本通话音频数据进行数据预处理,确定目标语音信号的步骤,包括:分别对单声道音频和双声道音频进行说话人分离处理和音轨分离处理,确定第一语音信号;针对第一语音信号进行语音活性检测处理,确定语音信号开始和结束的各项时间节点;根据时间节点,检测并清除第一语音信号中的静音语音片段,确定目标语音信号,其中,目标语音信号为清除静音语音片段后的各项目标语音片段的集合。

4、在一种实施方式中,分别对单声道音频和双声道音频进行说话人分离处理和音轨分离处理,确定第一语音信号的步骤,包括:通过预设说话人分离模型和预设层次聚类模型,对单声道音频的音频数据进行说话人分离处理,分别提取坐席方音频和非坐席方音频,其中,坐席方音频为客户端的音频,非坐席方音频为客户端的音频;利用预设音轨分离工具,将双声道音频的音频数据分离为左声道音频和右声道音频;将坐席方音频、非坐席方音频、左声道音频和右声道音频,确定为第一语音信号。

5、在一种实施方式中,基于梅尔频谱语音处理算法,对目标语音信号进行特征提取处理,以提取目标语音信号对应的目标特征向量的步骤,包括:针对目标特征向量依次进行预加重、分帧和加窗处理,确定待训练语音信号集合,其中,待训练语音信号集合中包括:目标特征向量中每一帧的待训练语音信号;通过快速傅里叶变换对每一帧的待训练语音信号进行频域转换和频谱叠加,确定目标特征向量,其中,目标特征向量为目标语音信号的语音特征参数。

6、在一种实施方式中,针对目标特征向量依次进行预加重、分帧和加窗处理,确定待训练语音信号集合的步骤,包括:通过梅尔频谱语音处理算法中的高通滤波器,对目标特征向量进行预加重处理,以使目标特征向量中各项目标语音片段的高频信息得到加强;在将预加重处理后的目标特征向量进行信号分帧处理后,逐帧输入至预设窗函数,确定训练语音信号集合。

7、第二方面,本专利技术实施例还提供一种角色判定方法,方法包括:获取通话音频数据;对通话音频数据进行数据预处理,确定待判定数据;待判定数据中包括多个待判定声道数据,并分别将各待判定声道数据分为多段;基于梅尔频谱语音处理算法,对待判定声道数据的各段数据进行特征提取处理,以提取待判定声道数据的各段数据对应的特征向量;将待判定声道数据各段数据对应的特征向量发送至预先构建的角色判定模型中,以分别确定各待判定声道数据的标签占比,并基于各待判定数据的标签占比确定对待判定数据的角色判定结果;其中,角色判定模型为基于第一方面提供的任一项的角色判定模型的构建方法构建得到的。

8、在一种实施方式中,将待判定声道数据各段数据对应的特征向量发送至预先构建的角色判定模型中,以分别确定各待判定声道数据的标签占比,并基于各待判定数据的标签占比确定对待判定数据的角色判定结果的步骤,包括:将待判定数据发送至预先构建的角色判定模型,确定各声道对应的预测标签集合,其中,预测标签集合包括:坐席标签和非坐席标签;分别针对各声道中坐席标签和非坐席标签的数量进行统计,确定标签总量以及各声道对应的坐席标签占比和非坐席标签占比,其中,各声道的标签数量相同;将各声道的坐席标签占比进行对比,若任一声道的坐席标签占比较高,则该声道的角色判定结果为坐席;将各声道的非坐席标签占比进行对比,若任一声道的非坐席标签占比较高,则该声道的角色判定结果为非坐席。

9、第三方面,一种角色判定模型的构建装置,装置包括:数据处理模块,针对样本通话音频数据进行数据预处理,确定目标语音信号,其中,样本通话音频数据为单声道音频和双声道音频混合的音频数据,数据预处理包括:音频分离处理和音频去静音处理;特征提取模块,基于梅尔频谱语音处理算法,对目标语音信号进行特征提取处理,以提取目标语音信号对应的目标特征向量;模型训练模块,将目标语音信号对应的目标特征向量及对应的标签发送至端对端音频预测分类器中,对端对端音频预测分类器进行分类训练,基于训练后的端对端音频预测分类器构建角色判定模型;其中,角色判定模型包括训练后的端对端音频预测分类器,端对端音频预测分类器用于确定通话音频中各声道的标签,角色判定模型用于根据通话音频中各声道的标签对应的标签占比,确定通话角色对应的通话音频中的声道。

10、第四方面,一种角色判定装置,装置包括:数据采集模块,获取通话音频数据;数据处理模块,对通话音频数据进行数据预处理,确定待判定数据;待判定数据中包括多个待判定声道数据,并分别将各待判定声道数据分为多段;语音处理模块,基于梅尔频谱语音处理算法,对待判定声道数据的各段数据进行特征提取处理,以提取待判定声道数据的各段数据对应的特征向量;角色判定模块,将待判定声道数据各段数据对应的特征向量发送至预先构建的角色判定模型中,以分别确定各待判定声道数据的标签占比,并基于各待判定数据的标签占比确定对待判定数据的角色判定结果;其中,角色判定模型为基于第一方面提供的任一项的角色判定模型的构建方法构建得到的。

11、第五方面,本专利技术实施例还提供一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的计算机可执行指令,处理器执行计算机可执行指令以实现第一方面和第二方面提供的任一项的方法。

12、本专利技术实施例带来了以下有益效果:

13、本专利技术实施例提供的一种角色判定模型的构建方法、角色判定方本文档来自技高网...

【技术保护点】

1.一种角色判定模型的构建方法,其特征在于,所述方法包括:

2.根据权利要求1所述的角色判定模型的构建方法,其特征在于,所述针对样本通话音频数据进行数据预处理,确定目标语音信号的步骤,包括:

3.根据权利要求2所述的角色判定模型的构建方法,其特征在于,所述分别对所述单声道音频和所述双声道音频进行说话人分离处理和音轨分离处理,确定第一语音信号的步骤,包括:

4.根据权利要求1所述的角色判定模型的构建方法,其特征在于,所述基于梅尔频谱语音处理算法,对所述目标语音信号进行特征提取处理,以提取所述目标语音信号对应的目标特征向量的步骤,包括:

5.根据权利要求4所述的角色判定模型的构建方法,其特征在于,所述针对所述目标特征向量依次进行预加重、分帧和加窗处理,确定待训练语音信号集合的步骤,包括:

6.一种角色判定方法,其特征在于,所述方法包括:

7.根据权利要求6所述的角色判定方法,其特征在于,将所述待判定声道数据各段数据对应的特征向量发送至预先构建的角色判定模型中,以分别确定各待判定声道数据的标签占比,并基于各待判定数据的标签占比确定对待判定数据的角色判定结果的步骤,包括:

8.一种角色判定模型的构建装置,其特征在于,所述装置包括:

9.一种角色判定装置,其特征在于,所述装置包括:

10.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现权利要求1至7任一项所述的方法。

...

【技术特征摘要】

1.一种角色判定模型的构建方法,其特征在于,所述方法包括:

2.根据权利要求1所述的角色判定模型的构建方法,其特征在于,所述针对样本通话音频数据进行数据预处理,确定目标语音信号的步骤,包括:

3.根据权利要求2所述的角色判定模型的构建方法,其特征在于,所述分别对所述单声道音频和所述双声道音频进行说话人分离处理和音轨分离处理,确定第一语音信号的步骤,包括:

4.根据权利要求1所述的角色判定模型的构建方法,其特征在于,所述基于梅尔频谱语音处理算法,对所述目标语音信号进行特征提取处理,以提取所述目标语音信号对应的目标特征向量的步骤,包括:

5.根据权利要求4所述的角色判定模型的构建方法,其特征在于,所述针对所述目标特征向量依次进行预加重、分...

【专利技术属性】
技术研发人员:胡明櫆姚树杰
申请(专利权)人:鼎富智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1