语音增强方法、装置和系统制造方法及图纸

技术编号:33527847 阅读:22 留言:0更新日期:2022-05-19 01:53
一种语音增强方法、装置和系统,该方法包括:获取目标接待人员接待目标客户的过程的录音音频,其中所述录音音频是由佩戴在所述目标接待人员身上的拾音设备拾取的;获取与所述录音音频同一时段的监控视频,从所述监控视频中确定出所述目标接待人员和其他人员;根据所述目标接待人员从所述其他人员中确定出所述目标客户;确定所述目标客户在所述时段内相对于所述目标接待人员的方位信息,并根据所述方位信息确定降噪参数;根据所述降噪参数对所述录音音频进行降噪处理。本申请将拾音设备放置在接待过程中涉及的两个对象中的一个对象身上,结合监控视频锁定该对象再定位另一对象,最终获得两者之间的相对方位用于降噪,能够得到高质量的降噪效果。质量的降噪效果。质量的降噪效果。

【技术实现步骤摘要】
语音增强方法、装置和系统


[0001]本申请涉及语音增强
,更具体地涉及一种语音增强方法、装置和系统。

技术介绍

[0002]客户去4S店购车时,4S店工作人员往往会安排一对一接待。为了检验门店销售在接待过程中的专业性和服务态度,以及更好地了解客户的购车意向、关注点等,4S店接待质检应运而生。所谓门店质检,也即销售在接待客户过程中进行录音,然后通过转写和语义抽取,判断销售接待的专业性和服务态度等,如是否有说礼貌用语、车辆参数和门店活动等是否介绍完整和正确。另外,通过对客户的分析,了解其购车意向、购车关注点等等,生成电子工单,方便后续对客户的跟踪回访和购车的争取。然而,4S店内环境非常嘈杂,导致录音转写效果非常差,从而降低了质检的准确率。
[0003]当前质检系统一般对录制音频进行常规的降噪处理对录音进行增强处理。但是4S店环境非常嘈杂,同时看车和接待的较多,录音中往往会包含较多的他人人声干扰。另外,接待过程中,销售跟客户的位置不固定,这会导致录音音量存在较大幅度的变化。传统的语音增强算法对4S店场景效果较差。在其他业务场景中,有基于人脸识别对说话人进行定位,然后通过麦克风阵列拾取所定位方向的语音,达到降噪的效果。然而,4S店空间很大,人员多而且走动频繁,固定摄像头受到视线遮挡的影响,无法实时有效的获取到特定人员(如某位接待的销售顾问)的图像信息。

技术实现思路

[0004]为了解决上述问题中的至少一个而提出了本申请。根据本申请一方面,提供了一种语音增强方法,所述方法包括:获取目标接待人员接待目标客户的过程的录音音频,其中所述录音音频是由佩戴在所述目标接待人员身上的拾音设备拾取的;获取与所述录音音频同一时段的监控视频,从所述监控视频中确定出所述目标接待人员和其他人员;根据所述目标接待人员从所述其他人员中确定出所述目标客户;确定所述目标客户在所述时段内相对于所述目标接待人员的方位信息,并根据所述方位信息确定降噪参数;根据所述降噪参数对所述录音音频进行降噪处理。
[0005]在本申请的一个实施例中,所述方法还包括:获取所述目标接待人员接待所述目标客户的过程中所述目标接待人员的位置信息;所述从所述监控视频中确定出所述目标接待人员和其他人员,包括:获取所述监控视频中包括的各个人员在所述时段的位置信息;将所述目标接待人员的位置信息与所述各个人员在所述时段的位置信息相比较,以从所述各个人员中确定出所述目标接待人员,所述目标接待人员以外的人员为其他人员。
[0006]在本申请的一个实施例中,所述将所述目标接待人员的位置信息与所述各个人员在所述时段的位置信息相比较,以从所述各个人员中确定出所述目标接待人员,包括:基于所述目标接待人员的位置信息获取所述目标接待人员在接待所述目标客户的过程中的移动轨迹;基于所述各个人员在所述时段的位置信息获取所述各个人员在所述时段的移动轨
迹;将所述目标接待人员在接待所述目标客户的过程中的移动轨迹与所述各个人员在所述时段的移动轨迹相匹配,以从所述各个人员中确定出所述目标接待人员。
[0007]在本申请的一个实施例中,所述录音音频包括所述目标接待人员的标识信息,所述从所述监控视频中确定出所述目标接待人员和其他人员,包括:从预存特征库中获取与所述标识信息对应的特征,基于所述特征从所述监控视频中确定出所述目标接待人员,所述目标接待人员以外的人员为其他人员。
[0008]在本申请的一个实施例中,所述根据所述目标接待人员从所述其他人员中确定出所述目标客户,包括:获取所述监控视频中所述目标接待人员的周边人员与所述目标接待人员之间的动态距离信息,并根据所述动态距离信息从所述其他人员中确定出所述目标客户。
[0009]在本申请的一个实施例中,所述获取所述监控视频中所述目标接待人员的周边人员与所述目标接待人员之间的动态距离信息,并根据所述动态距离信息从所述其他人员中确定出所述目标客户,包括:获取所述监控视频中所述目标接待人员的周边人员与所述目标接待人员之间的距离的动态变化情况;将与所述目标接待人员之间的距离的动态变化最小的人员确定为所述目标客户。
[0010]在本申请的一个实施例中,所述确定所述目标客户在所述时段内相对于所述目标接待人员的方位信息还基于所述目标接待人员在所述时段内的面部朝向信息。
[0011]在本申请的一个实施例中,所述根据所述方位信息确定降噪参数,包括:根据所述方位信息确定波束形成算法的参数。
[0012]在本申请的一个实施例中,所述时段内的所述方位信息随时间变化,所述波束形成算法的参数也随时间变化。
[0013]在本申请的一个实施例中,所述拾音设备与所述目标接待人员之间的相对位置是固定不变的,所述方法还包括:获取所述拾音设备相对于所述目标接待人员的方位信息;基于所述拾音设备相对于所述目标接待人员的方位信息对所述录音音频进行降噪处理。
[0014]在本申请的一个实施例中,所述拾音设备具有定位功能,以得到所述目标接待人员的位置信息。
[0015]在本申请的一个实施例中,所述获取所述监控视频中包括的各个人员在所述时段的位置信息,包括:根据采集所述监控视频的多个图像采集设备的位置、角度和所拍摄画面范围来构建所述监控视频中包括的各个人员的三维人员模型;对每个所述三维人员模型进行标识和位置追踪,以得到所述各个人员在所述时段的位置信息。
[0016]在本申请的一个实施例中,所述录音音频和所述监控视频均是实时上传至后台服务器的,以由所述后台服务器执行所述语音增强方法。
[0017]在本申请的一个实施例中,经降噪处理后的所述录音音频经转写和语义抽取后,得到所述目标接待人员的接待质检结果,以实现对所述目标接待人员进行接待质检。
[0018]根据本申请另一方面,提供了一种语音增强方法,所述方法包括:获取目标接待人员接待目标客户的过程的录音音频,其中所述录音音频是由佩戴在所述目标客户身上的拾音设备拾取的;获取与所述录音音频同一时段的监控视频,从所述监控视频中确定出所述目标客户和其他人员;根据所述目标客户从所述其他人员中确定出所述目标接待人员;确定所述目标接待人员在所述时段内相对于所述目标客户的方位信息,并根据所述方位信息
确定降噪参数;根据所述降噪参数对所述录音音频进行降噪处理。
[0019]根据本申请另一方面,提供了一种语音增强装置,所述装置包括存储器和处理器,所述存储器上存储有由所述处理器运行的计算机程序,所述计算机程序在被所述处理器运行时,使得所述处理器执行上述语音增强方法。
[0020]根据本申请再一方面,提供了一种语音增强系统,所述系统包括图像采集装置、拾音装置和上述语音增强装置,其中所述图像采集装置用于采集接待场所的监控视频,所述拾音装置用于采集接待人员接待客户的过程的录音音频,所述语音增强装置用于基于所述监控视频和所述录音音频对所述录音音频进行降噪。
[0021]根据本申请实施例的语音增强方法、装置和系统将拾音设备放置在接待过程中涉及的两个对象中的一个对象身上,结合本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音增强方法,其特征在于,所述方法包括:获取目标接待人员接待目标客户的过程的录音音频,其中所述录音音频是由佩戴在所述目标接待人员身上的拾音设备拾取的;获取与所述录音音频同一时段的监控视频,从所述监控视频中确定出所述目标接待人员和其他人员;根据所述目标接待人员从所述其他人员中确定出所述目标客户;确定所述目标客户在所述时段内相对于所述目标接待人员的方位信息,并根据所述方位信息确定降噪参数;根据所述降噪参数对所述录音音频进行降噪处理。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取所述目标接待人员接待所述目标客户的过程中所述目标接待人员的位置信息;所述从所述监控视频中确定出所述目标接待人员和其他人员,包括:获取所述监控视频中包括的各个人员在所述时段的位置信息;将所述目标接待人员的位置信息与所述各个人员在所述时段的位置信息相比较,以从所述各个人员中确定出所述目标接待人员,所述目标接待人员以外的人员为其他人员。3.根据权利要求2所述的方法,其特征在于,所述将所述目标接待人员的位置信息与所述各个人员在所述时段的位置信息相比较,以从所述各个人员中确定出所述目标接待人员,包括:基于所述目标接待人员的位置信息获取所述目标接待人员在接待所述目标客户的过程中的移动轨迹;基于所述各个人员在所述时段的位置信息获取所述各个人员在所述时段的移动轨迹;将所述目标接待人员在接待所述目标客户的过程中的移动轨迹与所述各个人员在所述时段的移动轨迹相匹配,以从所述各个人员中确定出所述目标接待人员。4.根据权利要求1所述的方法,其特征在于,所述录音音频包括所述目标接待人员的标识信息,所述从所述监控视频中确定出所述目标接待人员和其他人员,包括:从预存特征库中获取与所述标识信息对应的特征,基于所述特征从所述监控视频中确定出所述目标接待人员,所述目标接待人员以外的人员为其他人员。5.根据权利要求1所述的方法,其特征在于,所述根据所述目标接待人员从所述其他人员中确定出所述目标客户,包括:获取所述监控视频中所述目标接待人员的周边人员与所述目标接待人员之间的动态距离信息,并根据所述动态距离信息从所述其他人员中确定出所述目标客户。6.根据权利要求5所述的方法,其特征在于,所述获取所述监控视频中所述目标接待人员的周边人员与所述目标接待人员之间的动态距离信息,并根据所述动态距离信息从所述其他人员中确定出所述目标客户,包括:获取所述监控视频中所述目标接待人员的周边人员与所述目标接待人员之间的距离的动态变化情况;将与所述目标接待人员之间的距离的动态变化最小的人员确定为所述目标客户。7.根据权利要求1所述的方法,其特征在于,所述确定所述目标客户在所述时段内相对于所述目标接待人员的方...

【专利技术属性】
技术研发人员:李深安许国朋傅志皇王兴宝雷琴辉
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1