System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及语音通讯,尤其涉及一种语音信号处理方法及相关装置。
技术介绍
1、在第一设备与第二设备进行语音通信的过程中,可能存在声学回声。声学回声是指第二设备的用户语音信号传输至第一设备,经第一设备的扬声器播放后,被第一设备的麦克风采集形成的回声。为了提升第一设备与第二设备之间的通话效果,可对声学回声进行滤除处理。
2、人工智能(artificial intelligence,缩写为ai)回声抑制技术是一种利用人工智能算法来抑制声学回声的技术,它可以通过分析语音信号的特征,识别声学回声信号并将其从麦克风采集的语音信号中去除。由于语音信号是一种序列输入,相邻语音帧之间具有较强相关性,ai模型能够记忆先前的信息,捕捉语音帧之间的时间依赖关系,可通过ai模型对声学回声进行滤除。
3、远端发声是指语音通信双方中第二设备的用户在讲话,仅近端发声是指语音通信双方中仅第一设备的用户在讲话。因为ai模型处理语音帧时具有时间依赖性,在长时间远端发声状态下,ai模型对声学回声的抑制能力逐渐增强,从而可能导致第一设备和第二设备之间的通话状态从远端发声状态进入仅近端发声状态,进而导致第一设备的部分用户语音信号被抑制失真,从而导致语音通信质量差。
技术实现思路
1、本申请提供一种语音信号处理方法及相关装置,基于本申请所描述的方法,能够提升语音通信质量。
2、第一方面,本申请提供一种语音信号处理方法,该方法可由第一设备执行,或由与第一设备匹配的装置执行,例如由处理器、芯片或芯
3、在上述实施例中,第一设备可以在采用第一ai模型进行声学回声抑制的情况下,基于第一设备当前处理的近端语音信号帧中不存在声学回声,且第一ai模型长时间处于强抑制状,重置第一ai模型,得到第二ai模型,再通过第二ai模型对当前处理的近端语音信号帧进行回声抑制处理,得到更优质的通信语音信号帧,有利于避免第一设备的用户语音信号被抑制失真,保证第一设备进行声学回声抑制的可靠性和准确性,通过该更优质的通信语音信号帧实现第一设备与第二设备的语音通信,从而有利于提升语音通信质量,同时,有利于提升用户体验感。
4、结合第一方面,在一种可能的方式中,该第二ai模型包括编码器、特征提取模块以及解码器;上述将第一语音信号帧和第二语音信号帧输入第二ai模型,得到第二ai模型输出的第一掩码,包括:获取第一语音信号帧的第一复数谱;并获取第二语音信号帧的第二复数谱;将第一复数谱和第二复数谱进行拼接,得到第三复数谱;通过编码器对第三复数谱进行编码处理,得到第一特征向量;通过特征提取模块对第一特征向量进行深度特征提取,得到第二特征向量;通过解码器对第二特征向量进行解码处理,得到第一掩码。可见,通过采用包括编码器、特征提取模块以及解码器结构的ai模型,对第一语音信号帧进行回声消除处理,得到该第一语音信号帧的第一掩码,有利于更加可靠地确定出该第一掩码。
5、结合第一方面,在一种可能的方式中,该第二ai模型包括信号处理模块、编码器、特征提取模块以及解码器;上述将第一语音信号帧和第二语音信号帧输入第二ai模型,得到第二ai模型输出的第一掩码,包括:通过信号处理模块获取第一语音信号帧的第一复数谱;并通过信号处理模块获取第二语音信号帧的第二复数谱;并通过信号处理模块将第一复数谱和第二复数谱进行拼接,得到第三复数谱;通过编码器对第三复数谱进行编码处理,得到第一特征向量;通过特征提取模块对第一特征向量进行深度特征提取,得到第二特征向量;通过解码器对第二特征向量进行解码处理,得到第一掩码。可见,通过采用包括信号处理模块、编码器、特征提取模块以及解码器结构的ai模型,对第一语音信号帧进行回声消除处理,得到该第一语音信号帧的第一掩码,有利于更加便捷准确地确定出该第一掩码。
6、结合第一方面,在一种可能的方式中,上述基于第一掩码和第二语音信号帧,确定第三语音信号帧,包括:基于第一掩码和第二复数谱,确定第四复数谱;对第四复数谱进行语音合成处理,得到第三语音信号帧。可见,通过第二ai模型输出的第一掩码和第二语音信号帧的第二复数谱,确定第三语音信号帧,有利于更加准确合理地避免第一设备的用户语音信号被抑制失真。
7、结合第一方面,在一种可能的方式中,上述重置第一ai模型,得到第二ai模型,包括:将第一ai模型中的隐藏状态参数和/或记忆细胞参数设置为零,得到第二ai模型。可见,通过将第一ai模型中的隐藏状态参数和/或记忆细胞参数设置为零,得到第二ai模型,有利于更加灵活地得到第二ai模型。
8、结合第一方面,在一种可能的方式中,上述第一语音信号帧集合中每个语音信号帧的掩码满足重置条件,包括:第一语音信号帧集合中每个语音信号帧对应的多个掩码值中的最大值均小于第二阈值。可见,通过对比第一语音信号帧集合中每个语音信号帧对应的多个掩码值中的最大值和第二阈值,可以更加精准细致地对第一ai模型输出的第一语音信号帧集合中每个语音信号帧的掩码进行重置条件的判断。
9、结合第一方面,在一种可能的方式中,该方法还包括:响应于第一语音信号帧中存在第一用户语音信号,且第二语音信号帧集合的帧数大于第三阈值,重置第一ai模型,得到第三ai模型;其中,第二语音信号帧集合为第一ai模型已处理的连续语音信号帧的集合,第二语音信号帧集合中的语音信号帧不包括第二设备的用户语音;将第一语音信号帧和第二语音信号帧输入第三ai模型,得到第三ai模型输出的第二掩码;基于第二掩码和第二语音信号帧,确定第四语音信号帧;向第二设备发送第四语音信号帧。可见,第一设备可以在采用第一ai模型进行声学回声抑制的情况下,基于第一设备当前处理的近端语音信号帧中存在声学回声,且第一ai模型长时间处理不包括第二设备的用户语音的近端语音信号帧,重置第一ai模型,得到第二ai模型,再通过第二ai模型对当前处理的近端语音信号帧进行回声抑制处理,得到更优质的通信语音信号帧,有利于避免第一设备的声学回声残留,提升第一设备进行声学回声抑制的全面性和准确性,通过该更优质的通信语音信号帧实现第一设备与第二设备的语音通信,从而有利于进一步提升语音通信质量,同时,有利于进一步提升用户体验感。
10、第二方面,本申请提供一种语音信号处理装置,该装置应用于第一设备,该第一设备包括扬声器和麦克风;该装本文档来自技高网...
【技术保护点】
1.一种语音信号处理方法,其特征在于,应用于第一设备,所述第一设备包括扬声器和麦克风;所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述第二AI模型包括编码器、特征提取模块以及解码器;
3.根据权利要求1所述的方法,其特征在于,所述第二AI模型包括信号处理模块、编码器、特征提取模块以及解码器;
4.根据权利要求2或3所述的方法,其特征在于,所述基于所述第一掩码和所述第二语音信号帧,确定第三语音信号帧,包括:
5.根据权利要求1所述的方法,其特征在于,所述重置所述第一AI模型,得到第二AI模型,包括:
6.根据权利要求1所述的方法,其特征在于,所述第一语音信号帧集合中每个语音信号帧的掩码满足重置条件,包括:
7.根据权利要求1-6任一项所述的方法,其特征在于,所述方法还包括:
8.一种语音信号处理装置,其特征在于,应用于第一设备,所述第一设备包括扬声器和麦克风;所述装置包括:
9.一种电子设备,包括处理器、存储器及存储在所述存储器上的计算机程序或指令,其特征在于,所述处理器执
10.一种芯片,包括处理器,其特征在于,所述处理器执行权利要求1-7中任一项所述方法的步骤。
11.一种芯片模组,其特征在于,所述芯片模组包括通信接口和芯片,其中:所述通信接口用于进行芯片模组中部通信,或者用于所述芯片模组与外部设备进行通信;所述芯片用于执行如权利要求1-7中任一项所述方法的步骤。
12.一种计算机可读存储介质,其特征在于,其存储有计算机程序或指令,所述计算机程序或指令被执行时实现权利要求1-7中任一项所述方法的步骤。
...【技术特征摘要】
1.一种语音信号处理方法,其特征在于,应用于第一设备,所述第一设备包括扬声器和麦克风;所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述第二ai模型包括编码器、特征提取模块以及解码器;
3.根据权利要求1所述的方法,其特征在于,所述第二ai模型包括信号处理模块、编码器、特征提取模块以及解码器;
4.根据权利要求2或3所述的方法,其特征在于,所述基于所述第一掩码和所述第二语音信号帧,确定第三语音信号帧,包括:
5.根据权利要求1所述的方法,其特征在于,所述重置所述第一ai模型,得到第二ai模型,包括:
6.根据权利要求1所述的方法,其特征在于,所述第一语音信号帧集合中每个语音信号帧的掩码满足重置条件,包括:
7.根据权利要求1-6任一项所述的方法,其特征在于,所述方法还包括:<...
【专利技术属性】
技术研发人员:明振宇,董斐,刘金刚,
申请(专利权)人:紫光展锐重庆科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。