本申请公开了一种语音处理方法、装置、设备及计算机可读存储介质,涉及语音处理技术领域,包括:获取待处理的语音音频信号;将所述语音音频信号作为目标音频信号,提取所述目标音频信号的频谱特征;确定所述目标音频信号对应的目标信号能量,将所述目标音频信号、所述频谱特征、所述目标信号能量作为特征参数;将所述特征参数输入到预训练的语音处理模型中,以供所述语音处理模型输出处理后的语音音频信号。本申请提高了语音信号的处理质量。本申请提高了语音信号的处理质量。本申请提高了语音信号的处理质量。
【技术实现步骤摘要】
语音处理方法、装置、设备及计算机可读存储介质
[0001]本申请涉及语音处理
,尤其涉及一种语音处理方法、装置、设备及计算机可读存储介质。
技术介绍
[0002]语音信号在空气中传播的时候,其声波是球型发散的,而且声波能量随着传播距离的增加而呈指数衰减。复杂环境下的远场拾音系统在实际应用场景中,有一个较常见的现象,由于单个或多个发言者与麦克风的距离远近不同的变化导致扩声系统声音忽大忽小,因此,通常需要对采集到的语音信号进行处理,使得处理后的语音信号的信号能量大小恒定在一定水平,目前,传统的语音处理方法是通过在麦克风采集语音信号之后,使用自动增益控制(AGC,Automatic GainControl)处理来对采集到的语音信号进行处理。
[0003]传统自动增益控制方法是通过判断一个时间周期内语音信号的平均信号能量的大小,动态调整增益因子,即信号能量大的时候衰减增益,信号能量小的时候提高增益。而缺陷在于,实际场景中,环境复杂多变,如发言者声音从小到大跨过阈值阶段,如此单一且比较固定的增益控制方法并不能做到声音的平滑,会出现声音输出忽大忽小,语音信号处理质量差。
[0004]综上,如何提高语音信号的处理质量是语音处理
亟待解决的技术问题。
技术实现思路
[0005]本申请的主要目的在于提供一种语音处理方法、装置、设备及计算机可读存储介质,旨在解决如何提高语音信号的处理质量的技术问题。
[0006]为实现上述目的,本申请提供一种语音处理方法,所述语音处理方法包括以下步骤:获取待处理的语音音频信号;将所述语音音频信号作为目标音频信号,提取所述目标音频信号的频谱特征;确定所述目标音频信号对应的目标信号能量,将所述目标音频信号、所述频谱特征、所述目标信号能量作为特征参数;将所述特征参数输入到预训练的语音处理模型中,以供所述语音处理模型输出处理后的语音音频信号。
[0007]可选地,所述确定所述目标音频信号对应的目标信号能量的步骤,包括:获取预设信号帧数的历史语音音频信号,确定每一帧所述历史语音音频信号的第一信号能量;确定所述目标音频信号的第二信号能量,将各所述第一信号能量与所述第二信号能量作为目标信号能量。
[0008]可选地,所述目标音频信号包括多个采样点,所述将所述特征参数输入到预训练的语音处理模型中,以供所述语音处理模型输出处理后的语音音频信号的步骤,包括:
将所述特征参数输入到预训练的语音处理模型中的输入层,以通过所述语音处理模型中的神经网络层基于所述特征参数得到所述目标音频信号中每一采样点对应的增益因子;通过所述语音处理模型将所述每一采样点对应的增益因子传递至所述语音处理模型中的输出层,以通过所述输出层根据各所述增益因子对所述目标音频信号进行调整得到调整后的目标音频信号,并将调整后的所述目标音频信号作为处理后的语音音频信号进行输出。
[0009]可选地,所述通过所述输出层根据各所述增益因子对所述目标音频信号进行调整得到调整后的目标音频信号的步骤,包括:依次遍历所述目标音频信号中的每一采样点得到每一采样点各自对应的第一信号采样值和第一增益因子;以所述第一增益因子对所述第一信号采样值进行调整得到调整后的第一信号采样值,以调整后的第一信号采样值更新目标音频信号。
[0010]可选地,所述将所述语音音频信号作为目标音频信号的步骤,包括:确定所述语音音频信号包括的信号帧数;若所述信号帧数包括一个,将所述语音音频信号作为目标音频信号;若所述信号帧数包括多个,依次遍历所述语音音频信号的每一帧信号,将遍历的所述语音音频信号的每一帧信号作为目标音频信号。
[0011]可选地,所述频谱特征包括相位特征和幅值特征,所述提取所述目标音频信号的频谱特征的步骤,包括:对所述目标音频信号进行快速傅里叶变换得到变换后的音频信号频谱;提取所述音频信号频谱的所述幅值特征和所述相位特征,将所述幅值特征和相位特征作为频谱特征。
[0012]可选地,在所述获取待处理的语音音频信号的步骤之前,所述方法还包括:获取原始语音数据集,从所述原始语音数据集中读取语音数据,其中,所述语音数据至少包括纯净语音数据与噪声数据;以第一预设方式调整所述纯净语音数据得到调整后的纯净语音数据,其中,所述第一预设方式包括将所述纯净语音数据的语音音量进行最大归一化得到归一化后的纯净语音数据,并以第一预设固定因子调整所述归一化后的纯净语音数据的语音音量;以第二预设方式调整所述噪声数据得到调整后的噪声数据,其中,所述第二预设方式包括以第二预设固定因子调整所述噪声数据的语音音量;将所述纯净语音数据与所述噪声数据作为输入语料,将所述调整后的纯净语音数据作为所述纯净语音数据对应的第一输出语料,将所述调整后的噪声数据作为所述噪声数据对应的第二输出语料;依据所述输入语料、所述第一输出语料与所述二输出语料训练得到语音处理模型。
[0013]此外,为实现上述目的,本申请还提供一种语音处理装置,所述语音处理装置包括:获取模块,用于获取待处理的语音音频信号;
提取模块,用于将所述语音音频信号作为目标音频信号,提取所述目标音频信号的频谱特征;确定模块,用于确定所述目标音频信号对应的目标信号能量,将所述目标音频信号、所述频谱特征、所述目标信号能量作为特征参数;处理模块,用于将所述特征参数输入到预训练的语音处理模型中,以供所述语音处理模型输出处理后的语音音频信号。
[0014]此外,为实现上述目的,本申请还提供一种语音处理方法设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音处理方法程序,所述语音处理方法程序被所述处理器执行时实现如上述的语音处理方法的步骤。
[0015]此外,为实现上述目的,本申请还提供一种计算机可读存储介质,计算机可读存储介质上存储有语音处理方法程序,语音处理方法程序被处理器执行时实现如上述的语音处理方法的步骤。
[0016]本申请中语音处理软件获取到待处理的语音音频信号后,将语音音频信号作为目标音频信号,提取目标音频信号的频谱特征,将目标信号能量、目标音频信号与频谱特征作为特征参数输入到预训练的语音处理模型中,输出得到处理后的语音音频信号,完成对语音信号的处理。如此,相比于现有技术中通过判断一个时间周期内语音信号的平均信号能量的大小,动态调整增益因子的自动增益控制方法而言,本申请实施例不仅仅是基于语音信号的信号能量对语音信号进行处理,还考虑语音信号的频谱特征,基于语音信号的信号能量与频谱特征多方位处理语音信号,从而,有效地提高了语音信号的处理质量。
附图说明
[0017]本申请目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
[0018]图1是本申请实施例方案涉及的硬件运行环境的终端\装置结构示意图;图2为本申请语音处理方法第一实施例的流程示意图;图3为本申请语音处理方法的信号处理流程示意图;图4为本申请语音处理方法中原始输入PCM波形示意图;图5为本申请语音处理方法处理后的PCM波形示意图;图6为本申请语音处理方法输出本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种语音处理方法,其特征在于,所述语音处理方法包括以下步骤:获取待处理的语音音频信号;将所述语音音频信号作为目标音频信号,提取所述目标音频信号的频谱特征;确定所述目标音频信号对应的目标信号能量,将所述目标音频信号、所述频谱特征、所述目标信号能量作为特征参数;将所述特征参数输入到预训练的语音处理模型中,以供所述语音处理模型输出处理后的语音音频信号。2.如权利要求1所述的语音处理方法,其特征在于,所述确定所述目标音频信号对应的目标信号能量的步骤,包括:获取预设信号帧数的历史语音音频信号,确定每一帧所述历史语音音频信号的第一信号能量;确定所述目标音频信号的第二信号能量,将各所述第一信号能量与所述第二信号能量作为目标信号能量。3.如权利要求2所述的语音处理方法,其特征在于,所述目标音频信号包括多个采样点,所述将所述特征参数输入到预训练的语音处理模型中,以供所述语音处理模型输出处理后的语音音频信号的步骤,包括:将所述特征参数输入到预训练的语音处理模型中的输入层,以通过所述语音处理模型中的神经网络层基于所述特征参数得到所述目标音频信号中每一采样点对应的增益因子;通过所述语音处理模型将所述每一采样点对应的增益因子传递至所述语音处理模型中的输出层,以通过所述输出层根据各所述增益因子对所述目标音频信号进行调整得到调整后的目标音频信号,并将调整后的所述目标音频信号作为处理后的语音音频信号进行输出。4.如权利要求3所述的语音处理方法,其特征在于,所述通过所述输出层根据各所述增益因子对所述目标音频信号进行调整得到调整后的目标音频信号的步骤,包括:依次遍历所述目标音频信号中的每一采样点得到每一采样点各自对应的第一信号采样值和第一增益因子;以所述第一增益因子对所述第一信号采样值进行调整得到调整后的第一信号采样值,以调整后的第一信号采样值更新目标音频信号。5.如权利要求1所述的语音处理方法,其特征在于,所述将所述语音音频信号作为目标音频信号的步骤,包括:确定所述语音音频信号包括的信号帧数;若所述信号帧数包括一个,将所述语音音频信号作为目标音频信号;若所述信号帧数包括多个,依次遍历所述语音音频信号的每一帧信号,将遍历的所述语音音频信号的每一帧信号作为目标音频信号。6.如权利要求5所述的语音处理...
【专利技术属性】
技术研发人员:胡小辉,季海交,曾维雄,郭佛其,谌名林,张文举,杜晓舟,姜童,陈博,林松,李韦翰,
申请(专利权)人:深圳市东微智能科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。