本申请提出一种基于人工智能的语音降噪方法、装置和计算机设备,上述基于人工智能的语音降噪方法包括:接收待处理的带噪语音;对所述待处理的带噪语音进行预处理,获得预定格式的带噪语音;按照所述预定格式中的采样率对所述预定格式的带噪语音进行采样,获得带噪语音的采样点信息;通过深度学习降噪模型对所述带噪语音的采样点信息进行降噪,生成降噪后的采样点信息;根据所述降噪后的采样点信息,生成干净语音。本申请直接使用采样点信息作为深度学习降噪模型的输入输出,不需要在频谱上进行操作,同时不需要进行噪声估计等繁杂操作,实现简单,并且具有更好的自然度和音质,可以适用于各种噪声类型和环境中。
【技术实现步骤摘要】
基于人工智能的语音降噪方法、装置和计算机设备
本申请涉及语音处理
,尤其涉及一种基于人工智能的语音降噪方法、装置和计算机设备。
技术介绍
随着语音技术的发展,语音识别在日常生活中逐步普及。然而在日常使用的各种场景中,由于存在各种噪声和设备信号的干扰,语音质量和可懂度都会受到影响,并且会带来语音识别系统性能的急剧下降。现有相关技术中,对语音进行降噪的技术方案主要有:1、基于谱减的方法,把语音信号从时域转换到频域,再从频谱信号中去除噪声信号的影响;2、基于滤波器的方法,通过设计特殊的降噪滤波器,减弱噪声信号的影响。但是,上述方案存在如下的缺点:1、需要对带噪语音中的噪声进行估计,实现难度较大,效果不理想;2、现有技术在频谱上操作时容易引起语音信号的信息丢失及失真,影响语音的可懂度和自然度;3、不同的语音降噪技术只适用于特定的噪声环境和类型,技术推广性较差。
技术实现思路
本申请的目的旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请的第一个目的在于提出一种基于人工智能的语音降噪方法。该方法直接使用采样点信息作为深度学习降噪模型的输入输出,不需要在频谱上进行操作,同时不需要进行噪声估计等繁杂操作,实现简单,并且具有更好的自然度和音质,可以适用于各种噪声类型和环境中。本申请的第二个目的在于提出一种基于人工智能的语音降噪装置。本申请的第三个目的在于提出一种计算机设备。本申请的第四个目的在于提出一种包含计算机可执行指令的存储介质。为了实现上述目的,本申请第一方面实施例的基于人工智能的语音降噪方法,包括:接收待处理的带噪语音;对所述待处理的带噪语音进行预处理,获得预定格式的带噪语音;按照所述预定格式中的采样率对所述预定格式的带噪语音进行采样,获得带噪语音的采样点信息;通过深度学习降噪模型对所述带噪语音的采样点信息进行降噪,生成降噪后的采样点信息;根据所述降噪后的采样点信息,生成干净语音。本申请实施例的基于人工智能的语音降噪方法中,接收待处理的带噪语音之后,对上述待处理的带噪语音进行预处理,获得预定格式的带噪语音,然后按照上述预定格式中的采样率对上述预定格式的带噪语音进行采样,获得带噪语音的采样点信息,通过深度学习降噪模型对上述带噪语音的采样点信息进行降噪,生成降噪后的采样点信息,最后根据上述降噪后的采样点信息,生成干净语音,本方法采用的是直接使用采样点信息作为深度学习降噪模型的输入输出,不需要在频谱上进行操作,同时不需要进行噪声估计等繁杂操作,实现简单;并且不会带来“音乐”噪声等失真问题,具有更好的自然度和音质,带来更好的用户体验;另外,深度学习降噪模型通过对大量带噪语音和干净语音的学习,利用深度方法学习到从带噪语音生成干净语音的能力,适用于各种噪声类型和环境中,具有普遍适用性,便于推广。为了实现上述目的,本申请第二方面实施例的基于人工智能的语音降噪装置,包括:接收模块,用于接收待处理的带噪语音;预处理模块,用于对所述接收模块接收的待处理的带噪语音进行预处理,获得预定格式的带噪语音;采样模块,用于按照所述预定格式中的采样率对所述预处理模块获得的预定格式的带噪语音进行采样,获得带噪语音的采样点信息;降噪模块,用于通过深度学习降噪模型对所述采样模块获得的带噪语音的采样点信息进行降噪,生成降噪后的采样点信息;生成模块,用于根据所述降噪模块生成的降噪后的采样点信息,生成干净语音。本申请实施例的基于人工智能的语音降噪装置中,接收模块接收待处理的带噪语音之后,预处理模块对上述待处理的带噪语音进行预处理,获得预定格式的带噪语音,然后采样模块按照上述预定格式中的采样率对上述预定格式的带噪语音进行采样,获得带噪语音的采样点信息,降噪模块通过深度学习降噪模型对上述带噪语音的采样点信息进行降噪,生成降噪后的采样点信息,最后生成模块根据上述降噪后的采样点信息,生成干净语音,本装置采用的是直接使用采样点信息作为深度学习降噪模型的输入输出,不需要在频谱上进行操作,同时不需要进行噪声估计等繁杂操作,实现简单;并且不会带来“音乐”噪声等失真问题,具有更好的自然度和音质,带来更好的用户体验;另外,深度学习降噪模型通过对大量带噪语音和干净语音的学习,利用深度方法学习到从带噪语音生成干净语音的能力,适用于各种噪声类型和环境中,具有普遍适用性,便于推广。为了实现上述目的,本申请第三方面实施例的计算机设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;接收器,用于接收待处理的带噪语音;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的方法。为了实现上述目的,本申请第四方面实施例提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如上所述的方法。本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。附图说明本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为本申请基于人工智能的语音降噪方法一个实施例的流程图;图2为本申请基于人工智能的语音降噪方法另一个实施例的流程图;图3为本申请基于人工智能的语音降噪方法再一个实施例的流程图;图4为本申请基于人工智能的语音降噪装置一个实施例的结构示意图;图5为本申请基于人工智能的语音降噪装置另一个实施例的结构示意图;图6为本申请计算机设备一个实施例的结构示意图。具体实施方式下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。相反,本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。人工智能(ArtificialIntelligence;以下简称:AI),是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。图1为本申请基于人工智能的语音降噪方法一个实施例的流程图,如图1所示,上述基于人工智能的语音降噪方法可以包括:步骤101,接收待处理的带噪语音。步骤102,对上述待处理的带噪语音进行预处理,获得预定格式的带噪语音。其中,上述预定格式可以为采样率16000赫兹(即1秒时长的语音有16000个采样点),16位量化,单通道的脉冲编码调制(PulseCodeModulation;以下简称:PCM)格式。当然,本实施例对上述预定格式不作限定,可以在具体实现时,根据实现需求和/或系统性能等自行设定。步骤103,按照上述预定格式中的采样率对上述预定格式的带噪语音进行采样,获得带噪语音的采样点信息。本实施例中,将待处理的带噪语音处理为预定格式的带噪语音之后,可以按照上述预定格式中的采样率即16000赫兹,对上述预定格式的带噪语音进行采样,获得带噪语音的采样点信息。步骤104,通过深度学习降噪模型对上述带噪语音的采样点信息进行降本文档来自技高网...
【技术保护点】
一种基于人工智能的语音降噪方法,其特征在于,包括:接收待处理的带噪语音;对所述待处理的带噪语音进行预处理,获得预定格式的带噪语音;按照所述预定格式中的采样率对所述预定格式的带噪语音进行采样,获得带噪语音的采样点信息;通过深度学习降噪模型对所述带噪语音的采样点信息进行降噪,生成降噪后的采样点信息;根据所述降噪后的采样点信息,生成干净语音。
【技术特征摘要】
1.一种基于人工智能的语音降噪方法,其特征在于,包括:接收待处理的带噪语音;对所述待处理的带噪语音进行预处理,获得预定格式的带噪语音;按照所述预定格式中的采样率对所述预定格式的带噪语音进行采样,获得带噪语音的采样点信息;通过深度学习降噪模型对所述带噪语音的采样点信息进行降噪,生成降噪后的采样点信息;根据所述降噪后的采样点信息,生成干净语音。2.根据权利要求1所述的方法,其特征在于,所述通过深度学习降噪模型对所述带噪语音的采样点信息进行降噪,生成降噪后的采样点信息之前,还包括:训练获得所述深度学习降噪模型。3.根据权利要求2所述的方法,其特征在于,所述训练获得所述深度学习降噪模型包括:收集干净语音和所述干净语音对应的带噪语音;对所述干净语音和所述干净语音对应的带噪语音进行预处理,获得预定格式的干净语音和对应的预定格式的带噪语音;按照预定的长度对所述预定格式的干净语音和对应的预定格式的带噪语音进行切片;按照所述预定格式中的采样率对切片后的干净语音和对应的切片后的带噪语音分别进行采样,获得干净语音的采样点信息和对应的带噪语音的采样点信息;将所述带噪语音的采样点信息作为深度学习模型的输入,对应时刻的干净语音的采样点信息作为所述深度学习模型的输出,对所述深度学习模型进行训练,获得所述深度学习降噪模型。4.根据权利要求1-3任意一项所述的方法,其特征在于,所述预定格式为采样率16000赫兹,16位量化,单通道的脉冲编码调制格式。5.一种基于人工智能的语音降噪装置,其特征在于,包括:接收模块,用于接收待处理的带噪语音;预处理模块,用于对所述接收模块接收的待处理的带噪语音进行预处理,获得预定格式的带噪语音;采样模块,用于按照所述预定格式中的采样率对所述预处理模块获得的预定格式的带噪语音进行采样,获得带噪语音的采样点信息;降噪模块,用于通过深度学习降...
【专利技术属性】
技术研发人员:邹伟,李先刚,崔玮玮,胡静远,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。