一种信号处理方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:25759370 阅读:20 留言:0更新日期:2020-09-25 21:07
本发明专利技术实施例提供一种信号处理方法、装置、设备及计算机可读存储介质。其中方法可包括:采集待处理的音频信号,并提取待处理的音频信号的频谱特征,该频谱特征包括N维对数能量频谱特征;调用噪声优化模型对对数能量频谱特征进行处理,得到N维对数能量频谱特征对应的M维噪声修正系数,N和M为正整数;对N维对数能量频谱特征和M维噪声修正系数进行计算,得到处理后的音频信号。本申请实施例通过噪声优化模型来生成噪声修正系数,并通过噪声修正系数来降低或消除待处理的音频信号中的噪声,从而提高通信质量。

【技术实现步骤摘要】
一种信号处理方法、装置、设备及计算机可读存储介质
本专利技术涉及计算机
,具体涉及一种信号处理方法、装置、设备及计算机可读存储介质。
技术介绍
随着通信技术的不断发展,人们对信号质量的要求不断提高,特别是在一些诸如利用计算机网络、移动通信网络召开网络会议的场景下,既希望会议的通话信号清晰可辨,又能够最大限度地减少一些随着参会人员的语音一并输入的非必要的信号。在一个场景中,该非必要信号主要是指噪声信号,该噪声信号可以是一些不需要的回声音频信号。在多方远程会议的场景中,会出现多端参会人员同时说话的情况,此时,本地的语音通信设备不仅要播放其他地区参会人员的语音,还要收集本地的参会人员的本地语音,由于会议室环境等因素的影响,语音通信设备收集到的本地语音中会存在一部分特殊的噪声信号,比如会议室反射的关于所述语音通信设备所播放语音的回声。这些回声信号会给诸如交互的会议语音信号带来不利影响,比如这些回声可能在语音会议中带来“滋啦”等杂音,降低了语音交互的质量。
技术实现思路
本专利技术实施例提供一种信号处理方法、装置、设备及计算机可读存储介质,可提高语音交互的质量。一方面,本申请实施例提供了一种信号处理方法,该方法包括:采集待处理的音频信号,并提取所述待处理的音频信号的频谱特征,所述频谱特征包括N维对数能量频谱特征;调用噪声优化模型对所述对数能量频谱特征进行处理,得到所述N维对数能量频谱特征对应的M维噪声修正系数,N和M为正整数;对所述N维对数能量频谱特征和所述M维噪声修正系数进行计算,得到处理后的音频信号;其中,所述噪声优化模型是根据包括噪声音频信号的音频训练数据训练得到的,所述噪声优化模型输出的M维噪声修正系数中包括:用于对输入的对数能量频谱特征中关于噪声音频信号的特征进行修正的p维系数,p小于M。另一方面,本申请提供了一种信号处理装置,该处理装置包括:获取单元,用于采集待处理的音频信号,并提取所述待处理的音频信号的频谱特征,所述频谱特征包括N维对数能量频谱特征;处理单元,用于调用噪声优化模型对所述对数能量频谱特征进行处理,得到所述N维对数能量频谱特征对应的M维噪声修正系数,N和M为正整数;对所述N维对数能量频谱特征和所述M维噪声修正系数进行计算,得到处理后的音频信号;其中,所述噪声优化模型是根据包括噪声音频信号的音频训练数据训练得到的,所述噪声优化模型输出的M维噪声修正系数中包括:用于对输入的对数能量频谱特征中关于噪声音频信号的特征进行修正的p维系数,p小于M。相应地,本申请实施例还提供了一种信号处理设备,包括处理器、存储器和通信接口,所述处理器、所述存储器和所述通信接口相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述的信号处理方法。相应地,本申请提供了一种计算机可读存储介质,计算机可读存储介质存储有一条或多条指令,一条或多条指令适于由处理器加载并执行上述的信号处理方法。相应地,本申请提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的信号处理方法。本申请实施例中,对采集到的诸如音视频会议、音视频通话等情况下产生的待处理的音频信号,可以从对数能量频谱特征出发,通过预先训练优化好的噪声优化模型产生的针对该待处理的音频信号的噪声修正系数,可较为有效地对采集到的待处理的音频信号进行优化修正,降低甚至消除该待处理的音频信号中关于回声等噪声音频信号对采集到的音频信号的不利影响,从而提高语音交互的质量。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1a为本专利技术实施例提供的一种信号处理的场景架构图;图1b为本申请实施例提供的一种信号处理流程图;图2为本申请实施例提供的一种信号处理方法的流程图;图3为本申请实施例提供的一种从时域音频信号中提取频域频谱特征的流程图;图4a为本申请实施例提供的一种模型训练方法的流程图;图4b为本申请实施例提供的另一种模型训练方法的流程图;图5为本申请实施例提供的一种噪声优化模型的训练的简要示意图;图6为本申请实施例提供的另一种信号处理方法的流程图;图7为本申请实施例提供的一种会议会话界面图;图8为本申请实施例提供的一种信号处理装置的结构示意图;图9为本申请实施例提供的一种智能设备的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。本申请实施例涉及人工智能(ArtificialIntelligence,AI)及机器学习(MachineLearning,ML),通过将AI和ML相结合能够挖掘和分析音频信号中的特征,使得设备能够更加精确的对音频信号进行识别处理,从中确定出关于诸如回声等噪声信号的频谱特征,以便于减轻甚至消除这部分噪声信号对原音频信号的不利影响。其中,AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。AI技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大应用程序的处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向,本申请实施例主要涉及其中的语言处理技术。ML是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。ML是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。ML和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。基于传统机器学习的统计估计回声消除算法可以用来对待处理的音频信号进行分析处理,此类算法例如可以包括基于自适应滤波(AdaptiveFilter)的回声消除算法。对于这些传统统计学习消除算法,可以根据输入和输出信号的统计特性本文档来自技高网...

【技术保护点】
1.一种信号处理方法,其特征在于,所述方法包括:/n采集待处理的音频信号,并提取所述待处理的音频信号的频谱特征,所述频谱特征包括N维对数能量频谱特征;/n调用噪声优化模型对所述N维对数能量频谱特征进行处理,得到所述N维对数能量频谱特征对应的M维噪声修正系数,N和M为正整数;/n对所述N维对数能量频谱特征和所述M维噪声修正系数进行计算,得到处理后的音频信号;/n其中,所述噪声优化模型是根据包括噪声音频信号的音频训练数据训练得到的,所述噪声优化模型输出的M维噪声修正系数中包括:用于对输入的N维对数能量频谱特征中关于噪声音频信号的特征进行修正的p维系数,p小于M。/n

【技术特征摘要】
1.一种信号处理方法,其特征在于,所述方法包括:
采集待处理的音频信号,并提取所述待处理的音频信号的频谱特征,所述频谱特征包括N维对数能量频谱特征;
调用噪声优化模型对所述N维对数能量频谱特征进行处理,得到所述N维对数能量频谱特征对应的M维噪声修正系数,N和M为正整数;
对所述N维对数能量频谱特征和所述M维噪声修正系数进行计算,得到处理后的音频信号;
其中,所述噪声优化模型是根据包括噪声音频信号的音频训练数据训练得到的,所述噪声优化模型输出的M维噪声修正系数中包括:用于对输入的N维对数能量频谱特征中关于噪声音频信号的特征进行修正的p维系数,p小于M。


2.如权利要求1所述的方法,其特征在于,所述方法还包括:
在播放有音频信号的目标环境中采集噪声音频信号;
获取人声音频信号;
将获取到的人声音频信号和噪声音频信号在时域上叠加,得到混合音频信号,根据所述混合音频信号生成音频训练数据;
其中,所述音频训练数据包括X段混合音频信号,第i段混合音频信号包括人声音频信号与噪声音频信号,其中,i,X为正整数,且i小于或等于X。


3.如权利要求1所述的方法,其特征在于,所述方法还包括:
在播放有音频信号的多个目标环境中进行音频录制操作,得到多段噪声音频信息,每段噪声音频信息包括噪声音频信号和录制设备信息;
根据所述多段噪声音频信息生成各录制设备信息所对应的音频训练数据;
其中,所述音频训练数据包括Y段噪声音频信号,其中Y为正整数。


4.如权利要求2所述的方法,其特征在于,
所述噪声优化模型是将基于第一干净对数频谱特征、与第二干净对数频谱特征的均方误差构建的损失函数来对初始模型进行优化后得到的;
所述第一干净对数频谱特征是根据所述音频训练数据中的混合音频信号、和通过所述初始模型对所述音频训练数据中的混合音频信号进行处理后输出的训练噪声修正系数相乘后得到的,所述第二干净频谱特征是根据所述人声音频信号得到的。


5.如权利要求4所述的方法,其特征在于,
构建的所述初始模型输出的训练噪声修正系数用于体现第二干净对数频谱特征所对应的人声音频信号的对数频谱能量、与混合音频信号所对应的对数频谱能量的比值;
其中,所述混合音频信号所对应的对数频谱能量为:混合音频信号中噪声音频的对数频谱能量、与混合音频信号中人声音频信号的对数频谱能量之和。


6.如权利要求1所述的方法,其特征在于,所述待处理的音频信号是在检测到进入会议会话界面时采集到的,所述处理后的音频信号是指所述N维对数能量频谱特征和所述M维噪...

【专利技术属性】
技术研发人员:夏咸军
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1