【技术实现步骤摘要】
【国外来华专利技术】使用同步记录的音频噪声降低
技术介绍
包括蜂窝电话的各种便携式电子设备被配置成在各式各样的情况下以最小设置或预警来记录音频和/或视频。此类设备的普遍存在意味着记录由全范围的人类活动和事件组成,并且常常经由互联网共享。然而,这些便携式设备常常在能够生成的音频记录的质量方面受到限制。特别地,在蜂窝电话或类似设备上可用的麦克风常常在质量、频谱响应、噪声抑制、失真和/或其他因素方面受到限制。因此,使用此类设备做出的音频记录可能不令人满意,显示出失真和来自各种源(例如,来自记录设备的环境中的不需要的声音源)的噪声。虽然对此类音频记录进行滤波可以改进其质量,但是时常这样的单个音频记录本身包含不足的信息,而无法恢复所期望的音频信号的高质量表示。
技术实现思路
本公开的一个方面涉及一种方法,该方法包括:(i)从请求者设备接收目标音频信号,其中目标音频信号包括指示在第一时段期间采样的声音的信息,其中第一时段包括多个时间分段;(ii)获得源音频信号的集合,其中源音频信号中的每一个均包括指示在第一时段的至少一部分期间采样的声音的信息;(iii)对于目标音频信号的每个时间分段,基于音频信号的集合中的音频信号的时间上对应的分段来生成干净音频的相应的分段;(iv)使所生成的干净音频的分段平滑以生成平滑音频信号;(v)将目标音频信号与平滑音频信号组合以生成输出音频信号;以及(vi)将输出音频信号的指示传送到请求者设备。本公开的另一方面涉及一种具有存储在其上的程序指令的计算机可读介质(例如,包括这样的计算机可读介质——例如,包括非暂时性计算机 ...
【技术保护点】
1.一种方法,包括:/n从请求者设备接收目标音频信号,其中,所述目标音频信号包括指示在第一时段期间采样的声音的信息,其中,所述第一时段包括多个时间分段;/n获得源音频信号的集合,其中,所述源音频信号中的每一个包括指示在所述第一时段的至少一部分期间采样的声音的信息;/n针对所述目标音频信号的每个时间分段,基于所述源音频信号的集合中的音频信号的时间上对应的分段来生成干净音频的相应的分段;/n使所生成的干净音频的分段平滑以生成平滑音频信号;/n将所述目标音频信号与所述平滑音频信号组合以生成输出音频信号;以及/n将所述输出音频信号的指示传送到所述请求者设备。/n
【技术特征摘要】 【专利技术属性】
【国外来华专利技术】20180809 US 16/059,2931.一种方法,包括:
从请求者设备接收目标音频信号,其中,所述目标音频信号包括指示在第一时段期间采样的声音的信息,其中,所述第一时段包括多个时间分段;
获得源音频信号的集合,其中,所述源音频信号中的每一个包括指示在所述第一时段的至少一部分期间采样的声音的信息;
针对所述目标音频信号的每个时间分段,基于所述源音频信号的集合中的音频信号的时间上对应的分段来生成干净音频的相应的分段;
使所生成的干净音频的分段平滑以生成平滑音频信号;
将所述目标音频信号与所述平滑音频信号组合以生成输出音频信号;以及
将所述输出音频信号的指示传送到所述请求者设备。
2.根据权利要求1所述的方法,其中,获得源音频信号的集合包括:
从多个远程设备接收相应的另外的音频信号的集合;和
从所述另外的音频信号的集合中选择所述源音频信号的集合,其中,基于以下各项中的至少一个来从所述另外的音频信号的集合中选择特定的另外的音频信号:(i)由所述特定的另外的音频信号表示的另外的时段与所述第一时段之间的时间重叠的程度,(ii)与所述特定的音频信号相关联的位置和与所述目标音频信号相关联的位置之间的接近度,(iii)与所述特定的音频信号相关联的视频剪辑和与所述目标音频信号相关联的视频剪辑之间的相似性的程度,或(iv)所述特定的音频信号与所述目标音频信号之间的相似性的程度。
3.根据权利要求2所述的方法,其中,从所述另外的音频信号的集合中选择所述源音频信号的集合还包括:
针对所述另外的音频信号的集合中的每个音频信号,确定音频质量值;和
从所述另外的音频信号的集合中丢弃或减除具有小于指定阈值的音频质量值的另外的音频信号。
4.根据权利要求3所述的方法,其中,从所述另外的音频信号的集合中选择所述源音频信号的集合包括:选择源音频信号的集合以使得所述第一时段的所述多个时间分段中的每个时间分段由所选择的源音频信号的集合中的至少阈值数目的源音频信号来表示。
5.根据权利要求1所述的方法,进一步包括:
从包括所述目标音频信号和所述源音频信号的集合的集合中选择模板音频信号;和
确定在所述模板音频信号与包括所述目标音频信号和所述源音频信号的集合的所述集合中的每一个未选择的音频信号之间的时间偏移,其中,基于所述音频信号的集合中的给定音频信号的时间上对应的分段来生成干净音频的分段包括:基于所确定的在所述模板音频信号与所述给定音频信号之间的所述时间偏移来选择所述给定音频信号的所述时间上对应的分段。
6.根据权利要求5所述的方法,其中,选择所述模板音频信号包括:
针对包括所述目标音频信号和所述源音频信号的集合的所述集合中的每个音频信号,确定峰度值,其中,针对特定音频信号确定峰度值包括:
识别所述特定音频信号内的最大幅度时间点;
确定所述特定音频信号在所述最大幅度时间点处的幅度;
确定所述特定音频信号在包括所述最大幅度时间点的指定持续时段内的中值;以及
确定所确定的幅度和所确定的中值之间的比值。
7.根据权利要求1所述的方法,其中,所述多个时间分段包括第一多个非重叠时间分段和第二多个非重叠时间分段,其中,所述第一多个时间分段中的时间分段在时间上与所述第二多个时间分段中的时间分段重叠,其中,使所生成的干净音频的分段平滑以生成平滑音频信号包括:生成所述平滑音频信号的多个样本值,并且其中,生成所述平滑音频信号的特定样本值包括:生成所述第一多个时间分段中的时间分段的样本值与所述第二多个时间分段中的时间分段的样本值的线性组合。
8.根据权利要求1所述的方法,其中,将所述目标音频信号与所述平滑音频信号组合以生成输出音频信号包括:生成所述平滑音频信号与所述目标音频信号的线性组合,并且其中,所述目标音频信号与所生成的线性组合之间的相似性大于阈值相似性值。
9.根据权利要求1所述的方法,其中,基于所述音频信号的集合中的所述音频信号的对应的分段来生成干净音频的分段包括:
使用长短期记忆循环神经网络,针对所述音频信号的集合中的所述音频信号中的每一个确定混合系数;以及
根据所确定的混合系数来生成所述音频信号的集合中的所述音频信号的线性组合。
10.根据权利要求1所述的方法,其中,基于所述音频信号的集合中的所述音频信号的对应的分段来生成干净音频的分段包括:
针对所述音频信号的集合中的所述音频信号中的每一个,确定混合系数,其中,所确定的混合系数不超过阈值;和
根据所确定的混合系数,生成所述音频信号的集合中的所述音频信号的线性组合。
11.一种具有存储在其上的程序指令的非暂时性计算机可读介质,所述程序指令在由计算设备执行时,使所述计算设备执行操作,所述操作包括:
技术研发人员:亚伊尔·莫夫肖维茨阿蒂亚斯,艾尔德·埃德温·茨维·埃班,
申请(专利权)人:谷歌有限责任公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。