使用同步记录的音频噪声降低制造技术

技术编号:27695719 阅读:16 留言:0更新日期:2021-03-17 05:19
由于便携式记录设备的局限性,由蜂窝电话或其他便携式记录设备记录的音频(例如,作为演奏或其他事件的视频记录的一部分记录的音频)通常具有低质量。在同一时段期间并且在同一位置附近进行的多个音频记录可以被组合以生成事件的改进质量的音频记录。音频记录可由选择音频记录并执行组合的服务器访问。为了保护使用其音频的人的隐私,多于最小数目的记录可以被组合和/或任何记录的不多于阈值量可以被使用来生成组合记录。此外,提供的‘干净’记录可能包括请求此类‘干净’记录的用户或设备提供的音频的多于阈值量。

【技术实现步骤摘要】
【国外来华专利技术】使用同步记录的音频噪声降低
技术介绍
包括蜂窝电话的各种便携式电子设备被配置成在各式各样的情况下以最小设置或预警来记录音频和/或视频。此类设备的普遍存在意味着记录由全范围的人类活动和事件组成,并且常常经由互联网共享。然而,这些便携式设备常常在能够生成的音频记录的质量方面受到限制。特别地,在蜂窝电话或类似设备上可用的麦克风常常在质量、频谱响应、噪声抑制、失真和/或其他因素方面受到限制。因此,使用此类设备做出的音频记录可能不令人满意,显示出失真和来自各种源(例如,来自记录设备的环境中的不需要的声音源)的噪声。虽然对此类音频记录进行滤波可以改进其质量,但是时常这样的单个音频记录本身包含不足的信息,而无法恢复所期望的音频信号的高质量表示。
技术实现思路
本公开的一个方面涉及一种方法,该方法包括:(i)从请求者设备接收目标音频信号,其中目标音频信号包括指示在第一时段期间采样的声音的信息,其中第一时段包括多个时间分段;(ii)获得源音频信号的集合,其中源音频信号中的每一个均包括指示在第一时段的至少一部分期间采样的声音的信息;(iii)对于目标音频信号的每个时间分段,基于音频信号的集合中的音频信号的时间上对应的分段来生成干净音频的相应的分段;(iv)使所生成的干净音频的分段平滑以生成平滑音频信号;(v)将目标音频信号与平滑音频信号组合以生成输出音频信号;以及(vi)将输出音频信号的指示传送到请求者设备。本公开的另一方面涉及一种具有存储在其上的程序指令的计算机可读介质(例如,包括这样的计算机可读介质——例如,包括非暂时性计算机可读介质——的制品),该程序指令在由计算设备执行时,使计算设备执行包括下述的操作:(i)从请求者设备接收目标音频信号,其中目标音频信号包括指示在第一时段期间采样的声音的信息,其中第一时段包括多个时间分段;(ii)获得源音频信号的集合,其中源音频信号中的每一个均包括指示在第一时段的至少一部分期间采样的声音的信息;(iii)对于目标音频信号的每个时间分段,基于音频信号的集合中的音频信号的时间上对应的分段来生成干净音频的相应的分段;(v)使所生成的干净音频的分段平滑以生成平滑音频信号;(vi)将目标音频信号与平滑音频信号组合以生成输出音频信号;以及(vii)将输出音频信号的指示传送到请求者设备。本公开的又一方面涉及一种方法,该方法包括:(i)获得目标音频信号,该目标音频信号包括指示在第一时段期间采样的声音的信息,其中第一时段包括多个时间分段;(ii)获得源音频信号的集合,其中源音频信号中的每一个均包括表示在第一时段的至少一部分期间采样的声音的信息;(iii)对于目标音频信号的每个时间分段,基于音频信号的集合中的音频信号的时间上对应的分段来生成干净音频的相应的分段;(v)使所生成的干净音频的分段平滑以生成平滑音频信号;以及(vi)将目标音频信号与平滑音频信号组合以生成输出音频信号。本公开的又一个方面涉及一种减少音频数据的噪声的方法,该方法包括:(i)获得目标音频信号,该目标音频信号包括指示在第一位置中在第一时段期间采用的声音的信息,其中第一时段包括多个时间分段;(ii)搜索数据存储以识别一个或多个源音频数据项,每个源音频数据项包括表示在第一时段的至少一部分期间以及在第一位置的阈值距离内采样的声音的信息;(iii)对于目标音频信号的每个时间分段,通过组合目标音频数据与源音频数据的一个或者多个时间上对应的分段来生成干净音频数据的相应的分段;以及(iv)组合干净音频数据的分段以生成输出音频数据。通过适当地参考附图阅读以下具体实施方式,这些以及其他方面,优点和替代方案对于本领域普通技术人员将变得显而易见。此外,应当理解,在本
技术实现思路
部分和本文其他地方提供的描述旨在通过示例而非限制的方式说明所要求保护的主题。附图说明图1描绘包含多个设备的示例环境。图2描绘根据示例实施例的多个音频信号的定时。图3描绘根据示例实施例的多个音频信号的定时以及用于组合音频信号的时间依赖系数。图4是示出示例系统的一些组件的简化框图。图5是根据示例实施例的方法的流程图。具体实施方式本文描述了方法和系统的示例。应当理解,词语“示例性”、“示例”和“说明性”在本文中用来表示“用作示例、实例或说明”。本文中被描述为“示例性”、“示例”或“说明性”的任何实施例或特征不必被解释为比其他实施例或特征优选或有利。此外,本文描述的示例性实施例并不意味着是限制性的。容易理解的是,所公开的系统和方法的某些方面可以以多种不同的配置来布置和组合。I.概述蜂窝电话和类似设备的普遍存在已使得能够将各式各样的事件(例如,音乐会或其他表演、烟火表演、公开演讲、家庭聚会)捕获到视频。遗憾的是,在蜂窝电话或类似设备上可用的麦克风常常在质量、频谱响应、噪声抑制、失真和/或其他因素方面受到限制,因此可以产生事件的不令人满意的音频记录。然而,可以通过组合在相同时间并在相同位置附近生成的、由相应不同的蜂窝电话或其他设备生成的多个记录来产生改进的音频记录。以这种方式,能通过将可用信息汇合在次优质量记录的合集中来克服单个设备的缺点。能收集并组合此类多个记录,并且在出席事件的设备当中以对等方式传播所得改进的音频记录(例如,经由自组织网络)。附加地或替换地,云计算服务(例如,云视频存储和共享服务)能接收多个不同的记录并组合它们以生成改进的音频记录。为了以这种方式组合多个音频记录,可以从候选记录池中选择记录。能基于与感兴趣事件/时段的时间重叠的程度、基于与音频记录相关联的GPS或其他位置信息、基于音频记录彼此的相似性、基于与音频记录相关联的用户生成的标签或其他用户生成的元数据、基于与音频记录相关联的视频记录(或其内容)之间的相似性、或者基于音频记录和/或其内容之间的相似性的某些其他指示标(indicia)来选择音频记录。一旦被选择,音频记录就可以被以各种方式组合,例如,作为选择的音频记录的加权线性组合。能例如使用人工神经网络或其他机器学习算法来确定这样的加权线性组合中的权重。能以各种方式保护其音频记录用于生成事件的这种改进的音频记录的个人的隐私。除非用户已同意了这样使用(例如,以便访问由此生成的改进的音频记录),否则可能限制此类音频记录这样使用。能使用不少于最少数目的音频记录(例如,以便减少任何一个记录对所得改进的音频记录的贡献)来生成改进的音频记录和/或能使音频记录的加权线性组合中的任何一个记录的权重维持在最大值以下(例如,以便确保任何一个记录对所得改进的音频记录的贡献小于阈值量)。以这种方式,保护了存在于一些而非全部记录中的信息(例如,附近谈话的内容)的隐私。附加地或替换地,提供给特定用户的改进的音频记录能包括不少于用户自己的音频记录的阈值量(例如,提供给特定用户的改进的记录可能是用户自己的原始记录和从多个其他用户的记录生成的纯净记录的线性组合,其中用户的原始记录表示超过线性组合的最小量)。以这种方式,没有用户能够探知可能存在于其他用户的记录中的私人信息(例如,附近谈话的内容)。应本文档来自技高网
...

【技术保护点】
1.一种方法,包括:/n从请求者设备接收目标音频信号,其中,所述目标音频信号包括指示在第一时段期间采样的声音的信息,其中,所述第一时段包括多个时间分段;/n获得源音频信号的集合,其中,所述源音频信号中的每一个包括指示在所述第一时段的至少一部分期间采样的声音的信息;/n针对所述目标音频信号的每个时间分段,基于所述源音频信号的集合中的音频信号的时间上对应的分段来生成干净音频的相应的分段;/n使所生成的干净音频的分段平滑以生成平滑音频信号;/n将所述目标音频信号与所述平滑音频信号组合以生成输出音频信号;以及/n将所述输出音频信号的指示传送到所述请求者设备。/n

【技术特征摘要】
【国外来华专利技术】20180809 US 16/059,2931.一种方法,包括:
从请求者设备接收目标音频信号,其中,所述目标音频信号包括指示在第一时段期间采样的声音的信息,其中,所述第一时段包括多个时间分段;
获得源音频信号的集合,其中,所述源音频信号中的每一个包括指示在所述第一时段的至少一部分期间采样的声音的信息;
针对所述目标音频信号的每个时间分段,基于所述源音频信号的集合中的音频信号的时间上对应的分段来生成干净音频的相应的分段;
使所生成的干净音频的分段平滑以生成平滑音频信号;
将所述目标音频信号与所述平滑音频信号组合以生成输出音频信号;以及
将所述输出音频信号的指示传送到所述请求者设备。


2.根据权利要求1所述的方法,其中,获得源音频信号的集合包括:
从多个远程设备接收相应的另外的音频信号的集合;和
从所述另外的音频信号的集合中选择所述源音频信号的集合,其中,基于以下各项中的至少一个来从所述另外的音频信号的集合中选择特定的另外的音频信号:(i)由所述特定的另外的音频信号表示的另外的时段与所述第一时段之间的时间重叠的程度,(ii)与所述特定的音频信号相关联的位置和与所述目标音频信号相关联的位置之间的接近度,(iii)与所述特定的音频信号相关联的视频剪辑和与所述目标音频信号相关联的视频剪辑之间的相似性的程度,或(iv)所述特定的音频信号与所述目标音频信号之间的相似性的程度。


3.根据权利要求2所述的方法,其中,从所述另外的音频信号的集合中选择所述源音频信号的集合还包括:
针对所述另外的音频信号的集合中的每个音频信号,确定音频质量值;和
从所述另外的音频信号的集合中丢弃或减除具有小于指定阈值的音频质量值的另外的音频信号。


4.根据权利要求3所述的方法,其中,从所述另外的音频信号的集合中选择所述源音频信号的集合包括:选择源音频信号的集合以使得所述第一时段的所述多个时间分段中的每个时间分段由所选择的源音频信号的集合中的至少阈值数目的源音频信号来表示。


5.根据权利要求1所述的方法,进一步包括:
从包括所述目标音频信号和所述源音频信号的集合的集合中选择模板音频信号;和
确定在所述模板音频信号与包括所述目标音频信号和所述源音频信号的集合的所述集合中的每一个未选择的音频信号之间的时间偏移,其中,基于所述音频信号的集合中的给定音频信号的时间上对应的分段来生成干净音频的分段包括:基于所确定的在所述模板音频信号与所述给定音频信号之间的所述时间偏移来选择所述给定音频信号的所述时间上对应的分段。


6.根据权利要求5所述的方法,其中,选择所述模板音频信号包括:
针对包括所述目标音频信号和所述源音频信号的集合的所述集合中的每个音频信号,确定峰度值,其中,针对特定音频信号确定峰度值包括:
识别所述特定音频信号内的最大幅度时间点;
确定所述特定音频信号在所述最大幅度时间点处的幅度;
确定所述特定音频信号在包括所述最大幅度时间点的指定持续时段内的中值;以及
确定所确定的幅度和所确定的中值之间的比值。


7.根据权利要求1所述的方法,其中,所述多个时间分段包括第一多个非重叠时间分段和第二多个非重叠时间分段,其中,所述第一多个时间分段中的时间分段在时间上与所述第二多个时间分段中的时间分段重叠,其中,使所生成的干净音频的分段平滑以生成平滑音频信号包括:生成所述平滑音频信号的多个样本值,并且其中,生成所述平滑音频信号的特定样本值包括:生成所述第一多个时间分段中的时间分段的样本值与所述第二多个时间分段中的时间分段的样本值的线性组合。


8.根据权利要求1所述的方法,其中,将所述目标音频信号与所述平滑音频信号组合以生成输出音频信号包括:生成所述平滑音频信号与所述目标音频信号的线性组合,并且其中,所述目标音频信号与所生成的线性组合之间的相似性大于阈值相似性值。


9.根据权利要求1所述的方法,其中,基于所述音频信号的集合中的所述音频信号的对应的分段来生成干净音频的分段包括:
使用长短期记忆循环神经网络,针对所述音频信号的集合中的所述音频信号中的每一个确定混合系数;以及
根据所确定的混合系数来生成所述音频信号的集合中的所述音频信号的线性组合。


10.根据权利要求1所述的方法,其中,基于所述音频信号的集合中的所述音频信号的对应的分段来生成干净音频的分段包括:
针对所述音频信号的集合中的所述音频信号中的每一个,确定混合系数,其中,所确定的混合系数不超过阈值;和
根据所确定的混合系数,生成所述音频信号的集合中的所述音频信号的线性组合。


11.一种具有存储在其上的程序指令的非暂时性计算机可读介质,所述程序指令在由计算设备执行时,使所述计算设备执行操作,所述操作包括:

【专利技术属性】
技术研发人员:亚伊尔·莫夫肖维茨阿蒂亚斯艾尔德·埃德温·茨维·埃班
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1