使用深度信息净化声音的方法和系统以及计算机可读介质技术方案

技术编号：27821115 阅读：20 留言：0更新日期：2021-03-30 10:40

在一实施例中，方法包括：接收多个第一图像，多个所述第一图像至少包括发出声音的人的与嘴相关的部分，且每一所述第一图像均具有深度信息；获取噪声谱，所述噪声谱包括人的声音的第一表示；使用所述第一图像提取多个视觉特征，多个所述视觉特征中的一个通过使用多个所述第一图像中的第二图像的深度信息获得；使用所述噪声谱提取多个音频特征；使用所述视觉特征和所述音频特征确定第一谱；从所述噪声谱中减去所述第一谱，以获得人的声音的净化表示；以及驱使与输入/输出相关的输出设备使用人的声音的净化表示输出响应。声音的净化表示输出响应。声音的净化表示输出响应。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】使用深度信息净化声音的方法和系统以及计算机可读介质

[0001]本申请涉及语音增强领域，特别涉及一种使用深度信息净化声音的方法和系统以及计算机可读介质。

技术介绍

[0002]声音净化(voice purification)是一种语音增强或语音去噪技术，其旨在将噪声音频中的特定人的声音与背景噪声以及和该人处于同一环境中的其他人的声音分开。伴随噪声音频的人的视觉信息可用于声音净化。声音净化可提高人和/或机器的语音的质量和/或清晰度。

技术实现思路

[0003]本申请的目的在于提出一种使用深度信息净化声音的方法和系统以及计算机可读介质。
[0004]在本申请的第一方面，方法包括：
[0005]至少一个处理器接收多个第一图像，多个所述第一图像至少包括发出声音的人的与嘴相关的部分，且每一所述第一图像均具有深度信息；
[0006]所述至少一个处理器获取噪声谱，所述噪声谱包括人的声音的第一表示；
[0007]所述至少一个处理器使用所述第一图像提取多个视觉特征，其中，多个所述视觉特征中的一个使用多个所述第一图像中的第二图像的深度信息获得；
[0008]所述至少一个处理器使用所述噪声谱提取多个音频特征；
[0009]所述至少一个处理器使用所述视觉特征和所述音频特征确定第一谱；
[0010]所述至少一个处理器从所述噪声谱中减去所述第一谱，以获得人的声音的净化表示；以及
[0011]通过与输入/输出(I/O)相关的输出设备使用人的声音的净化表示输出响应。r/>[0012]根据本申请第一方面的实施例，多个所述视觉特征中的一个使用多个所述第一图像中的所述第二图像的深度信息中的人的舌头的深度信息来获得。
[0013]根据本申请第一方面的实施例，所述方法还包括：
[0014]在人发出声音时，通过摄像头产生红外光，所述红外光照亮与嘴相关的部分；以及
[0015]通过所述摄像头捕捉所述第一图像。
[0016]根据本申请第一方面的实施例，所述至少一个处理器接收多个所述第一图像的步骤包括：接收多个图像集，其中每一所述图像集包括所述第一图像中的对应的第三图像以及对应的第四图像，所述对应的第四图像具有颜色信息，且所述第四图像的颜色信息用于增强所述对应的第三图像的深度信息；以及所述至少一个处理器提取所述视觉特征的步骤包括：使用多个所述图像集提取所述视觉特征，且多个所述视觉特征中的一个使用多个所述图像集中的第一图像集的深度信息和颜色信息来获得。
[0017]根据本申请第一方面的实施例，所述视觉特征中的一个通过使用多个所述第一图
像中的多个第五图像的深度信息来获得。
[0018]根据本申请第一方面的实施例，所述至少一个处理器确定所述第一谱的步骤包括：使用所述视觉特征和所述音频特征之间的关联确定第二表示。
[0019]根据本申请第一方面的实施例，所述第二表示为所述第一谱；以及确定所述第二表示的步骤通过循环神经网络(recurrent neural network，RNN)执行。
[0020]根据本申请第一方面的实施例，第二表示为视听表示；确定所述第二表示的步骤通过RNN执行；以及所述至少一个处理器确定所述第一谱的步骤还包括：通过全连接网络使用所述第二表示确定所述第一谱。
[0021]在本申请的第二方面，系统包括：至少一个存储器，至少一个处理器，以及输入/输出(I/O)相关的输出设备。所述至少一个存储器用于存储程序指令。所述至少一个处理器用于执行所述程序指令，且所述程序指令使所述至少一个处理器执行步骤：
[0022]接收多个第一图像，多个所述第一图像至少包括发出声音的人的与嘴相关的部分，且每一所述第一图像均具有深度信息；
[0023]获取噪声谱，所述噪声谱包括人的声音的第一表示；
[0024]使用所述第一图像提取多个视觉特征，其中，多个所述视觉特征中的一个通过使用多个所述第一图像中的第二图像的深度信息获得；
[0025]使用所述噪声谱提取多个音频特征；
[0026]使用所述视觉特征和所述音频特征确定第一谱；以及
[0027]从所述噪声谱中减去所述第一谱，以获得人的声音的净化表示。
[0028]所述输入/输出(I/O)相关的输出设备用于使用人的声音的净化表示输出响应。
[0029]根据本申请第二方面的实施例，多个所述视觉特征中的一个通过使用多个所述第一图像的所述第二图像的深度信息中的人的舌头的深度信息来获得。
[0030]根据本申请第二方面的实施例，所述系统还包括摄像头，所述摄像头用于：在人发出声音时产生红外光，所述红外光照亮与嘴相关的部分；以及捕捉所述第一图像。
[0031]根据本申请第二方面的实施例，所述接收多个所述第一图像的步骤包括：接收多个图像集，其中每一所述图像集包括所述第一图像中的对应的第三图像以及对应的第四图像，所述对应的第四图像具有颜色信息，且所述第四图像的颜色信息用于增强所述对应的第三图像的深度信息；以及所述提取所述视觉特征的步骤包括：使用多个所述图像集提取所述视觉特征，且多个所述视觉特征中的一个使用多个所述图像集中的第一图像集的深度信息和颜色信息来获得。
[0032]根据本申请第二方面的实施例，所述视觉特征中的一个通过使用多个所述第一图像中的多个第五图像的深度信息来获得。
[0033]根据本申请第二方面的实施例，所述确定所述第一谱的步骤包括：使用所述视觉特征和所述音频特征之间的关联确定第二表示。
[0034]根据本申请第二方面的实施例，所述第二表示为所述第一谱；以及确定所述第二表示的步骤通过RNN执行。
[0035]根据本申请第二方面的实施例，第二表示为视听表示；确定所述第二表示的步骤通过RNN执行；以及所述确定所述第一谱的步骤还包括：通过全连接网络使用所述第二表示确定所述第一谱。
[0036]在本申请的第三方面，提供了一种非暂时性计算机可读介质，其上存储有程序指令，所述程序指令在由至少一个处理器执行时使所述至少一个处理器执行步骤：
[0037]接收多个第一图像，多个所述第一图像至少包括发出声音的人的与嘴相关的部分，且每一所述第一图像均具有深度信息；
[0038]获取噪声谱，所述噪声谱包括人的声音的第一表示；
[0039]使用所述第一图像提取多个视觉特征，其中，多个所述视觉特征中的一个通过使用多个所述第一图像中的第二图像的深度信息获得；
[0040]使用所述噪声谱提取多个音频特征；
[0041]使用所述视觉特征和所述音频特征确定第一谱；
[0042]从所述噪声谱中减去所述第一谱，以获得人的声音的净化表示；以及
[0043]驱使与输入/输出(I/O)相关的输出设备使用人的声音的净化表示输出响应。
[0044]根据本申请第三方面的实施例，多个所述视觉特征中的一个通过使用多个所述第一图像中的所述第二图像的深度信息中的人的舌头的深度信息来获得。<本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法，其特征在于，包括：至少一个处理器接收多个第一图像，多个所述第一图像至少包括发出声音的人的与嘴相关的部分，且每一所述第一图像均具有深度信息；所述至少一个处理器获取噪声谱，所述噪声谱包括人的声音的第一表示；所述至少一个处理器使用所述第一图像提取多个视觉特征，其中，多个所述视觉特征中的一个使用多个所述第一图像中的第二图像的深度信息获得；所述至少一个处理器使用所述噪声谱提取多个音频特征；所述至少一个处理器使用所述视觉特征和所述音频特征确定第一谱；所述至少一个处理器从所述噪声谱中减去所述第一谱，以获得人的声音的净化表示；以及通过与输入/输出(I/O)相关的输出设备使用人的声音的净化表示输出响应。2.根据权利要求1所述的方法，其特征在于，多个所述视觉特征中的一个使用多个所述第一图像中的所述第二图像的深度信息中的人的舌头的深度信息来获得。3.根据权利要求1所述的方法，其特征在于，还包括：在人发出声音时，通过摄像头产生红外光，所述红外光照亮与嘴相关的部分；以及通过所述摄像头捕捉所述第一图像。4.根据权利要求1所述的方法，其特征在于，所述至少一个处理器接收多个所述第一图像的步骤包括：接收多个图像集，其中每一所述图像集包括所述第一图像中的对应的第三图像以及对应的第四图像，所述对应的第四图像具有颜色信息，且所述第四图像的颜色信息用于增强所述对应的第三图像的深度信息；以及所述至少一个处理器提取所述视觉特征的步骤包括：使用多个所述图像集提取所述视觉特征，且多个所述视觉特征中的一个使用多个所述图像集中的第一图像集的深度信息和颜色信息来获得。5.根据权利要求1所述的方法，其特征在于，所述视觉特征中的一个通过使用多个所述第一图像中的多个第五图像的深度信息来获得。6.根据权利要求1所述的方法，其特征在于，所述至少一个处理器确定所述第一谱的步骤包括：使用所述视觉特征和所述音频特征之间的关联确定第二表示。7.根据权利要求6所述的方法，其特征在于，所述第二表示为所述第一谱；以及确定所述第二表示的步骤通过循环神经网络(recurrent neural network，RNN)执行。8.根据权利要求6所述的方法，其特征在于，第二表示为视听表示；确定所述第二表示的步骤通过RNN执行；以及所述至少一个处理器确定所述第一谱的步骤还包括：通过全连接网络使用所述第二表示确定所述第一谱。9.一种系统，包括：至少一个存储器，用于存储程序指令；
至少一个处理器，用于执行所述程序指令，且所述程序指令使所述至少一个处理器执行步骤：接收多个第一图像，多个所述第一图像至少包括发出声音的人的与嘴相关的部分，且每一所述第一图像均具有深度信息；获取噪声谱，所述噪声谱包括人的声音的第一表示；使用所述第一图像提取多个视觉特征，其中，多个所述视觉特征中的一个通过使用多个所述第一图像中的第二图像的深度信息获得；使用所述噪声谱提取多个音频特征；使用所述视觉特征和所述音频特征确定第一谱；以及从所述噪声谱中减去所述第一谱，以获得人的声音的净化表示；以及输入/输出(I/O)相关的输出设备，用于使用人的声音的净化表示输出响应。10.根据权利要求9所述的系统，其...

【专利技术属性】
技术研发人员：林袁，萧人豪，何朝文，
申请(专利权)人：OPPO广东移动通信有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人