可配置音频处理器的控制方法、系统、介质和计算装置制造方法及图纸

技术编号：41814365 阅读：21 留言：0更新日期：2024-06-24 20:31

一种可配置音频处理器的控制方法、系统、介质和计算装置，可配置音频处理器经由例如图2的麦克风220A‑220C和/或扬声器224A‑224B的多个换能器耦接到声学环境，该方法包括基于音频处理器的配置值来确定音频处理器的处理特性在声学环境中的三维空间变化，形成处理特性的三维空间变化的三维图像，以及提供用于呈现给用户的三维图像以控制配置值。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及通过使用用户界面对音频处理系统进行交互式控制，在用户界面中，表示音频处理特性的3d可交互视觉对象可以由用户呈现和操纵。

技术介绍

1、音频处理系统(也称为语音信号增强(speech signal enhancement,sse)系统)寻求控制和提高在各种声音环境中的音频输出质量。例如，配备有音频处理的汽车寻求减轻嘈杂声音分量，并增强由实际扬声器产生的信号分量的声音信号质量，该实际扬声器试图与话音助手系统或远程扬声器二者之一进行交互。

2、配置部署在声音环境中的越来越复杂的音频处理系统的问题是，各种处理特性(例如，噪声消除、声音灵敏度控制)以及控制它们的操作参数是难以察觉的，并且只能通过密切关注声音环境中声音行为的数据来推断。这使得配置和微调部署在声音环境中的音频系统的处理特性具有挑战性，导致配置过程粗糙且不直观。

技术实现思路

1、在一个方面，通常，音频处理系统包括音频处理器，该音频处理器可配置为修改声学环境中(例如，车厢的声学环境中)处理特性的空间变化(例如，改变空间性质)。这种空间变化是通过呈现由特性的空间变化确定的三维图像来向用户显示的，例如，经由虚拟现实或增强现实平台来呈现。在一些示例中，音频处理器是或被设计为经由多个换能器(例如经由麦克风阵列)耦接到声学环境，并且处理特性包括麦克风阵列的输入灵敏度的空间变化。在这种情况下，三维图像可以显示灵敏度的方向和/或程度(例如，通过束或漏斗的图形呈现)，这定义了具有声音环境的空间区域的边界，在声音环境中用户

2、本文描述的所提出的解决方案和方法采用增强现实可视化平台或在一些其他可视化平台上，包括虚拟现实平台和在二维显示表面设备(如平板电脑设备、汽车显示设备等)上呈现的3d可视化，以便于调整和配置音频处理系统(sse系统)参数。这些参数的调整和配置可以在初始配置时间(在修理厂或工厂处，在汽车的道路使用之前)期间或在汽车的常规使用期间，当汽车静止或运动时执行。在初始配置时间期间，sse工程师可以在设置更改后收听处理后信号。使用增强现实信息(或用于在其他可视化平台上呈现音频处理特性的信息)，除了收听处理后音频之外，还可以对信号和参数进行可视化，以促进系统的开发、测试和优化。在某些情况下，所提出的解决方案和方法有助于可视化声学场景的各个方面(例如，声源位于房间中的何处、这些声源是否在移动、这些声源是有规律地活动的还是偶发的等等)。因此，所提出的解决方案和方法可以提取关于声音环境的信息，然后将这些信息可视化为三维图像。

3、所提出的解决方案和方法的几个使用场景包括以下内容：

4、a)束成形-与其他“不可见束”进行视觉交互，以改变束的转向角，并可视化生成的束形图。

5、b)音频区域的可视化-目标区域的可视化，目标区域的语音能量将由语音处理空间捕获。例如，当驾驶员声音与其他声音隔离时，突出显示驾驶员区域(例如，通过乘客干扰消除实现)。

6、c)空间话音活动的可视化-可视化声源(例如，汽车中的扬声器)在其各自空间位置处的活动或能量。因此，本文描述的系统的可视化平台允许谁在说话以及何时说话的可视化。

7、d)声学场景分析-由音频处理系统提供的信息(如声源的数量、声源的位置、声源的当前活动和其他特征)的可视化。

8、所提出的框架实现了为音频处理器配置的操作参数与这些值的视觉表示之间的同构匹配。视觉表示在音频处理器的操作参数的配置值的人在环(human-in-the-loop)控制/调整过程中提供人可感知的版本。

9、因此，在一些变体中，提供了一种用于控制可配置音频处理器的方法，该可配置音频处理器经由多个换能器(如图2的麦克风220a-220c和/或扬声器224a-224b)耦接到声学环境。该方法包括基于音频处理器的配置值来确定音频处理器的处理特性在声学环境中的三维空间变化、形成处理特性的三维空间变化的三维图像，以及提供用于呈现给用户的三维图像以控制配置值。

10、该方法的实施例可以包括本专利技术中描述的至少一些特征，包括以下特征中的一个或更多个。

11、该方法还可以包括向用户呈现三维图像。

12、该方法还可以包括对响应于三维图像的呈现而接收的来自用户的输入进行处理，以确定音频处理器的更新后配置值。

13、该方法还可以包括基于响应于来自用户的输入而确定的处理特性的更新后三维空间变化来确定更新后三维图像，并向用户呈现更新后三维图像。

14、该方法还可以包括根据配置值操作音频处理器。

15、多个换能器可以包括麦克风阵列。

16、处理特性在声学环境中的三维空间变化可以包括输入声音灵敏度的空间变化。

17、三维图像可以表示输入声音灵敏度的灵敏度方向。

18、三维图像可以进一步表示输入声音灵敏度的空间范围。

19、处理特性在声学环境中的三维空间变化可以进一步包括由麦克风阵列捕获的音频输入水平的空间变化。

20、多个换能器可以包括多个扬声器，并且处理特性的声学环境中的三维空间变化可以包括输出增益的空间变化。

21、形成三维图像可以包括在可视化平台上形成三维图像，该可视化平台包括呈现设备，该呈现设备包括例如增强现实设备、虚拟现实设备和/或二维触摸屏设备中的一个或更多个。

22、控制音频处理器的处理特性的配置值可以包括捕获交互式用户输入，响应于处理特性的三维图像，以可控地改变音频处理器的处理特性，从而根据变化的处理特性实现音频处理器的目标行为，根据改变后处理特性来确定处理特性的调整后配置值以实现音频处理器的目标行为，并且根据所确定的处理特性的调整后配置值来配置由音频控制器控制的音频系统的参数。

23、捕获交互式用户输入可以包括捕获指示处理特性变化的用户手势。

24、在一些变体中，提供了一种音频处理系统，其包括可视化平台、多个换能器(例如图2的麦克风220a-220c或扬声器224a-224b)、至少控制多个换能器的可配置音频处理器、以及与可视化平台、多个换能器和音频处理器电通信的控制器。控制器被配置为基于音频处理器的配置值来确定声学环境中的处理特性的三维空间变化，形成处理特性的该三维空间变化的三维图像，并且提供在可视化平台上呈现给用本文档来自技高网...

【技术保护点】

1.一种用于控制可配置音频处理器(242)的方法，所述可配置音频处理器(242)经由多个换能器(220A-220C、224A-224B)耦接到声学环境(204)，所述方法包括：

2.根据权利要求1所述的方法，还包括将所述三维图像呈现给所述用户。

3.根据权利要求1或权利要求2所述的方法，还包括对响应于所述三维图像的呈现而接收的来自所述用户的输入进行处理，以确定所述音频处理器的更新后配置值。

4.根据权利要求3所述的方法，还包括基于响应于来自所述用户的输入而确定的所述处理特性的更新后三维空间变化来确定更新后三维图像，并将所述更新后三维图像呈现给所述用户。

5.根据权利要求1至4中任一项所述的方法，还包括根据所述配置值来操作所述音频处理器。

6.根据权利要求1至5中任一项所述的方法，其中，所述多个换能器包括麦克风阵列。

7.根据权利要求6所述的方法，其中，所述处理特性在所述声学环境中的三维空间变化包括输入声音灵敏度的空间变化。

8.根据权利要求7所述的方法，其中，所述三维图像表示输入声音灵敏度的灵敏度方向。

9.根据权利要求8所述的方法，其中，所述三维图像还表示所述输入声音灵敏度的空间范围。

10.根据权利要求6所述的方法，其中，所述处理特性在所述声学环境中的三维空间变化还包括由所述麦克风阵列捕获的音频输入的水平的空间变化。

11.根据权利要求1至5中任一项所述的方法，其中，所述多个换能器包括多个扬声器，并且其中，所述处理特性在所述声学环境中的三维空间变化包括输出增益的空间变化。

12.根据权利要求1至11中任一项所述的方法，其中，形成所述三维图像包括在可视化平台上形成所述三维图像，所述可视化平台包括呈现设备，所述呈现设备包括增强现实设备、虚拟现实设备或二维触摸屏设备中的一个或更多个。

13.根据权利要求1至12中任一项所述的方法，其中，控制所述音频处理器的处理特性的配置值包括：

14.根据权利要求13所述的方法，其中，捕获所述交互式用户输入包括：

15.一种音频处理系统，包括：

16.根据权利要求15所述的音频处理系统，其中，所述多个换能器包括麦克风阵列，其中，所述处理特性在所述声学环境中的三维空间变化包括输入声音灵敏度的空间变化，并且其中，所述三维图像表示所述输入声音灵敏度的灵敏度方向或所述输入声音灵敏度的空间范围中的一个或更多个。

17.根据权利要求15所述的音频处理系统，其中，所述多个换能器包括多个扬声器，并且其中，所述处理特性在所述声学环境中的三维空间变化包括输出增益的空间变化。

18.根据权利要求15至17中任一项所述的音频处理系统，其中，所述控制器还被配置为对响应于所述三维图像的呈现而接收的来自所述用户的输入进行处理，以确定所述音频处理器的更新后配置值。

19.根据权利要求18所述的音频处理系统，其中，所述控制器还被配置为基于响应于来自所述用户的输入而确定的所述处理特性的更新后三维空间变化来确定更新后三维图像，并使所述更新后三维图像被呈现。

20.一种非暂时性计算机可读介质，用于控制经由多个换能器(220A-220C、224A-224B)耦接到声学环境(204)的可配置音频处理器(243)，所述计算机可读介质存储能够在至少一个可编程设备上执行的指令集，以：

21.一种计算装置，包括：

22.一种非暂时性计算机可读介质，所述非暂时性计算机可读介质用能够在处理器上执行的计算机指令集编程，所述计算机指令集在被执行时执行包括权利要求1至14中任一项的方法步骤的操作。

...

【技术特征摘要】

1.一种用于控制可配置音频处理器(242)的方法，所述可配置音频处理器(242)经由多个换能器(220a-220c、224a-224b)耦接到声学环境(204)，所述方法包括：