基于图像编码器的头相关传递函数个性化方法技术

技术编号：41595983 阅读：7 留言：0更新日期：2024-06-07 00:06

本发明专利技术公开了基于图像编码器的头相关传递函数（HRTF）个性化方法，以耳朵图像代替耳廓参数作为输入的一部分，用图像编码器对耳部图像进行编码和表征学习，另一方面，通过分析人体生理参数对个性化HRTF的影响，选取最优参数作为个性化模型输入的另一部分，将这两部分输入与HRTF建立非线性映射关系模型，将该模型生成的HRTF与实际测量的HRTF在幅度部分和相位部分分别作损失值计算，将计算的损失值反馈给模型并通过微调得到鲁棒的个性化HRTF预测模型。该方法生成的个性化HRTF能够直接与Ambisonic信号卷积，形成面向用户的个性化空间音频，能够满足广大用户对个性化HRTF的现实需求，在个性化空间音频与交互式虚拟声学场景中具有重要的应用价值。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及头相关传递函数(head related transfer functions，hrtf)个性化领域，具体是一种基于图像编码器，对用户耳朵图像进行编码并对hrtf的幅度和相位进行预测，生成与用户相匹配的个性化hrtf的方法。

技术介绍

1、当我们谈论虚拟世界时，总是想到3d视觉，忽略3d声音，作为人们感知世界的一种重要途径，听觉能够在极大程度上提高虚拟世界的沉浸感。随着人工智能的快速发展，空间音频逐渐进入人们的视野，空间中的声音通过人的躯干、头部和耳廓等生理结构的反射、散射和衍射后到达人的耳朵里，形成了双耳信号，这一传播过程我们可以将其看作一个滤波器，称为头相关传递函数(head related transfer functions，hrtf)，它包含了人体不同生理结构对声波的影响，由于每个人的人体外形不一致，hrtf是极具个性化的。然而，为每个个体测量与其相匹配的hrtf是一项耗时耗力的工程。

2、目前已有一些获取个性化hrtf的方法，如数值模拟法、线性回归分析、神经网络预测法等。

3、数值模拟法是从声音传播的物理过程出发，通过使用三维激光扫描仪或核磁共振成像设备等仪器获取个体的三维人体模型，然后在计算机中模拟声音在人体表面反射、衍射后到达耳道入口的声压，完成对hrtf的仿真测量，然而三维成像设备较为昂贵，限制了该方法在商业领域中的应用。

4、线性回归方法通过建立人体生理参数与hrtf之间的线性关系，然后根据个体的耳廓、头部和躯干参数，用建模得到的关系计算出个体的hrtf，但是

5、另一种方法是使用主成分分析(pca)的方法来表示低维hrtf，利用神经网络模型建立hrtf低维特征与人体生理参数之间的非线性映射关系，但仍离不开需要测量新个体的耳廓、头部和躯干的生理参数的问题，且目前此类方法普遍仅考虑hrtf的幅度部分，作为双耳定位线索之一的双耳时间差(itd)包含在hrtf的相位信息中，由于缺少hrtf的相位信息，因此无法直接将其与ambisonic信号卷积生成空间音频。

技术实现思路

1、针对人体生理参数测量成本较高，且生成的个性化hrtf缺少相位部分导致hrtf无法直接使用的问题，本专利技术提出了一种基于图像编码器的带有相位预测的hrtf个性化方法，该方法以个体的耳朵图像和部分人体生理参数作为输入，能够有效减小人体生理参数的测量时间，同时对hrtf的幅度和相位进行预测，生成的个性化hrtf转换为时域hrir可直接与时域信号卷积，从而生成个性化的空间音频，能够满足广大用户对个性化hrtf的现实需求。

2、本专利技术基于图像编码器的头相关传递函数个性化方法，包括如下步骤：

3、(1)建立基于图像编码器的头相关传递函数个性化模型：

4、使用图像编码器对用户的耳朵图像进行特征编码，并与头部和躯干参数一同作为头相关传递函数个性化模型的输入，对这两部分输入进行特征提取，提取出用户的生理特征，然后建立用户的生理特征与头相关传递函数之间的非线性映射关系模型；

5、(2)对头相关传递函数的幅度和相位进行预测：

6、对头相关传递函数进行个性化时，将预测的头相关传递函数的幅度和相位、与实际测量的头相关传递函数的幅度和相位分别作损失值计算，将计算的损失值反馈给模型并通过微调得到个性化头相关传递函数预测模型。

7、该模型是能够预测完整的hrtf的鲁棒的个性化模型，有效减小了个性化时人体生理参数的测量成本，且预测出的hrtf能够直接用于各种虚拟声学产品中，从而实现hrtf端到端的个性化。

8、进一步地，步骤(1)所述建立基于图像编码器的头相关传递函数个性化模型，该模型包括两个主要部分，编码器和解码器，编码器的作用是把高维输入x编码成低维的隐变量h，从而使神经网络学习最有信息量的特征；解码器的作用是把隐藏层的隐变量h还原到初始维度，最好的情况就是解码器的输出能够完美地或近似恢复成原来的输入，即

9、从输入层到隐藏层的原始输入数据x的编码过程为：h＝f(x)＝σ(w1x+b1)；

10、从隐藏层到输出层的解码过程为：

11、其中w1、b1为编码的权重和偏置，w2、b2为解码的权重和偏置，σ为节点激活函数，自编码器通过线性映射和非线性映射激活节点激活函数σ，完成对样本的编码和解码；

12、自编码器的目的是输出无限接近于原始输入数据x，使其在对数据进行分析时能够寻找数据中最显著的特征，通过设置一个损失函数，然后最小化损失函数使隐藏层学习数据中最重要的信息；

13、损失函数表示为：

14、式中，f为编码器的编码函数，将原始输入数据x编码成隐变量h，g表示解码器的解码函数，将隐变量h解码为

15、自编码器的目的是使输出与输入尽量相同，这完全可以通过学习两个恒等函数来完成，但这样的变换没有任何意义，因为我们真正关心的是隐藏层的特征表达，一个好的表达能够捕获输入耳朵图像的稳健特征。

16、进一步，步骤(2)所述对头相关传递函数hrtf的幅度和相位进行预测，在对hrtf进行个性化时，同时对hrtf的幅度和相位进行预测，将预测的频域下的头相关传递函数通过逆傅里叶变换转换为时域形式的头相关传递函数

17、

18、式中，ejωt为傅里叶变换的基函数，ω为头相关传递函数的频率，dω表示对频率进行微分，逆傅里叶变换就是把在每个频率在t时刻上的分量叠加起来，叠加的结果就是在t时刻的值，最终得到时域形式下的头相关传递函数并将其与实际测量的时域头相关传递函数htd进行均方误差的比较，作为第一个损失函数：

19、

20、式中，n表示训练时每一个批次中头相关传递函数的样本数量，再将预测的头相关传递函数的幅度与实际的头相关传递函数的幅度值hamp进行均方误差的比较，作为第二个损失函数：

21、

22、这两个损失函数同时对hrtf个性化模型进行反馈调节，使得模型预测出的hrtf能够具有较个性化的幅度和相位。

23、本专利技术针对耳廓参数测量困难，导致hrtf个性化难以普及的问题，提出了基于图像编码器的hrtf个性化方法，实现根据用户耳朵图像进行特征编码的hrtf个性化定制。耳朵图像编码的方法体现在图像编码器把耳朵图像数据本身作为监督，把高维图像编码成低维的隐变量，学习图像中最具信息量的特征，作为下一步hrtf个性化的输入。该hrtf个性化方法体现在个性化模型不仅预测hrtf的幅度，还预测hrtf的相位，使得预测的hrtf能够直接用于各种虚拟声学产品终端，实现个性化的重放。

本文档来自技高网...

【技术保护点】

1.基于图像编码器的头相关传递函数个性化方法，其特征在于，所述方法包括如下步骤：

2.根据权利要求1所述的基于图像编码器的头相关传递函数个性化方法，其特征在于：步骤(1)所述建立基于图像编码器的头相关传递函数个性化模型，该模型包括两个主要部分，编码器和解码器，编码器的作用是把高维输入X编码成低维的隐变量h，从而使神经网络学习最有信息量的特征；

3.根据权利要求2所述的基于图像编码器的头相关传递函数个性化方法，其特征在于：步骤(2)所述对头相关传递函数的幅度和相位进行预测，在对头相关传递函数进行个性化时，同时对头相关传递函数的幅度和相位进行预测，将预测的频域下的头相关传递函数通过逆傅里叶变换转换为时域形式的头相关传递函数

【技术特征摘要】

1.基于图像编码器的头相关传递函数个性化方法，其特征在于，所述方法包括如下步骤：

2.根据权利要求1所述的基于图像编码器的头相关传递函数个性化方法，其特征在于：步骤(1)所述建立基于图像编码器的头相关传递函数个性化模型，该模型包括两个主要部分，编码器和解码器，编码器的作用是把高维输入x编码成低维的隐变量h，从而使...

【专利技术属性】
技术研发人员：宋浠瑜，焦顺，仇洪冰，王师琦，王攀宇，田腾，覃庆生，
申请(专利权)人：桂林电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人