一种骨导语音编码模型的训练方法、装置及存储介质制造方法及图纸

技术编号:37118893 阅读:23 留言:0更新日期:2023-04-01 05:13
本申请公开了一种骨导语音编码模型的训练方法、装置及存储介质,属于音频编解码技术领域。该方法主要包括:获取同一音频的气导语音数据和骨导语音数据,并利用气导语音数据和骨导语音数据分别提取气导语音特征和骨导语音特征;利用第一网络模型处理骨导语音特征,得到骨导语音数据的假气导特征;利用第二网络模型对同一时间节点的气导语音特征和假气导特征进行对比判断;在气导语音特征和假气导特征之间的差异小于预定阈值的条件下,冻结第一网络模型的模型参数,并利用第一网络模型进行骨导语音编码。本申请在进行骨导语音的编码时能够在增强音质的条件下,同时节省算力和存储需求。需求。需求。

【技术实现步骤摘要】
一种骨导语音编码模型的训练方法、装置及存储介质


[0001]本申请涉及音频编解码
,特别涉及一种骨导语音编码模型的训练方法、装置及存储介质。

技术介绍

[0002]传统的麦克风采集语音都是经过空气传导从而收集到语音数据,这种方式容易受到背景噪声干扰。骨导麦克风是利用人体骨头振动形成的电信号来进行语音采集的设备,利用骨导麦克风采集语音可有效避免背景噪声干扰,因此得到广泛应用。骨导麦克风在蓝牙领域也有很多应用场景,例如骨导麦克风的蓝牙耳机。
[0003]目前在蓝牙耳机上使用骨导麦克风存在以下问题:首先,骨导麦克风采集的语音存在高频部分缺失、中频部分厚重的现象,这会使语音的清晰度和明亮度不够,导致用户体验感较低。其次,在利用LC3编解码器进行骨导语音编码时,因为LC3编解码器中存在用于检测输入语音的真实带宽并根据真实带宽调节编码策略,从而避免频谱泄露的带宽检测模块,因此,在采集得到的语音数据是骨导语音时无法使用LC3编解码器对其进行编码。这是因为LC3中的带宽检测模块所能检测到的最小带宽为4kHz,而骨导麦克风采集的骨导语音的真实带宽通常在2kHz以下。
[0004]为了在蓝牙设备中使用LC3对骨导语音进行编码,现有技术采用的方法是先对骨导语音进行增强,然后再对其编码,然而这种方法,通过独立处理语音的增强步骤与编码步骤,增加了系统的复杂度以及算法延迟,从而导致计算量大、需求存储空间大和语音延迟的问题。

技术实现思路

[0005]针对现有技术存在的骨导麦克风的蓝牙耳机音质差、计算量大和延迟的问题,本申请主要提供一种骨导语音编码模型的训练方法、装置及存储介质。
[0006]为了实现上述目的,本申请采用的一个技术方案是:提供一种骨导语音编码模型的训练方法,其包括:获取同一音频的气导语音数据和骨导语音数据,并利用气导语音数据和骨导语音数据分别提取气导语音特征和骨导语音特征;利用第一网络模型处理骨导语音特征,得到骨导语音数据的假气导特征;利用第二网络模型对同一时间节点的气导语音特征和假气导特征进行对比判断;在气导语音特征和假气导特征之间的差异小于预定阈值的条件下,冻结第一网络模型的模型参数,并利用第一网络模型进行骨导语音编码;在气导语音特征和假气导特征之间的差异不小于预定阈值的条件下,重新设置第一网络模型的模型参数,并重新进行假气导特征的提取和对比判断处理。
[0007]可选的,利用编码过程中的低延迟改进型离散余弦变换、重采样和长期后置滤波器分别对骨导语音数据和气导语音数据进行处理,提取得到气导语音特征和骨导语音特征。
[0008]可选的,利用蓝牙编码器的低延迟改进型离散余弦变换模块对骨导语音数据进行
处理,得到骨导语音数据的骨导谱系数特征,并利用蓝牙编码器的重采样模块和长期后置滤波器模块对骨导语音数据进行处理,得到骨导语音数据的骨导滤波特征,将骨导谱系数特征和骨导滤波特征作为骨导语音特征。
[0009]可选的,根据气导语音数据和骨导语音数据的时间节点,将气导语音数据和骨导语音数据进行对齐,得到同一时间节点的气导语音特征和骨导语音特征。
[0010]可选的,利用自编码器或者神经网络模型处理骨导语音特征,得到骨导语音数据的假气导特征。
[0011]可选的,利用深度神经网络模型对同一时间节点的气导语音特征和假气导特征进行对比判断。
[0012]可选的,当蓝牙编码器接收到新的骨导语音数据后,利用低延迟改进型离散余弦变换、重采样和长期后置滤波器对新的骨导语音数据进行处理,得到新的骨导语音数据对应的骨导特征;利用冻结参数的第一网络模型对骨导特征进行处理得到增强骨导特征;对增强骨导特征执行除带宽检测外的其它编码步骤。
[0013]本申请采用的另一个技术方案是:提供一种骨导语音编码模型的训练装置,其包括:特征获取模块,用于获取同一音频的气导语音数据和骨导语音数据,并利用气导语音数据和骨导语音数据分别提取气导语音特征和骨导语音特征;假气导特征获取模块,用于利用第一网络模型处理骨导语音特征,得到骨导语音数据的假气导特征;判断模块,用于利用第二网络模型对同一时间节点的气导语音特征和假气导特征进行对比判断;在气导语音特征和假气导特征之间的差异小于预定阈值的条件下,冻结第一网络模型的模型参数,并利用第一网络模型进行骨导语音编码;在气导语音特征和假气导特征之间的差异不小于预定阈值的条件下,重新设置第一网络模型的模型参数,并重新进行假气导特征的提取和对比判断处理。
[0014]可选的,用于当蓝牙编码器接收到新的骨导语音数据后,利用低延迟改进型离散余弦变换、重采样和长期后置滤波器对新的骨导语音数据进行处理,得到新的骨导语音数据对应的骨导特征;利用冻结参数的第一网络模型对骨导特征进行处理得到增强骨导特征;对增强骨导特征执行除带宽检测外的其它编码步骤的模块。
[0015]本申请采用的另一个技术方案是:提供一种计算机可读存储介质,其存储有计算机指令,该计算机指令被操作以执行方案一中的骨导语音编码模型的训练方法。
[0016]本申请的技术方案可以达到的有益效果是:在进行骨导语音编码时,在增强音质的条件下,减少计算量和对存储空间的要求,同时减少语音的延迟现象,提高用户体验。
附图说明
[0017]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作以简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0018]图1是本申请一种骨导语音编码模型的训练方法的一个具体实施方式的示意图;
[0019]图2是本申请一种骨导语音编码模型的训练方法的利用LC3进行骨导语音编码流程的示意图;
[0020]图3是本申请一种骨导语音编码模型的训练方法的生成网络处理过程的具体实施方式的示意图;
[0021]图4是本申请一种骨导语音编码模型的训练方法的对抗网络训练过程的具体实施方式的示意图;
[0022]图5是本申请一种骨导语音编码模型的训练方法的基于深度学习的骨导特征增强模块的具体实施方式的示意图;
[0023]图6是本申请一种骨导语音编码模型的训练装置的一个具体实施方式的示意图。
[0024]通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
[0025]下面结合附图对本申请的较佳实施例进行详细阐述,以使本申请的优点和特征能更易于被本领域技术人员理解,从而对本申请的保护范围做出更为清楚明确的界定。
[0026]需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种骨导语音编码模型的训练方法,其特征在于,包括:获取同一音频的气导语音数据和骨导语音数据,并利用所述气导语音数据和所述骨导语音数据分别提取气导语音特征和骨导语音特征;利用第一网络模型处理所述骨导语音特征,得到所述骨导语音数据的假气导特征;利用第二网络模型对同一时间节点的所述气导语音特征和所述假气导特征进行对比判断;在所述气导语音特征和所述假气导特征之间的差异小于预定阈值条件下,冻结所述第一网络模型的模型参数,并利用所述第一网络模型进行骨导语音编码;在所述气导语音特征和所述假气导特征之间的差异不小于预定阈值的条件下,重新设置所述第一网络模型的模型参数,并重新进行假气导特征的提取和对比判断处理。2.根据权利要求1所述的骨导语音编码模型的训练方法,其特征在于,所述利用所述气导语音数据和所述骨导语音数据分别提取气导语音特征和骨导语音特征,包括:利用编码过程中的低延迟改进型离散余弦变换、重采样和长期后置滤波器分别对所述骨导语音数据和所述气导语音数据进行处理,提取得到所述气导语音特征和所述骨导语音特征。3.根据权利要求2所述的骨导语音编码模型的训练方法,其特征在于,所述利用编码过程中的低延迟改进型离散余弦变换、重采样和长期后置滤波器分别对所述骨导语音数据和所述气导语音数据进行处理,提取得到所述气导语音特征和所述骨导语音特征,包括:利用蓝牙编码器的低延迟改进型离散余弦变换模块对所述骨导语音数据进行处理,得到所述骨导语音数据的骨导谱系数特征,并利用蓝牙编码器的重采样模块和长期后置滤波器模块对所述骨导语音数据进行处理,得到所述骨导语音数据的骨导滤波特征,将所述骨导谱系数特征和所述骨导滤波特征作为所述骨导语音特征。4.根据权利要求1所述的骨导语音编码模型的训练方法,其特征在于,所述利用第二网络模型对同一时间节点的所述气导语音特征和所述假气导特征进行对比判断,包括:根据所述气导语音数据和所述骨导语音数据的时间节点,将所述气导语音数据和所述骨导语音数据进行对齐,得到同一时间节点的所述气导语音特征和所述骨导语音特征。5.根据权利要求1所述的骨导语音编码模型的训练方法,其特征在于,所述利用第一网络模型处理所述骨导语音特征,得到所述骨导语音数据的假气导特征,包括:利用自编码器或者神经网络模型处理所述骨...

【专利技术属性】
技术研发人员:李强吴啸威王尧叶东翔朱勇
申请(专利权)人:北京百瑞互联技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1