场景声学风格提取器训练方法、装置、电子设备和计算机可读存储介质制造方法及图纸

技术编号:34360052 阅读:16 留言:0更新日期:2022-07-31 07:20
本发明专利技术的实施例提供了一种场景声学风格提取器训练方法、装置、电子设备和计算机可读存储介质,涉及数据处理技术领域,方法包括:获得家居场景在嘈杂声学环境下的声学特征,将家居场景在嘈杂声学环境下的声学特征输入场景声学风格提取器,获得家居场景对应的训练风格嵌入信息。从而实现对家居场景对应的场景声学风格的可靠获取。风格的可靠获取。风格的可靠获取。

Training method, device, electronic device and computer readable storage medium of scene acoustic style extractor

【技术实现步骤摘要】
场景声学风格提取器训练方法、装置、电子设备和计算机可读存储介质


[0001]本专利技术涉及数据处理
,具体而言,涉及一种场景声学风格提取器训练方法、装置、电子设备和计算机可读存储介质。

技术介绍

[0002]在日常生活中,各种各样的噪声充斥在家居场景中,人们往往需要在嘈杂环境下进行交流。法国耳鼻喉科医生爱蒂安
·
伦巴德于1909年经研究发现,在有噪声环境下进行交流的时候,说话人不得不主动改变发声方式,提高声音的效果,希望使对方能听清。经研究发现,即使同一个人发相同的语音,在不同环境下的语音特征也有所不同,改变的特征包括提高声音的音高、音调、响度及共振峰特征等。这种现象称为Lombard effect(伦巴德效应)。随着智能家居的兴起,如何提高人机交互顺畅度,达到更好地为人类服务的目的,成为本领域所关注的问题。
[0003]目前,家居场景中的电子设备如智能设备可以感知声学环境状态的变化,对用户的问题进行内容合理的回答。例如,智能设备在监测到用户发出指示信息“开启微波炉”的情况下,控制微波炉开启并语音播报“微波炉已开启”,完成对指示信息的响应。但是,经研究发现,智能设备语音播报的内容很多时候无法被用户准确接收,如在嘈杂环境下所播报的语音被环境声淹没,使得用户无法清晰地接收到所播报的语音,影响了智能家居场景中的人机交互顺畅度,无法满足实际应用需求。

技术实现思路

[0004]基于上述问题,专利技术人分析得出,用户准确接收到合理内容如上述“微波炉已开启”的语音播报的前提是:智能设备能够在不同的声学环境下,改变发声方式,主动提高合成语音的清晰度与自然度。然而,现有的研究中没有充分考虑智能设备合成语音时,如何像人类在Lombard effect下,主动改变发声方式,从而提高语音清晰度,让用户接收准确的信息,导致智能设备反馈的语音播报可能无法被用户接收到。有鉴于此,专利技术人提出在嘈杂家居场景中“模仿人类”,在Lombard effect下主动改变发声方式,提高语音播报的清晰度、自然度(即:发出为Lombard speech(伦巴德语音))的重要因素之一是如何获取家居场景对应的声学风格。
[0005]本专利技术的目的之一包括,例如,提供了一种场景声学风格提取器训练方法、装置、电子设备和计算机可读存储介质,以实现对家居场景对应的声学风格的可靠获取。
[0006]本专利技术的实施例可以这样实现:
[0007]第一方面,本专利技术实施例提供一种场景声学风格提取器训练方法,包括:
[0008]获得家居场景在嘈杂声学环境下的声学特征;
[0009]将所述家居场景在所述嘈杂声学环境下的声学特征输入场景声学风格提取器,获得所述家居场景对应的训练风格嵌入信息;其中,所述训练风格嵌入信息表征与所述家居
场景对应的场景声学风格。
[0010]基于家居场景在嘈杂声学环境下的声学特征训练得到场景声学风格提取器,从而能够可靠获取各家居场景对应的场景风格嵌入信息,智能设备进而可以根据场景风格嵌入信息适应性地改变发声方式,按照与家居场景对应的场景声学风格进行发声,确保按照相应发声方式播报的语音能够被用户准确接收到。
[0011]第二方面,本专利技术实施例提供一种场景声学风格提取器训练装置,包括:
[0012]嘈杂环境声学特征获得模块,用于获得家居场景在嘈杂声学环境下的声学特征;
[0013]场景声学风格提取器训练模块,用于将所述家居场景在所述嘈杂声学环境下的声学特征输入场景声学风格提取器,获得所述家居场景对应的训练风格嵌入信息;其中,所述训练风格嵌入信息表征与所述家居场景对应的场景声学风格。
[0014]基于家居场景在嘈杂声学环境下的声学特征训练得到场景声学风格提取器,从而能够可靠获取各家居场景对应的场景风格嵌入信息,智能设备进而可以根据场景风格嵌入信息适应性地改变发声方式,按照与家居场景对应的场景声学风格进行发声,确保按照相应发声方式播报的语音能够被用户准确接收到。
[0015]第三方面,本专利技术实施例提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现前述实施方式任一项所述的场景声学风格提取器训练方法。相应地,该电子设备包括场景声学风格提取器训练方法中的有益效果。
[0016]第四方面,本专利技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质包括计算机程序,所述计算机程序运行时控制所述计算机可读存储介质所在电子设备执行前述实施方式任一项所述的场景声学风格提取器训练方法。相应地,该计算机可读存储介质包括场景声学风格提取器训练方法中的有益效果。
[0017]为使本专利技术实施例的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
[0018]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0019]图1示出了本专利技术实施例提供的一种应用场景示意图。
[0020]图2示出了本专利技术实施例提供的一种场景声学风格提取器训练方法的流程示意图。
[0021]图3示出了本专利技术实施例提供的一种场景声学风格提取器的训练架构示意图。
[0022]图4示出了本专利技术实施例提供的一种场景声学风格提取器训练方法的另一流程示意图。
[0023]图5示出了本专利技术实施例提供的一种场景声学风格提取器的另一训练架构示意图。
[0024]图6示出了本专利技术实施例提供的一种场景声学风格提取器训练方法的另一流程示
意图。
[0025]图7示出了本专利技术实施例提供的一种场景声学风格提取器的又一训练架构示意图。
[0026]图8示出了本专利技术实施例提供的一种场景声学风格提取器训练方法的又一流程示意图。
[0027]图9示出了本专利技术实施例提供的一种参考编码器的示意图之一。
[0028]图10示出了本专利技术实施例提供的一种参考编码器的示意图之二。
[0029]图11示出了本专利技术实施例提供的一种参考编码器的示意图之三。
[0030]图12示出了本专利技术实施例提供的一种场景声学风格提取器的又一训练架构示意图。
[0031]图13示出了本专利技术实施例提供的一种第一场景分类模型训练方法的流程示意图。
[0032]图14示出了本专利技术实施例提供的一种第一场景分类模型训练方法的另一流程示意图。
[0033]图15示出了本专利技术实施例提供的一种声学特征预测模型训练方法的流程示意图。
[0034]图16示出了本专利技术实施例提供的一种声学特征预测模型的训练架构示意图。
[0035]图17示出了本专利技术实施例提供的一种语音合成方法的流程示意图。
[0036]图18示出了本专利技术本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种场景声学风格提取器训练方法,其特征在于,包括:获得家居场景在嘈杂声学环境下的声学特征;将所述家居场景在所述嘈杂声学环境下的声学特征输入场景声学风格提取器,获得所述家居场景对应的训练风格嵌入信息;其中,所述训练风格嵌入信息表征与所述家居场景对应的场景声学风格。2.根据权利要求1所述的场景声学风格提取器训练方法,其特征在于,还包括:获得所述家居场景的环境声学特征;将所述家居场景的所述环境声学特征输入第一场景分类模型,获得所述家居场景对应的场景类型信息;将所述场景类型信息输入所述场景声学风格提取器进行融合。3.根据权利要求2所述的场景声学风格提取器训练方法,其特征在于,当所述第一场景分类模型为VGG16网络时,所述场景类型信息为作为所述VGG16网络输出的Softmax概率值对应的第一场景类型权重。4.根据权利要求3所述的场景声学风格提取器训练方法,其特征在于,所述场景声学风格提取器包括:参考编码器、第一注意力模块和全连接层;所述将所述家居场景在所述嘈杂声学环境下的声学特征输入场景声学风格提取器,获得所述家居场景对应的训练风格嵌入信息的步骤,包括:将所述家居场景在嘈杂声学环境下的声学特征输入所述参考编码器,获得参考嵌入信息;将所述参考嵌入信息输入所述第一注意力模块,获得注意力权重;所述将所述场景类型信息输入所述场景声学风格提取器进行融合的步骤,包括:将所述注意力权重与所述第一场景类型权重输入所述全连接层进行加权,以获得所述训练风格嵌入信息。5.根据权利要求2所述的场景声学风格提取器训练方法,其特征在于,当所述第一场景分类模型为ResNet网络时,所述场景类型信息为作为所述ResNet网络输出的标签值对应的第二场景类型权重。6.根据权利要求5所述的场景声学风格提取器训练方法,其特征在于,所述场景声学风格提取器包括:参考编码器、第一注意力模块和全连接层;所述将所述家居场景在所述嘈杂声学环境下的声学特征输入场景声学风格提取器,获得所述家居场景对应的训练风格嵌入信息的步骤,包括:将所述家居场景在嘈杂声学环境下的声学特征输入所述参考编码器,获得参考嵌入信息;将所述参考嵌入信息输入所述第一注意力模块,获得注意力权重;所述将所述场景类型信息输入所述场景声学风格提取器进行融合的步骤,包括:将所述注意力权重与所述第二场景类型权重输入所述全连接层进行加权,以获得所述训练风格嵌入信息。7.根据权利要求1所述的场景声学风格提取器训练方法,其特征在于,所述场景声学风格提取器包括:参考编码器、第一注意力模块和全连接层;所述将所述家居场景在所述嘈杂声学环境下的声学特征输入场景声学风格提取器,获得所述家居场景对应的训练风格嵌入
信息的步骤,包括:将所述家居场景在嘈杂声学环境下的声学特征输入所述参考编码器,获得参考嵌入信息;将所述参考嵌入信息输入所述第一注...

【专利技术属性】
技术研发人员:高羽
申请(专利权)人:美的集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1