场景声学风格提取器训练方法、装置、电子设备和计算机可读存储介质制造方法及图纸

技术编号：34360052 阅读：16 留言：0更新日期：2022-07-31 07:20

本发明专利技术的实施例提供了一种场景声学风格提取器训练方法、装置、电子设备和计算机可读存储介质，涉及数据处理技术领域，方法包括：获得家居场景在嘈杂声学环境下的声学特征，将家居场景在嘈杂声学环境下的声学特征输入场景声学风格提取器，获得家居场景对应的训练风格嵌入信息。从而实现对家居场景对应的场景声学风格的可靠获取。风格的可靠获取。风格的可靠获取。

Training method, device, electronic device and computer readable storage medium of scene acoustic style extractor

全部详细技术资料下载

【技术实现步骤摘要】
场景声学风格提取器训练方法、装置、电子设备和计算机可读存储介质

[0001]本专利技术涉及数据处理
，具体而言，涉及一种场景声学风格提取器训练方法、装置、电子设备和计算机可读存储介质。

技术介绍

[0002]在日常生活中，各种各样的噪声充斥在家居场景中，人们往往需要在嘈杂环境下进行交流。法国耳鼻喉科医生爱蒂安
·
伦巴德于1909年经研究发现，在有噪声环境下进行交流的时候，说话人不得不主动改变发声方式，提高声音的效果，希望使对方能听清。经研究发现，即使同一个人发相同的语音，在不同环境下的语音特征也有所不同，改变的特征包括提高声音的音高、音调、响度及共振峰特征等。这种现象称为Lombard effect(伦巴德效应)。随着智能家居的兴起，如何提高人机交互顺畅度，达到更好地为人类服务的目的，成为本领域所关注的问题。
[0003]目前，家居场景中的电子设备如智能设备可以感知声学环境状态的变化，对用户的问题进行内容合理的回答。例如，智能设备在监测到用户发出指示信息“开启微波炉”的情况下，控制微波炉开启并语音播报“微波炉已开启”，完成对指示信息的响应。但是，经研究发现，智能设备语音播报的内容很多时候无法被用户准确接收，如在嘈杂环境下所播报的语音被环境声淹没，使得用户无法清晰地接收到所播报的语音，影响了智能家居场景中的人机交互顺畅度，无法满足实际应用需求。

技术实现思路

[0004]基于上述问题，专利技术人分析得出，用户准确接收到合理内容如上述“微波炉已开启”的语音播报的前提是：智能...

【技术保护点】

【技术特征摘要】
1.一种场景声学风格提取器训练方法，其特征在于，包括：获得家居场景在嘈杂声学环境下的声学特征；将所述家居场景在所述嘈杂声学环境下的声学特征输入场景声学风格提取器，获得所述家居场景对应的训练风格嵌入信息；其中，所述训练风格嵌入信息表征与所述家居场景对应的场景声学风格。2.根据权利要求1所述的场景声学风格提取器训练方法，其特征在于，还包括：获得所述家居场景的环境声学特征；将所述家居场景的所述环境声学特征输入第一场景分类模型，获得所述家居场景对应的场景类型信息；将所述场景类型信息输入所述场景声学风格提取器进行融合。3.根据权利要求2所述的场景声学风格提取器训练方法，其特征在于，当所述第一场景分类模型为VGG16网络时，所述场景类型信息为作为所述VGG16网络输出的Softmax概率值对应的第一场景类型权重。4.根据权利要求3所述的场景声学风格提取器训练方法，其特征在于，所述场景声学风格提取器包括：参考编码器、第一注意力模块和全连接层；所述将所述家居场景在所述嘈杂声学环境下的声学特征输入场景声学风格提取器，获得所述家居场景对应的训练风格嵌入信息的步骤，包括：将所述家居场景在嘈杂声学环境下的声学特征输入所述参考编码器，获得参考嵌入信息；将所述参考嵌入信息输入所述第一注意力模块，获得注意力权重；所述将所述场景类型信息输入所述场景声学风格提取器进行融合的步骤，包括：将所述注意力权重与所述第一场景类型权重输入所述全连接层进行加权，以获得所述训练风格嵌入信息。5.根据权利要求2所述的场景声学风格提取器训练方法，其特征在于，当所述第一场景分类模型为ResNet网络时，所述场景类型信息为作为所述ResNet网络输出的标签值对应的第二场景类型权重。6.根据权利要求5所述的场景声学风格提取器训练方法，其特征在于，所述场景声学风格提取器包括：参考编码器、第一注意力模块和全连接层；所述将所述家居场景在所述嘈杂声学环境下的声学特征输入场景声学风格提取器，获得所述家居场景对应的训练风格嵌入信息的步骤，包括：将所述家居场景在嘈杂声学环境下的声学特征输入所述参考编码器，获得参考嵌入信息；将所述参考嵌入信息输入所述第一注意力模块，获得注意力权重；所述将所述场景类型信息输入所述场景声学风格提取器进行融合的步骤，包括：将所述注意力权重与所述第二场景类型权重输入所述全连接层进行加权，以获得所述训练风格嵌入信息。7.根据权利要求1所述的场景声学风格提取器训练方法，其特征在于，所述场景声学风格提取器包括：参考编码器、第一注意力模块和全连接层；所述将所述家居场景在所述嘈杂声学环境下的声学特征输入场景声学风格提取器，获得所述家居场景对应的训练风格嵌入
信息的步骤，包括：将所述家居场景在嘈杂声学环境下的声学特征输入所述参考编码器，获得参考嵌入信息；将所述参考嵌入信息输入所述第一注...

【专利技术属性】
技术研发人员：高羽，
申请(专利权)人：美的集团股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人