System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 智能音响场景识别与自适应调整方法及系统技术方案_技高网

智能音响场景识别与自适应调整方法及系统技术方案

技术编号:42941914 阅读:9 留言:0更新日期:2024-10-11 16:00
本申请提供一种智能音响场景识别与自适应调整方法及系统,对初始音频和环境传感数据分别进行特征嵌入后,对音频嵌入表示进行多层次音频增量学习,相应地获得初始音频中的目标音轨在多个层次下的音频语义注释隐式表示,并对传感嵌入表示逐一进行多层次传感增量学习,得到多层次传感增量学习后获得的整合隐式表示,如此,对整合隐式表示进行还原映射,即可获得融合目标音轨的音轨隐式表示和环境传感数据的环境隐式表示的音质调节音频,基于经过多层次传感增量学习后的整合隐式表示构建调节后的音频,可以提高音质调节音频的环境适应效果,令目标音轨在音质调节音频中更加自然,从而增加音质调节音频的音质。

【技术实现步骤摘要】

本申请涉及数据处理,尤其涉及一种智能音响场景识别与自适应调整方法及系统


技术介绍

1、随着人工智能技术的飞速发展,音频处理领域迎来了前所未有的变革。在智能家居、娱乐产业以及通讯技术等多个应用场景中,高质量的音频处理成为提升用户体验的关键因素。然而,传统的音频处理技术往往依赖于固定的算法和预设的参数,难以适应复杂多变的环境需求,特别是在需要同时处理音频信号与环境传感数据时,其局限性尤为明显。具体而言,传统音频处理技术在面对不同场景下的音频调节任务时,往往无法充分考虑到环境因素对音频效果的影响。例如,在家庭聚会、电影院观影或户外活动等场景中,环境噪音、空间混响等因素会显著影响音频的播放效果,而传统技术通常无法有效地根据这些环境变化对音频进行实时调整。


技术实现思路

1、有鉴于此,本申请提供一种智能音响场景识别与自适应调整方法及系统。本申请的技术方案是这样实现的:

2、第一方面,本申请提供一种智能音响场景识别与自适应调整方法,所述方法包括:获取包含目标音轨的初始音频和环境传感数据;对所述初始音频和所述环境传感数据分别进行特征嵌入,相应地获得音频嵌入表示和传感嵌入表示;对所述音频嵌入表示进行多层次音频增量学习,相应地获得所述初始音频中的目标音轨在多个层次下的音频语义注释隐式表示;对所述传感嵌入表示逐一进行多层次传感增量学习;其中,所述多层次传感增量学习的层次数量与所述多层次音频增量学习的层次数量一致;对于两两相邻层次的传感增量学习间,对所述两两相邻层次的传感增量学习中的靠前层次传感增量学习获得的传感增量学习结果和对应层次数量的音频语义注释隐式表示进行隐式表示整合;其中,在进行所述两两相邻层次的传感增量学习中的靠后层次传感增量学习时,为对所述传感嵌入表示和所述隐式表示整合后的隐式表示整合结果进行传感增量学习;对所述多层次传感增量学习后获得的整合隐式表示进行还原映射,得到融合所述目标音轨的音轨隐式表示和所述环境传感数据的环境隐式表示的音质调节音频。

3、第二方面,本申请提供一种音响系统,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以上所述方法中的步骤。

4、本申请的有益效果至少包括:本申请对初始音频和环境传感数据分别进行特征嵌入后,对音频嵌入表示进行多层次音频增量学习,相应地获得初始音频中的目标音轨在多个层次下的音频语义注释隐式表示,并对传感嵌入表示逐一进行多层次传感增量学习,得到多层次传感增量学习后获得的整合隐式表示,如此,对整合隐式表示进行还原映射,即可获得融合目标音轨的音轨隐式表示和环境传感数据的环境隐式表示的音质调节音频,基于经过多层次传感增量学习后的整合隐式表示构建调节后的音频,可以提高音质调节音频的环境适应效果,令目标音轨在音质调节音频中更加自然,从而增加音质调节音频的音质。同时,因为对于两两相邻层次的传感增量学习间,会对两两相邻层次的传感增量学习中的靠前层次传感增量学习获得的传感增量学习结果和对应层次数量的音频语义注释隐式表示进行隐式表示整合,此外,在进行两两相邻层次的传感增量学习中的靠后层次传感增量学习时,为对传感嵌入表示和隐式表示整合后的隐式表示整合结果进行传感增量学习,那么,多层次传感增量学习是整合了多层次音频增量学习时挖掘的目标音轨在多个层次下的音频语义注释隐式表示的,那么,可以更有效地整合目标音轨的音频特征,以增加音质调节音频的音质。此外,本申请对加载到的初始音频和环境传感数据进行处理,加载的数据包括初始音频和环境传感数据,不用其他额外的网络调校的过程,过程简单,对算力的消耗低,节约成本。

本文档来自技高网...

【技术保护点】

1.一种智能音响场景识别与自适应调整方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述对所述音频嵌入表示进行多层次音频增量学习,相应地获得所述初始音频中的目标音轨在多个层次下的音频语义注释隐式表示,包括:

3.根据权利要求2所述的方法,其特征在于,所述中间层组件为第一跳跃连接组件,所述第一跳跃连接组件中包括增量投影算法;所述基于事先调试的音频注释抽取组件中的多个中间层组件,对所述音频嵌入表示进行多层次音频增量学习,相应地获得所述初始音频中的目标音轨在多个层次下的音频语义注释隐式表示,包括:

4.根据权利要求3所述的方法,其特征在于,所述对所述传感嵌入表示逐一进行多层次传感增量学习,包括:

5.根据权利要求4所述的方法,其特征在于,所述基于事先调试的语义增强生成网络,对所述传感嵌入表示逐一进行多层次传感增量学习,包括:

6.根据权利要求5所述的方法,其特征在于,在对所述传感嵌入表示进行首层传感增量学习之前,所述方法还包括:

7.根据权利要求1~6任一项所述的方法,其特征在于,所述智能音响场景识别与自适应调整方法基于事先调试的音频生成网络执行;所述音频生成网络包括第一子网络和第二子网络;所述第一子网络包括传感数据嵌入组件和语义增强生成网络,所述第二子网络包括音频嵌入组件和音频注释抽取组件;

8.根据权利要求7所述的方法,其特征在于,所述根据所述样例音频语义注释隐式表示和所述样例整合隐式表示,对所述音频生成网络进行误差确定,得到所述音频生成网络的调校误差,包括:

9.根据权利要求8所述的方法,其特征在于,所述根据所述样例整合隐式表示和所述音频训练数据,对所述音频生成网络进行初始误差确定,得到初始调校误差,包括:

10.一种音响系统,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至9任一项所述方法中的步骤。

...

【技术特征摘要】

1.一种智能音响场景识别与自适应调整方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述对所述音频嵌入表示进行多层次音频增量学习,相应地获得所述初始音频中的目标音轨在多个层次下的音频语义注释隐式表示,包括:

3.根据权利要求2所述的方法,其特征在于,所述中间层组件为第一跳跃连接组件,所述第一跳跃连接组件中包括增量投影算法;所述基于事先调试的音频注释抽取组件中的多个中间层组件,对所述音频嵌入表示进行多层次音频增量学习,相应地获得所述初始音频中的目标音轨在多个层次下的音频语义注释隐式表示,包括:

4.根据权利要求3所述的方法,其特征在于,所述对所述传感嵌入表示逐一进行多层次传感增量学习,包括:

5.根据权利要求4所述的方法,其特征在于,所述基于事先调试的语义增强生成网络,对所述传感嵌入表示逐一进行多层次传感增量学习,包括:

6.根据权利要求5所述的方法,其特征在于,在对所...

【专利技术属性】
技术研发人员:周宣涛赵凯潜赵银山肖超
申请(专利权)人:深圳市好兄弟电子有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1