基于环境音的音频控制方法、装置、设备及存储介质制造方法及图纸

技术编号:34081960 阅读:21 留言:0更新日期:2022-07-11 19:05
本发明专利技术涉及音频增强技术,揭露了一种基于环境音的音频控制方法,包括:对周围环境的音频信息进行平滑处理,得到降噪音频信息;利用预训练的环境音频协调模型中的主体音频识别网络,识别所述降噪音频信息中存在的声音类别,得到主环境音频类别集合;利用所述环境音频协调模型中的类别协调网络,识别所述主环境音频类别集合中的各个主环境音频类别与预构建的目标播放内容的协调性分数;根据预构建的抗干扰策略对各个协调性分数进行加权计算,生成抗干扰信号值,并根据所述抗干扰信号值,对所述目标播放内容进行音频增强操作,得到适应所述周围环境的目标播放内容。本发明专利技术可以解决播放音频受到环境音频干扰过大的问题。播放音频受到环境音频干扰过大的问题。播放音频受到环境音频干扰过大的问题。

【技术实现步骤摘要】
基于环境音的音频控制方法、装置、设备及存储介质


[0001]本专利技术涉及音频增强
,尤其涉及一种基于环境音的音频控制方法、装置、设备及计算机可读存储介质。

技术介绍

[0002]随着科技的发展,扬声器已经完全融入人们的日程生活中,然而,由于环境噪音的问题,无处不在的扬声器并未达到一个好的效果,例如机场、车站、工厂等嘈杂场所的广播即使声音很大,但有时人们仍不能很清楚的听到播报内容,另外,还有一些场所音乐声音过大对过往客人造成噪声污染,因此,目前急需一种通过环境音,对目标播放内容进行音频增强或削弱的控制方法,使得目标播放内容适应环境音。

技术实现思路

[0003]本专利技术提供一种基于环境音的音频控制方法、装置、设备及存储介质,其主要目的在于根据不同环境音,对播放的音频内容进行适应性变化,从而提升人们对播放内容的识别效果。
[0004]为实现上述目的,本专利技术提供的一种基于环境音的音频控制方法,包括:对周围环境的音频信息进行平滑处理,得到降噪音频信息;利用预训练的环境音频协调模型中的主体音频识别网络,识别所述降噪音频信息中存在的声音类别,得到声音类别集合,并将所述声音类别集合进行主次环境划分,得到主环境音频类别集合;利用所述环境音频协调模型中的类别协调网络,识别所述主环境音频类别集合中的各个主环境音频类别与预构建的目标播放内容的协调性分数;根据预构建的抗干扰策略对各个协调性分数进行加权计算,生成抗干扰信号值,并根据所述抗干扰信号值,对所述目标播放内容进行音频增强操作,得到适应所述周围环境的目标播放内容。
[0005]可选的,所述根据预构建的抗干扰策略对各个协调性分数进行加权计算,生成抗干扰信号值,包括:利用预设的反比例经验函数,对各个所述主环境音频类别的协调性分数进行函数计算,得到各个主环境音频类别对应的干扰分数;根据预设的权重分配表格,查询各个干扰分数对应的权重系数,并根据所述权重系数及所述干扰分数,对各个主环境音频类别对应的音频参数进行加权平均计算,得到抗干扰信号值。
[0006]可选的,所述利用预训练的环境音频协调模型中的主体音频识别网络,识别所述降噪音频信息中存在的声音类别,得到声音类别集合,并将所述声音类别集合进行主次环境划分,得到主环境音频类别集合,包括:利用所述主体音频识别网络中的特征提取网络,对所述降噪音频信息进行卷积操
作,得到卷积矩阵集合;对所述卷积矩阵集合进行平均池化操作,得到池化矩阵集合;利用所述主体音频识别网络中的flatten层对所述池化矩阵集合进行扁平化操作,得到特征序列集合;利用所述主体音频识别网络中的全连接层将所述特征序列集合中各个特征序列进行全连接操作,得到音频特征集合;利用所述主体音频识别网络中的决策树层,对所述音频特征集合进行特征识别分类,得到声音类别集合,并对所述音频特征集合进行场景识别,根据场景识别结果,对所述声音类别集合进行主次环境划分,得到主环境音频类别集合。
[0007]可选的,所述利用所述环境音频协调模型中的类别协调网络,识别所述主环境音频类别集合中的各个主环境音频类别与预构建的目标播放内容的协调性分数之前,所述方法还包括:获取包含人工标注样本的音频样本集合,并根据预设分组策略,将所述音频样本集合进行分组为测试集及训练集;从所述训练集中提取一个音频样本,利用预构建的类别协调网络对所述音频样本中的两种声音进行声音种类识别及声音协调性判断识别,得到识别结果;利用预设的类别

协调性组合损失函数,计算所述识别结果与所述音频样本的人工标注之间的损失值;最小化所述损失值,得到损失值最小时的网络系数,并对所述网络系数进行网络反向传播,得到更新类别协调网络;判断所述训练集中音频样本集合是否全部参与训练;当所述训练集中音频样本集合未全部参与训练时,返回上述从所述训练集中提取一个音频样本,利用预构建的类别协调网络对所述音频样本进行声音种类识别及声音协调性判断识别,得到识别结果的步骤;当所述训练集中音频样本集合全部参与训练时,获取最后更新的更新类别协调网络,并利用所述测试集对所述更新类别协调网络进行测试,得到测试准确率;判断所述测试准确率是否大于预设的合格阈值;当所述测试准确率小于或等于所述合格阈值时,返回获取包含人工标注样本的音频样本集合,并根据预设分组策略,将所述音频样本集合进行分组为测试集及训练集的步骤,对所述更新类别协调网络进行迭代更新;当所述测试准确率大于预设的合格阈值时,得到训练完成的类别协调网络。
[0008]可选的,所述对周围环境的音频信息进行平滑处理,得到降噪音频信息,包括:获取所述音频信息中音波电信息的变化曲率,并获取变化曲率大于预设突变阈值的音波电信息作为噪点;获取所述音频信息中所述噪点的预设邻域内的音波电信息,得到音波电信息集合,并根据所述音波电信息集合,计算平均音波数值;利用所述平均音波数值替换所述噪点的音波数值,得到降噪音频信息。
[0009]为了解决上述问题,本专利技术还提供一种基于环境音的音频控制装置,所述装置包括:
降噪处理模块,用于对周围环境的音频信息进行平滑处理,得到降噪音频信息;音频主环境识别模块,用于利用预训练的环境音频协调模型中的主体音频识别网络,识别所述降噪音频信息中存在的声音类别,得到声音类别集合,并将所述声音类别集合进行主次环境划分,得到主环境音频类别集合;协调性识别模块,用于利用所述环境音频协调模型中的类别协调网络,识别所述主环境音频类别集合中的各个主环境音频类别与预构建的目标播放内容的协调性分数;目标音增强模块,用于根据预构建的抗干扰策略对各个协调性分数进行加权计算,生成抗干扰信号值,并根据所述抗干扰信号值,对所述目标播放内容进行音频增强操作,得到适应所述周围环境的目标播放内容。
[0010]可选的,所述根据预构建的抗干扰策略对各个协调性分数进行加权计算,生成抗干扰信号值,包括:利用预设的反比例经验函数,对各个所述主环境音频类别的协调性分数进行函数计算,得到各个主环境音频类别对应的干扰分数;根据预设的权重分配表格,查询各个干扰分数对应的权重系数,并根据所述权重系数及所述干扰分数,对各个主环境音频类别对应的音频参数进行加权平均计算,得到抗干扰信号值。
[0011]可选的,所述利用预训练的环境音频协调模型中的主体音频识别网络,识别所述降噪音频信息中存在的声音类别,得到声音类别集合,并将所述声音类别集合进行主次环境划分,得到主环境音频类别集合,包括:利用所述主体音频识别网络中的特征提取网络,对所述降噪音频信息进行卷积操作,得到卷积矩阵集合;对所述卷积矩阵集合进行平均池化操作,得到池化矩阵集合;利用所述主体音频识别网络中的flatten层对所述池化矩阵集合进行扁平化操作,得到特征序列集合;利用所述主体音频识别网络中的全连接层将所述特征序列集合中各个特征序列进行全连接操作,得到音频特征集合;利用所述主体音频识别网络中的决策树层,对所述音频特征集合进行特征识别分类,得到声音类别集合,并对所述音频特征集合进行场景识别,根据场景识别结果,对所述声音类别集合进行主次环境划分,得到本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于环境音的音频控制方法,其特征在于,所述方法包括:对周围环境的音频信息进行平滑处理,得到降噪音频信息;利用预训练的环境音频协调模型中的主体音频识别网络,识别所述降噪音频信息中存在的声音类别,得到声音类别集合,并将所述声音类别集合进行主次环境划分,得到主环境音频类别集合;利用所述环境音频协调模型中的类别协调网络,识别所述主环境音频类别集合中的各个主环境音频类别与预构建的目标播放内容的协调性分数;根据预构建的抗干扰策略对各个协调性分数进行加权计算,生成抗干扰信号值,并根据所述抗干扰信号值,对所述目标播放内容进行音频增强操作,得到适应所述周围环境的目标播放内容。2.如权利要求1所述的基于环境音的音频控制方法,其特征在于,所述根据预构建的抗干扰策略对各个协调性分数进行加权计算,生成抗干扰信号值,包括:利用预设的反比例经验函数,对各个所述主环境音频类别的协调性分数进行函数计算,得到各个主环境音频类别对应的干扰分数;根据预设的权重分配表格,查询各个干扰分数对应的权重系数,并根据所述权重系数及所述干扰分数,对各个主环境音频类别对应的音频参数进行加权平均计算,得到抗干扰信号值。3.如权利要求1所述的基于环境音的音频控制方法,其特征在于,所述利用预训练的环境音频协调模型中的主体音频识别网络,识别所述降噪音频信息中存在的声音类别,得到声音类别集合,并将所述声音类别集合进行主次环境划分,得到主环境音频类别集合,包括:利用所述主体音频识别网络中的特征提取网络,对所述降噪音频信息进行卷积操作,得到卷积矩阵集合;对所述卷积矩阵集合进行平均池化操作,得到池化矩阵集合;利用所述主体音频识别网络中的flatten层对所述池化矩阵集合进行扁平化操作,得到特征序列集合;利用所述主体音频识别网络中的全连接层将所述特征序列集合中各个特征序列进行全连接操作,得到音频特征集合;利用所述主体音频识别网络中的决策树层,对所述音频特征集合进行特征识别分类,得到声音类别集合,并对所述音频特征集合进行场景识别,根据场景识别结果,对所述声音类别集合进行主次环境划分,得到主环境音频类别集合。4.如权利要求1所述的基于环境音的音频控制方法,其特征在于,所述利用所述环境音频协调模型中的类别协调网络,识别所述主环境音频类别集合中的各个主环境音频类别与预构建的目标播放内容的协调性分数之前,所述方法还包括:获取包含人工标注样本的音频样本集合,并根据预设分组策略,将所述音频样本集合进行分组为测试集及训练集;从所述训练集中提取一个音频样本,利用预构建的类别协调网络对所述音频样本中的两种声音进行声音种类识别及声音协调性判断识别,得到识别结果;利用预设的类别

协调性组合损失函数,计算所述识别结果与所述音频样本的人工标
注之间的损失值;最小化所述损失值,得到损失值最小时的网络系数,并对所述网络系数进行网络反向传播,得到更新类别协调网络;判断所述训练集中音频样本集合是否全部参与训练;当所述训练集中音频样本集合未全部参与训练时,返回上述从所述训练集中提取一个音频样本,利用预构建的类别协调网络对所述音频样本进行声音种类识别及声音协调性判断识别,得到识别结果的步骤;当所述训练集中音频样本集合全部参与训练时,获取最后更新的更新类别协调网络,并利用所述测试集对所述更新类别协调网络进行测试,得到测试准确率;判断所述测试准确率是否大于预设的合格阈值;当所述测试准确率小于或等于所述合格阈值时,返回获取包含人工标...

【专利技术属性】
技术研发人员:彭桂洪
申请(专利权)人:深圳市润东来科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1