一种基于深度学习的音域平衡方法、装置及系统制造方法及图纸

技术编号:31790037 阅读:53 留言:0更新日期:2022-01-08 10:47
本发明专利技术提供了发明专利技术提供了一种基于深度学习的音域平衡方法、装置、及系统,所述方法包括:对音频数据进行特征提取得到音频数据特征;基于所述音频数据特征,利用训练好的音域平衡模型,生成所述待处理的音频数据的推荐音域平衡结果。本发明专利技术基于深层神经网络和无监督深度学习,解决无分类标签音乐和未知风格音乐的音域平衡的问题,并结合对用户偏好的统计,实现更合理的多类别音域平衡设计,满足个性化需求。需求。需求。

【技术实现步骤摘要】
一种基于深度学习的音域平衡方法、装置及系统
[0001]本申请是申请日为2018年6月5日、申请号为201810583138.7、专利技术创造名称为“一种基于深度学习的音域平衡方法、装置及系统”的分案申请


[0002]本专利技术涉及声音
,更具体地涉及一种音质调节方法及装置。

技术介绍

[0003]音质是人对音频质量的主观评价,对音质每个人有不同的偏好,比如对不同频段声音的偏好,有的人喜欢低音澎湃的音乐,有人喜欢中高频较多甚至尖刺的声音,而有的人则喜欢中频段的清晰人声。
[0004]无论是音频播放设备供应商还是音频门户平台,设法提升增强音质,是能够提升用户音乐体验的最直接方法之一。音质的音域平衡是指通过对人耳可感知声音频域范围内的频率区间,如对人耳可感知声音的高中低频区域的频谱进行不同程度的增强或衰减,以满足人们对不同频段声音偏好。目前的一种常用调节方法是设置EQ(Equalizer)曲线,EQ曲线的每个点表示对一个频点或频段的增强或衰减倍数,有的播放终端和播放软件提供了通过调节播放终端的EQ均衡器的参数来提升音质的功能。目前,EQ均衡器调节方法分为两种,一种是由用户自己调节,如给定一系列均衡器,用户手动去选择设置,这种方法无法实现针对特对音乐自身特性或用户偏好的自适应音质调节;另一种方法是通过对音乐的标题,作者等标签特征做分析,将用户偏好与某一类或几类风格靠拢,利用该类风格已有的业内通用EQ设置去给用户做推荐。
[0005]但是,如果一个音乐无法取得相应的标签,或者一个音乐的风格可能属于几个类别,或者音乐中存在不同风格的段落,或者用户的音乐列表属于一种我们不知道的风格,那么就无法进行EQ均衡器的设置。因此,现有技术中的EQ均衡器的调节依赖于相应的音乐标签,且无法满足个性化的需求。

技术实现思路

[0006]考虑到上述问题而提出了本专利技术。本专利技术提供了一种基于深度学习的音域平衡方法、装置、系统及计算机存储介质,基于深层神经网络和无监督深度学习,解决无分类标签音乐和未知风格音乐的音域平衡的问题,并结合对用户偏好的统计,实现更合理的多类别音域平衡设计,满足个性化需求。
[0007]根据本专利技术一方面,提供一种基于深度学习的音域平衡方法,其特征在于,所述方法包括:对音频数据进行特征提取得到音频数据特征;基于所述音频数据特征,利用训练好的音域平衡模型,生成音域平衡结果。
[0008]示例性地,所述音域平衡模型包括:基于音乐数据库和用户偏好音乐列表,采用有监督的深度学习方法对用户偏好的音乐的类型进行实时评估,得到音域平衡模型;
[0009]示例性地,所述音域平衡模型包括基于用户偏好音乐列表,对用户偏好音乐自身
的特征提取,采用无监督的深度学习方法,得到音域平衡模型。
[0010]示例性地,所述音域平衡模型的训练包括:
[0011]基于音乐数据库提取音乐数据的类别标签特征以及所述音乐数据的数据特征;
[0012]将所述音乐数据的数据特征作为输入层数据,所述类别标签特征作为输出层数据,训练得到音域平衡模型;
[0013]对用户偏好音乐数据进行特征提取得到数据特征并作为输入数据,输入所述音域平衡模型,得到所述用户偏好音乐数据的类别标签特征;
[0014]将所述用户偏好音乐数据的类别标签特征还原成所述用户偏好音乐数据的类别标签,形成用户偏好类别画像;
[0015]根据所述用户偏好类别画像和相应类别的音域平衡参数进行融合,得到用户的音域平衡均衡结果。
[0016]其中,所述相应类别音域平衡参数是现有技术中能够反映出不同类型音频特点的音质特性的参数,包括且不限于EQ均衡器的参数。
[0017]示例性地,所述用户偏好类别画像反映的是用户对于各类别音频数据的偏好程度,包括各类别音频数据所占的比例或权重。
[0018]示例性地,所述音域平衡模型训练的包括:
[0019]基于音乐数据库中大众用户偏好的音乐作为训练集,进行特征提取得到所述音乐数据库的音乐数据特征;
[0020]将所述音乐数据特征作为可视层输入,训练一个受限玻尔兹曼机RBM;
[0021]基于所述训练好的受限玻尔兹曼机RBM,将所述训练集的音乐数据特征输入受限玻尔兹曼机RBM可视层,得到隐层特征;并将所述隐层特征输入已经训练好的聚类模型进行分类,生成平均隐层特征;
[0022]基于所述平均隐层特征和所述受限玻尔兹曼机RBM进行一次反向运算,得到音乐数据库的平均音乐数据特征;
[0023]基于用户偏好音乐列表中的音乐进行特征提取,并将提取的用户偏好音乐特征作为可视层输入,训练一个用户偏好受限玻尔兹曼机RBM;
[0024]示例性地,基于所述训练好的用户偏好受限玻尔兹曼机RBM,将所述用户偏好音乐特征输入RBM可视层,得到用户偏好隐层特征;并将所述用户偏好隐层特征输入所述聚类模型进行分类,生成用户偏好平均隐层特征;
[0025]基于所述用户偏好平均隐层特征和用户偏好受限玻尔兹曼机RBM进行一次反向运算,得到用户偏好平均音乐特征;
[0026]根据所述用户偏好平均音乐特征与所述音乐数据库的平均音乐特征得到用户的离线音域平衡均衡结果。
[0027]示例性地,所述音频数据特征包括时域或频域特征。
[0028]示例性地,所述音频数据特征提取包括对所述音频数据进行分帧后进行特征提取。
[0029]示例性地,所述音频数据特征提取的方法包括FFT,STFT,MFCC,一帧或多帧时域波形或人工设计的其他特征中的至少一种。
[0030]示例性地,所述训练好的音域平衡模型包括在线音域平衡模型和/或离线音域平
衡模型。
[0031]根据本专利技术的另一方面,提供一种基于深度学习的音域平衡装置,其特征在于,包括特征提取模块和音域平衡模块;
[0032]所述特征提取模块,用于获取音频数据库中的数据或用户偏好数据,并进行特征提取以得到所述音频数据库中的数据或用户偏好数据的特征;
[0033]所述音域平衡模块,用于基于所述特征提取模块提取的音频数据的特征,利用训练好的音域平衡模型,生成音域平衡结果。
[0034]示例性地,所述音域平衡模块还包括在线音域平衡模块和/或离线音域平衡模块;
[0035]所述在线音域平衡模块,用于基于音乐数据库和用户偏好音乐列表,采用有监督的深度学习方法对用户偏好的音乐的类型进行实时评估,得到在线音域平衡模型;结合已有的音乐风格的均衡器得到用户的在线音域平衡均衡结果;
[0036]所述离线音域平衡模块,用于基于用户偏好音乐列表,对用户偏好音乐自身的特征提取,采用无监督的深度学习方法,得到离线音域平衡模型;并生成用户的离线音域平衡均衡结果。
[0037]根据本专利技术另一方面,提供了一种基于深度学习的音域平衡系统,所述系统包括存储装置和处理器,所述存储装置上存储有由所述处理器运行的计算机程序,所述计算机程序在被所述处理器运行时执行本专利技术的基本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的音域平衡方法,其特征在于,所述方法包括:对音频数据进行特征提取得到音频数据特征;基于所述音频数据特征,利用训练好的音域平衡模型,生成音域平衡结果。2.如权利要求1所述的音域平衡方法,其特征在于,所述音域平衡模型包括:基于音乐数据库和用户偏好音乐列表,采用有监督的深度学习方法对用户偏好的音乐的类型进行评估,得到音域平衡模型;和/或基于用户偏好音乐列表,对用户偏好音乐自身的特征提取,采用无监督的深度学习方法,得到音域平衡模型。3.如权利要求1所述的音域平衡方法,其特征在于,所述音域平衡模型训练的方法包括:基于音乐数据库提取音乐数据的类别标签特征以及所述音乐数据的数据特征;将所述音乐数据的数据特征作为输入层数据,所述类别标签特征作为输出层数据,训练得到音域平衡模型。4.如权利要求2所述的音域平衡方法,其特征在于,所述生成音域平衡结果包括:对用户偏好音频数据进行特征提取得到偏好数据特征并作为输入数据,输入所述音域平衡模型,得到所述用户偏好音频数据的类别标签特征;将所述用户偏好音频数据的类别标签特征还原成所述用户偏好音频数据的类别标签,形成用户偏好类别画像;根据所述用户偏好类别画像和相应类别的音域平衡参数进行融合,得到用户的在线音域平衡结果。5.如权利要求4所述的音域平衡方法,其特征在于,所述用户偏好类别画像反映的是用户对于各类别音频数据的偏好程度,包括各类别音频数据所占的比例或权重。6.如权利要求2所述的音域平衡方法,其特征在于,所述音域平衡模型训练的方法包括:基于音频数据库中大众用户偏好的音频作为训练集,进行特征提取得到所述音乐数据库的音频数据特征;将所述音频数据特征作为可视层输入,训练一个受限玻尔兹曼机RBM;基于所述训练好的受限玻尔兹曼机RBM,将所述训练集的音频数据特征输入受限玻尔兹曼机RBM可视层,得到隐层特征;并将所述隐层特征输入已经训练好的聚类模型进行分类,生成平均隐层特征;基于所述平均隐层特征和所述受限玻尔兹曼机RBM进行一次反向运算,得到音频数据库的平均音频数据特征;基于用户偏好音乐列表中的音频进行特征提取,并将提取的用户偏好音频特征作为可视层输入,训练一个用户偏好受限玻尔兹曼机RBM。7.如权利要求6所述的音域平衡方法,其特征在于,所述生成音域平衡均衡结果方法还包括:基于所述训练好的用户偏好受限玻尔兹曼机RBM,将所述用户偏好音乐特...

【专利技术属性】
技术研发人员:姚青山秦宇喻浩文卢峰
申请(专利权)人:安克创新科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1