一种视频调音方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37678911 阅读:16 留言:0更新日期:2023-05-26 04:45
本申请提供一种视频调音方法、装置、电子设备及存储介质,该方法包括:获得包含人体的待处理视频;通过待处理视频,获得人体的关键点特征、表情特征、语音特征以及文本特征;通过第一融合模块,将语音特征以及文本特征进行融合,获得交叉融合特征;通过第二融合模块,将关键点特征、表情特征以及交叉融合特征进行融合,获得最终特征;根据最终特征,对待处理视频进行调音处理。通过第一融合模块和第二融合模块,能够有效提取、融合各通道信号的信息,建模多通道图像与语音、文本的相关性,自动提取与目标任务强相关的高层语义特征,实现准确调音操作。利用表情识别技术,读取用户的情绪状态,并自动匹配相应的调音命令,提高调音准确率。提高调音准确率。提高调音准确率。

【技术实现步骤摘要】
一种视频调音方法、装置、电子设备及存储介质


[0001]本申请涉及数字音频处理
,具体而言,涉及一种视频调音方法、装置、电子设备及存储介质。

技术介绍

[0002]调音技术被广泛应用于各类演播室、音视频制作以及现场演出等场景。调音效果的好坏直接关系到观众的听觉愉悦程度。目前的调音处理主要靠专业调音师靠听力来判断和调试,通过在调音台操作界面上手动操作,下发调音命令实现调音。这种方法调音的质量受硬件设备的影响以及调音师个人的影响,容易出现较大误差。

技术实现思路

[0003]本专利技术实施例的目的在于一种视频调音方法、装置、电子设备及存储介质,通过使用基于深度学习的表情识别技术,对视频中的关键点特征、表情特征、语音特征以及文本特征进行处理,获得最终特征,根据最终特征对待处理视频进行调音处理。改善硬件设备以及调音师个人对调音的影响的情况,提高调音的准确率以及效率。
[0004]第一方面,本申请实施例提供了一种视频调音方法,包括:获得包含人体的待处理视频;通过待处理视频,获得人体的关键点特征、表情特征、语音特征以及文本特征;通过第一融合模块,将语音特征以及文本特征进行融合,获得交叉融合特征;通过第二融合模块,将关键点特征、表情特征以及交叉融合特征进行融合,获得最终特征;根据最终特征,对待处理视频进行调音处理。
[0005]在上述的实现过程中,根据待处理视频中获取到待处理视频对应的关键点特征、表情特征、语音特征以及文本特征,对这些特征分别进行融合处理,从不同的维度进行相关信息的获取,融合各通道信号的信息,自动提取与目标任务强相关的高层语义特征,实现准确调音操作。
[0006]可选地,在本申请实施例中,第一融合模块包括多个依次连接的第一单元,其中,每一第一单元包括第一交叉注意力模块和第二交叉注意力模块;通过第一融合模块,将语音特征以及文本特征进行融合,获得交叉融合特征,包括:根据语音特征获得语音查询向量、语音键向量和语音值向量;以及根据文本特征获得文本查询向量、文本键向量和文本值向量;将语音查询向量、文本键向量和文本值向量,输入第一个第一单元中的第一交叉注意力模块,获得第一注意力值;将文本查询向量、语音键向量和语音值向量,输入第一个第一单元中的第二交叉注意力模块,获得第二注意力值;根据第一注意力值和第二注意力值,获得交叉融合特征。
[0007]在上述的实现过程中,每一第一单元包括第一交叉注意力模块和第二交叉注意力模块,通过两个交叉注意力模块计算协同注意机制中不同尺度语音特征和文本特征的相互关系,交叉注意力模块具有全局学习能力和良好的并行性,可以在抑制无用噪声的同时,进一步突出融合表示中的关键信息,对特征信息得到更好的处理,使调音效果更好。
[0008]可选地,在本申请实施例中,每一第一单元还包括第一前馈层和第二前馈层;根据第一注意力值和第二注意力值,获得交叉融合特征,包括:将第一注意力值输入第一前馈层,获得第一中间信息;将第二注意力值输入第二前馈层,获得第二中间信息;根据第一中间信息和第二中间信息,获得交叉融合特征。
[0009]在上述的实现过程中,通过前馈层生成中间表示信息,已获得最后的交叉融合特征,通过前馈层的设置,增强了模型的处理能力,提高调音效果。
[0010]可选地,在本申请实施例中,交叉融合特征包括多个依次连接的第二单元,每一第二单元包括第一多头注意力模块和第二多头注意力模块;通过第二融合模块,将关键点特征、表情特征以及交叉融合特征进行融合,获得最终特征,包括:将关键点特征和表情特征输入第一个第二单元中的第一多头注意力模块,获得图像融合特征;将关键点特征和交叉融合特征输入第一个第二单元中的第二多头注意力模块,获得多头融合特征;通过关键点特征、图像融合特征以及多头融合特征,获得最终特征。
[0011]在上述的实现过程中,基于深度学习的表情识别技术,读取用户的情绪状态,以及考虑到视频中人体的肢体动作,通过第二融合模型将关键点特征、表情特征以及交叉融合特征进行融合,通过多头主力已机制,使用不同序列位置的不同子空间的表征信息来进行序列数据处理,改善不同位置的子空间由于取均值的操作,模型精度低的情况。
[0012]可选地,在本申请实施例中,每一第二单元包括残差标准化层;通过关键点特征、图像融合特征以及多头融合特征,获得最终特征,包括:根据关键点特征、图像融合特征以及多头融合特征,生成融合输出特征;将融合输出特征,输入残差标准化层,获得最终特征。
[0013]在上述的实现过程中,将融合输出特征,输入残差标准化层,获得最终特征,通过残差标准化层,改善网络梯度反向传播更新参数时,造成的梯度小时的问题,使模型的效果更好,从而提高调音的准确性。
[0014]可选地,在本申请实施例中,根据最终特征,对待处理视频进行处理,包括:将最终特征输入特征映射器,获得调音矩阵;调音矩阵包括控制参数以及每一控制参数的控制值;根据调音矩阵,对待处理视频中的音频信息进行调节。
[0015]在上述的实现过程中,将最终特征输入特征映射器,获得调音矩阵,调音矩阵包括控制参数以及每一控制参数的控制值,控制参数对应于调音命令,将最终特征匹配对应的调音命令,降低硬件设备以及调音师个人对调音的影响,提高调音的准确率以及效率。
[0016]可选地,在本申请实施例中,通过待处理视频,获得人体的关键点特征、表情特征、语音特征以及文本特征,包括:基于待处理视频,获得待处理视频中的人脸图像和音频信息,以及获得待处理视频对应的文本信息;对待处理视频进行人体关键点特征提取,获得关键点特征;对人脸图像进行特征提取,获得表情特征;对音频信息进行特征提取,获得音频特征;对文本信息进行特征提取,获得文本特征。
[0017]在上述的实现过程中,获取到待处理视频之后,在对待处理视频进行调音时,不仅考虑到文本信息,例如歌词和以及音频信息对应的情感色彩,还考虑到人体的肢体动作和表情状态,使调音处理具备“情绪反馈”能力,提高调音的准确性。
[0018]第二方面,本申请实施例还提供了一种视频调音装置,包括:视频获得模块,用于获得包含人体的待处理视频;特征获取模块,用于通过待处理视频,获得人体的关键点特征、表情特征、语音特征以及文本特征;第一特征融合模块,用于通过第一融合模块,将语音
特征以及文本特征进行融合,获得交叉融合特征;第二特征融合模块,用于通过第二融合模块,将关键点特征、表情特征以及交叉融合特征进行融合,获得最终特征;调音模块,用于根据最终特征,对待处理视频进行调音处理。
[0019]第三方面,本申请实施例还提供了一种电子设备,包括:处理器和存储器,存储器存储有处理器可执行的机器可读指令,机器可读指令被处理器执行时执行如上面描述的方法。
[0020]第四方面,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上面描述的方法。
[0021]采用本申请提供视频调音方法、装置、电子设备及存储介质,通过使本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频调音方法,其特征在于,包括:获得包含人体的待处理视频;通过所述待处理视频,获得所述人体的关键点特征、表情特征、语音特征以及文本特征;通过第一融合模块,将所述语音特征以及文本特征进行融合,获得交叉融合特征;通过第二融合模块,将所述关键点特征、所述表情特征以及所述交叉融合特征进行融合,获得最终特征;根据所述最终特征,对所述待处理视频进行调音处理。2.根据权利要求1所述的方法,其特征在于,所述第一融合模块包括多个依次连接的第一单元,其中,每一所述第一单元包括第一交叉注意力模块和第二交叉注意力模块;所述通过第一融合模块,将所述语音特征以及文本特征进行融合,获得交叉融合特征,包括:根据所述语音特征获得语音查询向量、语音键向量和语音值向量;以及根据所述文本特征获得文本查询向量、文本键向量和文本值向量;将所述语音查询向量、所述文本键向量和文本值向量,输入第一个第一单元中的第一交叉注意力模块,获得第一注意力值;将所述文本查询向量、语音键向量和语音值向量,输入第一个第一单元中的第二交叉注意力模块,获得第二注意力值;根据所述第一注意力值和所述第二注意力值,获得所述交叉融合特征。3.根据权利要求2所述的方法,其特征在于,每一所述第一单元还包括第一前馈层和第二前馈层;所述根据所述第一注意力值和所述第二注意力值,获得所述交叉融合特征,包括:将所述第一注意力值输入所述第一前馈层,获得第一中间信息;将所述第二注意力值输入所述第二前馈层,获得第二中间信息;根据所述第一中间信息和第二中间信息,获得所述交叉融合特征。4.根据权利要求1所述的方法,其特征在于,所述交叉融合特征包括多个依次连接的第二单元,每一所述第二单元包括第一多头注意力模块和第二多头注意力模块;所述通过第二融合模块,将所述关键点特征、所述表情特征以及所述交叉融合特征进行融合,获得最终特征,包括:将所述关键点特征和所述表情特征输入第一个第二单元中的第一多头注意力模块,获得图像融合特征;将所述关键点特征和所述交叉融合特征输入第一个第二单元中的第二多头注意力模块,获得多头融合特征;通过所述关键点特征、所述图像融合特征以及所述多头融合特征,获得所述...

【专利技术属性】
技术研发人员:宋丹彭程
申请(专利权)人:电子科技大学中山学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1