一种数据处理方法、装置、设备及可读存储介质制造方法及图纸

技术编号:26226927 阅读:36 留言:0更新日期:2020-11-04 11:05
本申请实施例公开了一种数据处理方法、装置、设备及可读存储介质,该方法包括:获取目标视频的视频帧数据以及音频帧数据;根据视频帧数据,确定目标视频中目标对象的位置属性信息;目标对象与音频帧数据相关联;获取与位置属性信息相关联的声道编码参数,根据声道编码参数对音频帧数据进行方位增强处理,得到增强音频帧数据。采用本申请,可以提高视频中的音频优化效果。

【技术实现步骤摘要】
一种数据处理方法、装置、设备及可读存储介质
本申请涉及计算机
,尤其涉及一种数据处理方法、装置、设备以及可读存储介质。
技术介绍
随着多媒体技术的发展,视频已成为人们日常生活中获取信息与享受娱乐的主要载体。因为移动设备的普及,当前用户已逐渐依赖于使用移动设备来观看视频,且用户对在移动设备上观看视频时,对视频播放的要求也逐步提高。在播放视频时,如何优化视频播放音频,也相应地成为人们的关注点。在现有技术中,对于优化视频音频的过程,选择一种音频优化方式后,对于不同风格的视频音频,均采用相同的音频优化参数来进行优化,这种方式未考虑到视频场景的具象化。比如,对于安静的场景与动作激烈的场景,目前的优化方式均使用相同的优化参数来进行优化。这样不考虑视频场景,很难保证相同的优化参数,会适应于各种风格的视频场景,从而降低了音频优化效果,影响用户的视频观感。
技术实现思路
本申请实施例提供一种数据处理方法、装置、设备以及可读存储介质,可以提高视频中的音频优化效果。本申请实施例一方面提供了一种数据处理方法,包括:获取目标视频的视频帧数据以及音频帧数据;根据视频帧数据,确定目标视频中目标对象的位置属性信息;目标对象与音频帧数据相关联;获取与位置属性信息相关联的声道编码参数,根据声道编码参数对音频帧数据进行方位增强处理,得到增强音频帧数据。本申请实施例一方面提供了一种数据处理装置,包括:数据获取模块,用于获取目标视频的视频帧数据以及音频帧数据;位置识别模块,用于根据视频帧数据,确定目标视频中目标对象的位置属性信息;目标对象与音频帧数据相关联;音频增强模块,用于获取与位置属性信息相关联的声道编码参数,根据声道编码参数对音频帧数据进行方位增强处理,得到增强音频帧数据。其中,数据获取模块包括:视频解封装单元,用于获取目标视频,将目标视频输入至视频解封装组件,通过视频解封装组件对目标视频进行解封装,得到视频流数据以及音频流数据;数据解码单元,用于在视频解封装组件中,对视频流数据和音频流数据分别进行解码,得到视频帧数据以及音频帧数据。其中,目标对象为处于静止状态的对象;位置识别模块包括:视频帧获取单元,用于将视频帧数据输入至对象识别模型,在对象识别模型中获取N个连续视频帧数据;N个连续视频帧数据是指具有连续时间戳的视频帧数据;每个连续视频帧数据均包含目标对象;N为小于或等于M的正整数,M为视频帧数据的总数量;M为大于1的整数;部位变化识别单元,用于在N个连续视频帧数据中,识别目标对象的发声部位发生变化的视频帧数据,将目标对象的发声部位发生变化的视频帧数据作为变化视频帧数据;第一坐标确定单元,用于确定目标对象在变化视频帧数据中的位置坐标;位置确定单元,用于根据位置坐标确定目标视频中目标对象的位置属性信息。其中,目标对象为处于运动状态的对象;位置识别模块包括:背景图像识别单元,用于将视频帧数据输入至对象识别模型,通过对象识别模型识别视频帧数据中的背景图像;像素值获取单元,用于获取背景图像的背景像素值,获取视频帧数据对应的视频帧像素值;第二坐标确定单元,用于确定背景像素值与视频帧像素值之间的差异像素值,将差异像素值所在的区域,确定为目标对象在视频帧数据中的位置坐标;位置确定单元,用于根据位置坐标确定目标视频中目标对象的位置属性信息。其中,位置确定单元包括:中心位置获取子单元,用于获取视频虚拟镜头的中心位置信息;视频虚拟镜头为模拟拍摄目标对象的虚拟镜头;距离确定子单元,用于根据位置坐标,确定目标对象与中心位置信息之间的景深距离;偏移角度确定子单元,用于确定目标对象与视频虚拟镜头之间的位置偏移角度;位置确定子单元,用于将景深距离与位置偏移角度确定为目标对象的位置属性信息。其中,音频增强模块包括:映射表获取单元,用于获取参数映射表;参数映射表包括至少两个参数映射关系;一个参数映射关系包括一个位置属性信息与一个声道编码参数之间的映射关系;一个位置属性信息包括一个景深距离与一个位置偏移角度;编码参数获取单元,用于在参数映射表中,获取与目标对象的位置属性信息具有映射关系的声道编码参数;音频增强单元,用于根据具有映射关系的声道编码参数对音频帧数据进行方位增强处理,得到增强音频帧数据。其中,具有映射关系的声道编码参数包含第一声道编码参数以及第二声道编码参数;音频增强单元包括:第一卷积子单元,用于根据第一声道编码参数对音频帧数据进行卷积处理,得到第一增强音频帧数据;第二卷积子单元,用于根据第二声道编码参数对音频帧数据进行卷积处理,得到第二增强音频帧数据;第一增强音频确定子单元,用于将第一增强音频帧数据与第二增强音频帧数据组成的音频帧数据,确定为增强音频帧数据。其中,具有映射关系的声道编码参数包含第一声道编码参数以及第二声道编码参数;音频增强单元包括:频域转换子单元,用于将音频帧数据进行频域转换,得到频域音频帧数据;频域转换子单元,还用于将第一声道编码参数与第二声道编码参数分别进行频域转换,得到第一声道频域编码参数以及第二声道频域编码参数;第一运算子单元,用于将第一声道频域编码参数与频域音频帧数据进行相乘处理,得到第一增强频域音频帧数据;第二运算子单元,用于将第二声道频域编码参数与频域音频帧数据进行相乘处理,得到第二增强频域音频帧数据;第二增强音频确定子单元,用于根据第一增强频域音频帧数据与第二增强频域音频帧数据,确定增强音频帧数据。其中,第二增强音频确定子单元,还用于将第一增强频域音频帧数据进行时域转换,得到第一增强音频帧数据;第二增强音频确定子单元,还用于将第二增强频域音频帧数据进行时域转换,得到第二增强音频帧数据;第二增强音频确定子单元,还用于将第一增强音频帧数据与第二增强音频帧数据所组成的音频帧数据,确定为增强音频帧数据。其中,装置还包括:存储模块,用于将视频帧数据与增强音频帧数据关联存储至缓存服务器;音频获取模块,用于响应针对目标视频的视频播放操作,从缓存服务器中获取视频帧数据与增强音频帧数据;数据输出模块,用于输出视频帧数据和增强音频帧数据。其中,数据输出模块包括:视频输出单元,用于输出视频帧数据;音频输出单元,用于将第一增强音频帧数据通过用户终端的第一声道输出通道进行输出;音频输出单元,还用于将第二增强音频帧数据通过用户终端的第二声道输出通道进行输出。其中,位置识别模块包括:类别输出单元,用于将视频帧数据输入至对象识别模型,通过对象识别模型输出目标视频中目标对象的目标对象类别,以及目标对象的位置属性信息;则装置还包括:发声类别确定模块,用于将音频帧数据输入至音频识别模型,通过音频识别模型确定音频帧数本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,包括:/n获取目标视频的视频帧数据以及音频帧数据;/n根据所述视频帧数据,确定所述目标视频中目标对象的位置属性信息;所述目标对象与所述音频帧数据相关联;/n获取与所述位置属性信息相关联的声道编码参数,根据所述声道编码参数对所述音频帧数据进行方位增强处理,得到增强音频帧数据。/n

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:
获取目标视频的视频帧数据以及音频帧数据;
根据所述视频帧数据,确定所述目标视频中目标对象的位置属性信息;所述目标对象与所述音频帧数据相关联;
获取与所述位置属性信息相关联的声道编码参数,根据所述声道编码参数对所述音频帧数据进行方位增强处理,得到增强音频帧数据。


2.根据权利要求1所述的方法,其特征在于,所述获取目标视频的视频帧数据以及音频帧数据,包括:
获取目标视频,将所述目标视频输入至视频解封装组件,通过所述视频解封装组件对所述目标视频进行解封装,得到视频流数据以及音频流数据;
在所述视频解封装组件中,对所述视频流数据和所述音频流数据分别进行解码,得到所述视频帧数据以及所述音频帧数据。


3.根据权利要求1所述的方法,其特征在于,所述目标对象为处于静止状态的对象;
所述根据所述视频帧数据,确定所述目标视频中目标对象的位置属性信息,包括:
将所述视频帧数据输入至对象识别模型,在所述对象识别模型中获取N个连续视频帧数据;所述N个连续视频帧数据是指具有连续时间戳的视频帧数据;每个连续视频帧数据均包含所述目标对象;N为小于或等于M的正整数,M为所述视频帧数据的总数量;M为大于1的整数;
在所述N个连续视频帧数据中,识别所述目标对象的发声部位发生变化的视频帧数据,将所述目标对象的发声部位发生变化的视频帧数据作为变化视频帧数据;
确定所述目标对象在所述变化视频帧数据中的位置坐标;
根据所述位置坐标确定所述目标视频中目标对象的位置属性信息。


4.根据权利要求1所述的方法,其特征在于,所述目标对象为处于运动状态的对象;
所述根据所述视频帧数据,确定所述目标视频中目标对象的位置属性信息,包括:
将所述视频帧数据输入至对象识别模型,通过所述对象识别模型识别所述视频帧数据中的背景图像;
获取所述背景图像的背景像素值,获取所述视频帧数据对应的视频帧像素值;
确定所述背景像素值与所述视频帧像素值之间的差异像素值,将所述差异像素值所在的区域,确定为所述目标对象在所述视频帧数据中的位置坐标;
根据所述位置坐标确定所述目标视频中目标对象的位置属性信息。


5.根据权利要求3或权利要求4所述的方法,其特征在于,所述根据所述位置坐标确定所述目标视频中目标对象的位置属性信息,包括:
获取视频虚拟镜头的中心位置信息;所述视频虚拟镜头为模拟拍摄所述目标对象的虚拟镜头;
根据所述位置坐标,确定所述目标对象与所述中心位置信息之间的景深距离;
确定所述目标对象与所述视频虚拟镜头之间的位置偏移角度;
将所述景深距离与所述位置偏移角度确定为所述目标对象的位置属性信息。


6.根据权利要求5所述的方法,其特征在于,所述获取与所述位置属性信息相关联的声道编码参数,根据所述声道编码参数对所述音频帧数据进行方位增强处理,得到增强音频帧数据,包括:
获取参数映射表;所述参数映射表包括至少两个参数映射关系;一个参数映射关系包括一个位置属性信息与一个声道编码参数之间的映射关系;一个位置属性信息包括一个景深距离与一个位置偏移角度;
在所述参数映射表中,获取与所述目标对象的位置属性信息具有映射关系的声道编码参数;
根据具有映射关系的声道编码参数对所述音频帧数据进行方位增强处理,得到增强音频帧数据。


7.根据权利要求6所述的方法,其特征在于,所述具有映射关系的声道编码参数包含第一声道编码参数以及第二声道编码参数;
所述根据具有映射关系的声道编码参数对所述音频帧数据进行方位增强处理,得到增强音频帧数据,包括:
根据所述第一声道编码参数对所述音频帧数据进行卷积处理,得到第一增强音频帧数据;
根据所述第二声道编码参数对所述音频帧数据进行卷积处理,得到第二增...

【专利技术属性】
技术研发人员:梁启仍
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1