本发明专利技术提供了一种电视广播媒体音视频数据的压缩方法,包括构建音视频组、建立数据头信息、使用神经网络识别空闲片段、对空闲片段进行替换、音视频数据重组以及将数据压缩为MPEG格式等步骤。本方法利用训练好的神经网络算法根据音视频片段的特征信息识别出是否为空闲片段,并将空闲片段替换为便于压缩的纯空闲音视频片段,具有压缩比率高和压缩速度快的优点。
【技术实现步骤摘要】
本专利技术涉及一种电视广播媒体音视频数据的压缩方法,属于多媒体处理领域。
技术介绍
在电视广播媒体的数据处理过程中,为方便音视频文件的传输、充分利用带宽,需要对音视频数据进行压缩。然而音视频数据中常包含一些没有实际意义的空闲片段,所述空闲片段通常是画面为与内容不相干的纯色且声音为低于30分贝的底噪的片段。空闲片段的存在影响了压缩后文件的大小。现有技术中没有提供一种方法能够对音视频中的空闲时间进行识别和充分压缩,音视频数据压缩率低。
技术实现思路
为提高含有空闲时间的音视频数据的压缩率,本专利技术提出了一种电视广播媒体音视频数据的压缩方法。本专利技术技术方案如下:一种电视广播媒体音视频数据的压缩方法,步骤如下:(1)将由音频流和视频流所组成的原始音视频数据文件以时长2s为间隔分段成音视频组,并按时间顺序为音视频组中的音视频片段标定序号;(2)建立数据头信息;(3)使用BP神经网络依次对所述音视频组中的音视频片段进行空闲识别,若识别为空闲片段则将记录该片段的序号并将序号写入数据头信息中;(4)将识别为空闲片段的音视频片段使用时长为2s、画面为纯黑色且声音为无声的音视频片段替换;(5)将经过替换后的音视频组按序号顺序重新组合为音视频数据文件,并将组合后的音视频数据文件压缩为MPEG格式;步骤(3)中所述BP神经网络对音视频片段进行空闲识别的方法步骤为:(3-1)记该音视频片段的音频流码率为x1,视频流码率为x2;将该音视频片段转换为RMVB格式,然后记RMVB格式下该片段的采样率为x3,记RMVB格式下该片段的视频流码率与压缩前的视频流码率之比为x4;计算该音视频片段压缩前的音频流平均分贝值为x5;将x1、x2、x3、x4和x5作为一组输入数据保存;(3-2)将所述输入数据传送至BP神经网络中进行识别;该BP神经网络沿输入至输出方向依次设置有输入层、预处理层、中间层和输出层;所述输入层包括用于输入x1的输入单元一、用于输入x2的输入单元二、用于输入x3的输入单元三、用于输入x4的输入单元四和用于输入x5的输入单元五;所述预处理层包括预处理单元一、预处理单元二、预处理单元三和预处理单元四;所述中间层包括中间单元一、中间单元二和中间单元三;所述输出层包括输出单元;所述输入层、预处理层、中间层和输出层分别为BP神经网络的第1层、第2层、第3层和第4层;所述输入单元一、输入单元二、输入单元三、输入单元四和输入单元五分别为第1层的第1单元、第2单元、第3单元、第4单元和第5单元;所述预处理单元一、预处理单元二、预处理单元三和预处理单元四分别为第2层的第1单元、第2单元、第3单元和第4单元;所述中间单元一、中间单元二和中间单元三分别为第3层的第1单元、第2单元和第3单元;所述输出单元为第4层的第1单元;设第l层第i单元的输出值为偏置项为激活函数为第l层的单元总数为n(l),第l层第j单元的输出值传递至第l+1层第i单元时的权值为则对于第1层:对于第2至4层:设和恒为0;BP神经网络根据输入的数据判断出该音视频片段是否为空闲片段,结果由输出层输出。进一步地:所述预处理层各单元的激活函数为:fi(l)(x)=e2x+8sin(x)3-1e2x+1-x,x≥0e2xsin(x),x<0.]]>进一步地:所述中间层和输出层各单元的激活函数为:fi(l)(x)=max(0,x+0.01ex)。进一步地:BP神经网络的训练方法为:在背景噪声分贝值低于30分贝的环境中录制时长1000s、画面为纯色的空闲音视频数据,并在背景噪声分贝值为40分贝、45分贝、50分贝、60分贝和75分贝的环境中分别录制时长2000s的非空闲音视频数据,所述非空闲音视频数据中的每一帧画面都包括至少4个不同颜色,所述不同颜色是指在RGB颜色标准下红、绿、蓝三个通道的值至少有一个值有所不同;将录制的空闲音视频数据和非空闲音视频数据各自以时长2s为间隔分段成样本片段,将来自空闲音视频数据的样本片段标记为空闲片段,将来自非空闲音视频数据的样本片段标记为非空闲片段;依次对所有样本片段分别进行如下处理:记样本片段的音频流码率为x1,视频流码率为x2;将样本片段转换为RMVB格式,然后记RMVB格式下该片段的采样率为x3,记RMVB格式下该片段的视频流码率与压缩前的视频流码率之比为x4;计算该样本片段压缩前的音频流平均分贝值为x5;将x1、x2、x3、x4和x5作为一组训练样本输入数据保存;使用训练样本输入数据结合各样本片段原所对应的空闲/非空闲标记对BP神经网络训练,训练时保持和恒为0。相对于现有技术,本专利技术具有以下优点:(1)本专利技术利用训练好的神经网络算法根据音视频片段的特征信息识别出是否为空闲片段,并将空闲片段替换为纯黑色且无声的、便于被MPEG编码算法识别和压缩的纯空闲音视频片段,极大地方便了整个音视频文件的压缩,提高了压缩率和压缩速度;(2)本方法利用神经网络对音视频数据进行识别,具有非线性逼近能力强、判断效率高和准确率高的优点;(3)神经网络中引入了预处理层,由于在RMVB格式的压缩过程中能够尽可能地压低采样率和码率,并且压缩后的采样率和视频流码率之间具有一定的相关性,因此预处理层中对部分权数进行了强制设定,并将RMVB格式下该片段的采样率x3和RMVB格式下该片段的视频流码率与压缩前的视频流码率之比x4这两种相关性较明显但又无法完全合并的特征信息进行了非完全性的合并处理,然后再将预处理层的结果输出到中间层中,保证了后续的计算过程中x3和x4始终保有一定的相关性,从而提高了判断结果的准确性,同时也提高了训练的效率;(4)预处理层的激活函数设定充分考虑了x3和x4两个特征信息非完全性合并处理在计算效率、微分求解难度和相关性保留方面的要求,具有求解、训练效率高和判断准确性高的优点。附图说明图1为本专利技术的流程示意图。图2为BP神经网络的结构示意图。具体实施方式下面结合附图详细说明本专利技术的技术方案:如图1,一种电视广播媒体音视频数据的压缩方法,步骤如下:(1)将由音频流和视频流所组成的原始音视频数据文件以时长2s为间隔分段成音视频组,并按时间顺序为音视频组中的音视频片段标定序号;(2)建立数据头信息;(3)使用BP神经网络依次对所述音视频组中的音视频片段进行空闲识别,若识别为空闲片段则将记录该片段的序号并将序号写入数据头信息中;(4)将识别为空闲片段的音视频片段使用时长为2s、画面为纯黑色且声音为无声的音视频片段替换;(5)将经过替换后的音视频组按序号顺序重新组合为音视频数据文件,并将组合后的音视频数据文件压缩为MPEG格式。步骤(3)中所述BP神经网络对音视频片段进行空闲识别的方法步骤为:(3-1)记该音视频片段的音频流码率为x1,视频流码率为x2;将该音视频片段转换为RMVB格式,然后记RMVB格式下该片段的采样率为x3,记RMVB格式下该片段的视频流码率与压缩前的视频流码率之比为x4;计算该音视频片段压缩前的音频流平均分贝值为x5;将x1、x2、x3、x4和x5作为一组输入数据保存;(3-2)将所述输入数据传送至BP神经网络中进行识别;如图2,该BP神经网络沿输入至输出方向依次设置有输入层、预处理层、中间层和输出层;所述输入层本文档来自技高网...
【技术保护点】
一种电视广播媒体音视频数据的压缩方法,其特征在于:步骤如下:(1)将由音频流和视频流所组成的原始音视频数据文件以时长2s为间隔分段成音视频组,并按时间顺序为音视频组中的音视频片段标定序号;(2)建立数据头信息;(3)使用BP神经网络依次对所述音视频组中的音视频片段进行空闲识别,若识别为空闲片段则将记录该片段的序号并将序号写入数据头信息中;(4)将识别为空闲片段的音视频片段使用时长为2s、画面为纯黑色且声音为无声的音视频片段替换;(5)将经过替换后的音视频组按序号顺序重新组合为音视频数据文件,并将组合后的音视频数据文件压缩为MPEG格式;步骤(3)中所述BP神经网络对音视频片段进行空闲识别的方法步骤为:(3‑1)记该音视频片段的音频流码率为x1,视频流码率为x2;将该音视频片段转换为RMVB格式,然后记RMVB格式下该片段的采样率为x3,记RMVB格式下该片段的视频流码率与压缩前的视频流码率之比为x4;计算该音视频片段压缩前的音频流平均分贝值为x5;将x1、x2、x3、x4和x5作为一组输入数据保存;(3‑2)将所述输入数据传送至BP神经网络中进行识别;该BP神经网络沿输入至输出方向依次设置有输入层、预处理层、中间层和输出层;所述输入层包括用于输入x1的输入单元一、用于输入x2的输入单元二、用于输入x3的输入单元三、用于输入x4的输入单元四和用于输入x5的输入单元五;所述预处理层包括预处理单元一、预处理单元二、预处理单元三和预处理单元四;所述中间层包括中间单元一、中间单元二和中间单元三;所述输出层包括输出单元;所述输入层、预处理层、中间层和输出层分别为BP神经网络的第1层、第2层、第3层和第4层;所述输入单元一、输入单元二、输入单元三、输入单元四和输入单元五分别为第1层的第1单元、第2单元、第3单元、第4单元和第5单元;所述预处理单元一、预处理单元二、预处理单元三和预处理单元四分别为第2层的第1单元、第2单元、第3单元和第4单元;所述中间单元一、中间单元二和中间单元三分别为第3层的第1单元、第2单元和第3单元;所述输出单元为第4层的第1单元;设第l层第i单元的输出值为偏置项为激活函数为第l层的单元总数为n(l),第l层第j单元的输出值传递至第l+1层第i单元时的权值为则对于第1层:对于第2至4层:设和恒为0;BP神经网络根据输入的数据判断出该音视频片段是否为空闲片段,结果由输出层输出。...
【技术特征摘要】
1.一种电视广播媒体音视频数据的压缩方法,其特征在于:步骤如下:(1)将由音频流和视频流所组成的原始音视频数据文件以时长2s为间隔分段成音视频组,并按时间顺序为音视频组中的音视频片段标定序号;(2)建立数据头信息;(3)使用BP神经网络依次对所述音视频组中的音视频片段进行空闲识别,若识别为空闲片段则将记录该片段的序号并将序号写入数据头信息中;(4)将识别为空闲片段的音视频片段使用时长为2s、画面为纯黑色且声音为无声的音视频片段替换;(5)将经过替换后的音视频组按序号顺序重新组合为音视频数据文件,并将组合后的音视频数据文件压缩为MPEG格式;步骤(3)中所述BP神经网络对音视频片段进行空闲识别的方法步骤为:(3-1)记该音视频片段的音频流码率为x1,视频流码率为x2;将该音视频片段转换为RMVB格式,然后记RMVB格式下该片段的采样率为x3,记RMVB格式下该片段的视频流码率与压缩前的视频流码率之比为x4;计算该音视频片段压缩前的音频流平均分贝值为x5;将x1、x2、x3、x4和x5作为一组输入数据保存;(3-2)将所述输入数据传送至BP神经网络中进行识别;该BP神经网络沿输入至输出方向依次设置有输入层、预处理层、中间层和输出层;所述输入层包括用于输入x1的输入单元一、用于输入x2的输入单元二、用于输入x3的输入单元三、用于输入x4的输入单元四和用于输入x5的输入单元五;所述预处理层包括预处理单元一、预处理单元二、预处理单元三和预处理单元四;所述中间层包括中间单元一、中间单元二和中间单元三;所述输出层包括输出单元;所述输入层、预处理层、中间层和输出层分别为BP神经网络的第1层、第2层、第3层和第4层;所述输入单元一、输入单元二、输入单元三、输入单元四和输入单元五分别为第1层的第1单元、第2单元、第3单元、第4单元和第5单元;所述预处理单元一、预处理单元二、预处理单元三和预处理单元四分别为第2层的第1单元、第2单元、第3单元和第4单元;所述中间单元一、中间单元二和中间单元三分别为第3层的第1单元、第2...
【专利技术属性】
技术研发人员:张伟方,
申请(专利权)人:浙江华治数聚科技股份有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。