本发明专利技术涉及视频处理技术领域,具体公开了一种基于音频特征的短视频预告片自动生成方法及系统,其中方法包括如下步骤:解码步骤:将原视频拆分为多个片段,并进行解码;切分步骤:解码后根据每帧在HSV色彩空间中的距离切分镜头,并计算每帧的HLS特征;特征提取步骤:使用目标检测器每隔预设时间提取一次目标特征;音频特征提取步骤:提取短期音频特征和中期音频特征;得分预测步骤:统计每个镜头的最终精彩程度预测得分;输出步骤:选出得分最高的若干个镜头,按时间排序镜头,合并相邻镜头,返回起止时间;根据镜头的起止时间以及设置的时长自动截取并拼接成对应的短视频预告片。采用本发明专利技术的技术方案能够保留视频中精彩镜头。明的技术方案能够保留视频中精彩镜头。明的技术方案能够保留视频中精彩镜头。
【技术实现步骤摘要】
一种基于音频特征的短视频预告片自动生成方法及系统
[0001]本专利技术涉及视频处理
,特别涉及一种基于音频特征的短视频预告片自动生成方法及系统。
技术介绍
[0002]自上世纪以来,人类积攒了海量高质量影视资源,涵盖了电影、综艺节目、电视剧等影视类型。随着影视技术和设备的发展,已有大量视频的时长接近甚至超过一小时。近年来,随着生活节奏的加快,用户更喜欢把时间花在更紧凑的短视频上,短视频分享平台也越来越受欢迎。互联网上大批创作者也开始使用短视频为电影、电视剧等时长较长的影视资源引流。
[0003]短视频虽然短小,但内容完整,且包含大量精彩内容,因而短视频的制作需要耗费大量精力。现阶段的将影视资源制作成短视频主要采用人工剪辑的方式,然而影视资源时长可能达数小时,并且其中包含了大量平凡无趣的镜头,这无疑占用了创作者的大量时间用于筛选片段。随着人工智能技术的发展,计算机理解并自动编辑视频成为了可能,这便催生了短视频自动生成的需求,但是如何去掉大量平凡无趣的镜头,只保留精彩的,对大部分用户具有吸引力镜头成了需要解决的问题。
[0004]为此,需要一种能够保留视频中精彩镜头的基于音频特征的短视频预告片自动生成方法及系统。
技术实现思路
[0005]本专利技术提供了一种基于音频特征的短视频预告片自动生成方法,能够保留视频中精彩镜头。
[0006]为了解决上述技术问题,本申请提供如下技术方案:
[0007]一种基于音频特征的短视频预告片自动生成方法,包括如下步骤:
[0008]解码步骤:将原视频拆分为多个片段,并进行解码;
[0009]切分步骤:解码后根据每帧在HSV色彩空间中的距离切分镜头,并计算每帧的HLS特征;
[0010]特征提取步骤:使用目标检测器每隔预设时间提取一次目标特征;
[0011]音频特征提取步骤:提取短期音频特征和中期音频特征;
[0012]得分预测步骤:对短期音频特征求密度得到短期音频的精彩程度预测得分;根据HLS特征和目标特征进行投票得到视频的精彩程度得分;根据中期音频特征进行投票得到中期音频的精彩程度预测得分;统计每个镜头的三类得分作为镜头的最终精彩程度预测得分;
[0013]输出步骤:选出得分最高的若干个镜头,按时间排序镜头,合并相邻镜头,返回起止时间;根据镜头的起止时间以及设置的时长自动截取并拼接成对应的短视频预告片。
[0014]基础方案原理及有益效果如下:
[0015]本方案中,将原视频拆分为多个片段,进行解码,可以降低处理器的压力。由于镜头与镜头之间的帧在HSV色彩空间中的距离存在差异,由此可以进行不同镜头的切分。再获取目标特征、短期音频特征和中期音频特征,预测其精彩程度的得分,得到每个镜头精彩程度预测得分。最后,按照精彩程度由高到低的顺序,就可以自动截取并拼接成对应的短视频预告片。
[0016]综上,本方案以原视频中音频特征为基础,识别其中的精彩程度得分,再保留精彩程度得分高的镜头,也就能够保留视频中的精彩镜头,从而输出简短、有吸引力的短视频预告片,还能节省制作预告片的时间成本,直接将精彩镜头拼凑成短视频预告片,也能在一定程度上起到引流的作用。
[0017]进一步,所述得分预测步骤中,使用滑动汉明窗口对短期音频特征求密度得到短期音频的精彩程度预测得分;
[0018]使用若干个异常检测器根据HLS特征和目标特征进行投票得到视频的精彩程度得分;
[0019]使用若干个异常检测器根据中期音频特征进行投票得到中期音频的精彩程度预测得分;
[0020]统计每个镜头的三类得分作为镜头的最终精彩程度预测得分。
[0021]进一步,所述输出步骤前,还包括边界确定步骤:使用汉明窗平滑短期音频的能量特征波形,找到镜头边界邻域内能量波形的极小值点,若该极小值点和镜头边界相距预设范围内,则将该极小值点作为新的镜头边界。
[0022]极小值点和镜头边界相距预设范围,表明音频存在不自然截断的情况,本优选方案可以避免音频的不自然截断对视听造成的不良影响。
[0023]进一步,所述切分步骤切分镜头时,若连续两帧在HSV色彩空间中三通道差值的平均值大于以下值:
[0024][0025]则认为两帧不连续,被判定为不同的镜头;反之,若平均值不大于该值,或式中x小于fps,则判定两帧处于同一镜头;式中,x为该镜头中当前帧的序号,fps为帧率。
[0026]通过HSV色彩空间中三通道差值的方式,可以找出不同镜头在数值上的区别,进而对镜头进行准确切分。
[0027]进一步,所述短期音频特征包括短时平均过零率、短时能量、能量熵、频谱中心、频谱延展度、谱熵、频谱通量、频谱滚降点、13项梅尔频率倒谱系数、12级音阶、彩度向量标准方差;中期音频特征是短期音频特征的时序均值。
[0028]进一步,还包括缺失检测步骤:检测音频缺失的片段并标记。
[0029]进一步,所述输出步骤前还包括筛选步骤,筛选掉音频缺失的片段,按时间截掉片头片尾。
[0030]避免输出的短视频预告片中混入音频的缺失片段对视听造成不良影响。
[0031]进一步,所述解码步骤中,每个片段交由一个进程进行解码。
[0032]相比与单独的进程进行解码,可以提高解码的速度。
[0033]基于音频特征的短视频预告片自动生成系统,在生成短视频预告片时,使用上述基于音频特征的短视频预告片自动生成方法。
附图说明
[0034]图1为实施例一一种基于音频特征的短视频预告片自动生成方法的流程图。
具体实施方式
[0035]下面通过具体实施方式进一步详细说明:
[0036]实施例一
[0037]如图1所示,本实施例的一种基于音频特征的短视频预告片自动生成方法,包括如下步骤:
[0038]S1、将原视频拆分为多个片段,每个片段交由一个进程进行解码;
[0039]S2、解码后根据每帧在HSV色彩空间中的距离切分镜头,并计算每帧的HLS特征;
[0040]具体的,若连续两帧在HSV色彩空间中三通道差值的平均值大于以下值:
[0041][0042](其中x为该镜头中当前帧的序号,fps为帧率),则认为两帧不连续,被判定为不同的镜头;反之,若平均值不大于该值,或式中x小于fps(即保证镜头的持续时长不小于1s),则判定两帧处于同一镜头。
[0043]每相邻两帧的色度(Hue)、亮度(Lightness)、饱和度(Saturation)三个颜色通道的差值在此称为HLS特征,可用于推断剧情节奏。
[0044]S3、使用目标检测器每隔预设时间提取一次目标特征;本实施例中,预设时间为1秒,目标特征指使用目标检测器对一帧画面检测出的六项特征,即人数、非人物体数、人与非人物体总数、人占区域大小、非人物体占区域大小、人和非人物体占区域总大小。目标检测器采用YOLOv5。
[0045]S4、提取短期音频特征和中本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于音频特征的短视频预告片自动生成方法,其特征在于,包括如下步骤:解码步骤:将原视频拆分为多个片段,并进行解码;切分步骤:解码后根据每帧在HSV色彩空间中的距离切分镜头,并计算每帧的HLS特征;特征提取步骤:使用目标检测器每隔预设时间提取一次目标特征;音频特征提取步骤:提取短期音频特征和中期音频特征;得分预测步骤:对短期音频特征求密度得到短期音频的精彩程度预测得分;根据HLS特征和目标特征进行投票得到视频的精彩程度得分;根据中期音频特征进行投票得到中期音频的精彩程度预测得分;统计每个镜头的三类得分作为镜头的最终精彩程度预测得分;输出步骤:选出得分最高的若干个镜头,按时间排序镜头,合并相邻镜头,返回起止时间;根据镜头的起止时间以及设置的时长自动截取并拼接成对应的短视频预告片。2.根据权利要求1所述的基于音频特征的短视频预告片自动生成方法,其特征在于:所述得分预测步骤中,使用滑动汉明窗口对短期音频特征求密度得到短期音频的精彩程度预测得分;使用若干个异常检测器根据HLS特征和目标特征进行投票得到视频的精彩程度得分;使用若干个异常检测器根据中期音频特征进行投票得到中期音频的精彩程度预测得分;统计每个镜头的三类得分作为镜头的最终精彩程度预测得分。3.根据权利要求1所述的基于音频特征的短视频预告片自动生成方法,其特征在于:所述输出步骤前,还包括边界确定步骤:使用汉明窗平滑短期音频的能量特征波形,找到镜头边界邻域内能量波形的极小值点,若...
【专利技术属性】
技术研发人员:王晶,
申请(专利权)人:空间视创重庆科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。