一种音频情感驱动下的体育视频精彩事件提取方法技术

技术编号：11214805 阅读：99 留言：0更新日期：2015-03-27 01:48

本发明专利技术涉及一种音频情感的驱动下的体育视频精彩事件检测方法。本发明专利技术方法充分利用视频文件中的音频信息，首先利用两阶段的音频情感感知技术感知出音频中的高层情感语义；在第一阶段中构建了基于分层二叉树支持向量机的音频分类器，从底层音频特征中识别出中层情感类型；第二阶段中利用音频情感映射技术从中层音频类型中映射得到高层情感语义类型，得到高层情感语义后顺利挖掘到音频流中的高层情感语义波动序列；最终在音频情感波动序列的基础上结合静音以及激动情感语义定位出精彩事件。本发明专利技术的方法简单，利用音频情感从语义上驱动体育视频精彩事件的检测，所提取的体育视频精彩事件对于用户而言更加精彩更加有效。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及视频图像处理领域，特别是一种音频情感驱动下的体育视频精彩事件提取方法。
技术介绍
体育视频是众多视频类型中非常重要的一种，深受许多视频观众尤其是体育视频爱好者的喜爱。随着高清数字电视的不断普及与推广，每天不同的电视频道都播着大量的体育视频节目。对于体育视频爱好者而言，把如此多的体育视频节目都完整浏览一遍是不现实的。在这种情况下，视频精彩事件提取方法能够有效地筛选出视频中的精彩片段，为用户节省大量的宝贵时间。因此，开发出一种有效的视频精彩片段提取方法是十分有必要的。视频精彩片段提取技术能够帮助用户快速获取冗长的视频中关键的片段，是视频检索与视频摘要的重要技术支撑。由于视频精彩片段是面向用户的，因此如何充分考虑用户情感变化以及视频多媒体文件中的情感语义变化情况，从情感语义上更好地驱动视频精彩片段提取成为目前研究的重要问题之一。视频多媒体文件一般包含视觉模态数据和伴生的听觉模态数据。视觉模态中的镜头缩放、镜头变换、运动物体等以及听觉模态中的背景音乐、对话独白、鼓掌呐喊等都向视频观看者传达着不同类型不同程度的情感语义信息。因此，两种模态数据都可以用来感知情感语义。目前，已经有较多技术对视觉模态数据的情感语义进行感知，其目标主要是通过分析颜色、特定物体等底层视觉模态信息最终提取出情感语义。例如中国专利CN1991864A 所公开的基于球门的足球视频精彩事件检测方法中将球门的出现看做关键语义事件的开始，从而定位出精彩事件。又如，文献Edwards J, Jackson H J, P...
一种<a href="http://www.xjishu.com/zhuanli/55/201410806622.html" title="一种音频情感驱动下的体育视频精彩事件提取方法原文来自X技术">音频情感驱动下的体育视频精彩事件提取方法</a>

【技术保护点】
一种音频情感驱动下的体育视频精彩事件检测方法，其特征在于：包括如下步骤，步骤S1：提取出源视频文件的音轨并将音轨分割成等长的基本单元；步骤S2：基于两阶段的音频情感感知技术感知出基本单元的中层音频类型以及高层情感语义类型，得到音频情感感知结果，并运用基于规则的平滑技术进行平滑处理，得到音频高层情感语义波动序列；步骤S3：在音频高层情感语义波动序列的基础上利用视频精彩事件定位算法定位出视频精彩事件。

【技术特征摘要】
1. 一种音频情感驱动下的体育视频精彩事件检测方法，其特征在于：包括如下步骤，步骤Sl:提取出源视频文件的音轨并将音轨分割成等长的基本单元；步骤S2 :基于两阶段的音频情感感知技术感知出基本单元的中层音频类型以及高层情感语义类型，得到音频情感感知结果，并运用基于规则的平滑技术进行平滑处理，得到音频高层情感语义波动序列；步骤S3 :在音频高层情感语义波动序列的基础上利用视频精彩事件定位算法定位出视频精彩事件。2. 根据权利要求1所述的一种音频情感驱动下的体育视频精彩事件检测方法，其特征在于：步骤Sl中，所述的基本单元的长度均为Is。3. 根据权利要求1所述的一种音频情感驱动下的体育视频精彩事件检测方法，其特征在于：步骤Sl中，所述的音轨统一格式化为wav格式、单声道且采样频率为22. 05kHz。4. 根据权利要求1所述的一种音频情感驱动下的体育视频精彩事件检测方法，其特征在于：步骤S2中，所述的两阶段的音频情感感知技术按照以下方案实现：步骤S21 :提取并分析音频基本单元的底层音频特征，其中，底层音频特征包括：过零率、短时平均能量、频谱流量、音调、Mel频率倒谱系数、静音比例、低频能量比、高过量比率、带宽；步骤S22 :基于分层二叉树支持向量机构建一个音频分类器，利用该分类器从底层音频特征中识别出中层音频类型，其中，中层音频类型包括：欢呼声、鼓掌声、精彩解说声、其他语音、静音及其他共计六种类型；步骤S23 :通过语义映射技术将中层音频情感类型映射为高层情感语义类型，从而感知出底层音频特征中蕴含的高层情感语义类型，其中，高层情感语义类型包括：激动、平缓共计两种类型。5. 根据权利要求4所述的一种音频情感驱动下的体育视频精彩事件检测方法，其特征在于：步骤S22中，所述的基于分层二叉树支持向量机的...

【专利技术属性】
技术研发人员：余春艳，翁子林，苏晨涵，陈昭炯，
申请(专利权)人：福州大学，
类型：发明
国别省市：福建;35

全部详细技术资料下载我是这个专利的主人