当前位置: 首页 > 专利查询>福州大学专利>正文

一种音频情感驱动下的体育视频精彩事件提取方法技术

技术编号:11214805 阅读:85 留言:0更新日期:2015-03-27 01:48
本发明专利技术涉及一种音频情感的驱动下的体育视频精彩事件检测方法。本发明专利技术方法充分利用视频文件中的音频信息,首先利用两阶段的音频情感感知技术感知出音频中的高层情感语义;在第一阶段中构建了基于分层二叉树支持向量机的音频分类器,从底层音频特征中识别出中层情感类型;第二阶段中利用音频情感映射技术从中层音频类型中映射得到高层情感语义类型,得到高层情感语义后顺利挖掘到音频流中的高层情感语义波动序列;最终在音频情感波动序列的基础上结合静音以及激动情感语义定位出精彩事件。本发明专利技术的方法简单,利用音频情感从语义上驱动体育视频精彩事件的检测,所提取的体育视频精彩事件对于用户而言更加精彩更加有效。

【技术实现步骤摘要】

本专利技术涉及视频图像处理领域,特别是一种音频情感驱动下的体育视频精彩事件 提取方法。
技术介绍
体育视频是众多视频类型中非常重要的一种,深受许多视频观众尤其是体育视频 爱好者的喜爱。随着高清数字电视的不断普及与推广,每天不同的电视频道都播着大量的 体育视频节目。对于体育视频爱好者而言,把如此多的体育视频节目都完整浏览一遍是不 现实的。在这种情况下,视频精彩事件提取方法能够有效地筛选出视频中的精彩片段,为用 户节省大量的宝贵时间。因此,开发出一种有效的视频精彩片段提取方法是十分有必要的。 视频精彩片段提取技术能够帮助用户快速获取冗长的视频中关键的片段,是视频 检索与视频摘要的重要技术支撑。由于视频精彩片段是面向用户的,因此如何充分考虑用 户情感变化以及视频多媒体文件中的情感语义变化情况,从情感语义上更好地驱动视频精 彩片段提取成为目前研究的重要问题之一。 视频多媒体文件一般包含视觉模态数据和伴生的听觉模态数据。视觉模态中的镜 头缩放、镜头变换、运动物体等以及听觉模态中的背景音乐、对话独白、鼓掌呐喊等都向视 频观看者传达着不同类型不同程度的情感语义信息。因此,两种模态数据都可以用来感知 情感语义。 目前,已经有较多技术对视觉模态数据的情感语义进行感知,其目标主要是通过 分析颜色、特定物体等底层视觉模态信息最终提取出情感语义。例如中国专利CN1991864A 所公开的基于球门的足球视频精彩事件检测方法中将球门的出现看做关键语义事件的开 始,从而定位出精彩事件。又如,文献Edwards J, Jackson H J, Pattison P E. Emotion recognition via facial expression and affective prosody in schizophrenia: a methodological review[J]· Clinical psychology review, 2002, 22(6): 789-832·对 视频中人脸部不同位置的肌肉块进行分析,得到当前的表情所属的类别,进而分析出当前 人物的心情以及事件的紧张程度。然而,底层视觉特征与高层情感之间并非强耦合关系,本 质上两者之间存在语义鸿沟。所以,到目前为止,仅依赖底层视觉特征挖掘情感语义信息仍 然是一个非常困难的问题。 听觉模态数据同样蕴含着丰富的情感语义。一方面,听觉模态中情感语义可以表 征视频中事件的精彩程度,类似激动等类型的高层情感,通常伴随着视频精彩片段而出现。 在体育视频中,比赛现场的观众以及解说员的反应往往跟着比赛中事件的发展而不断变 化。精彩事件发生,他们往往较激动,表现为观众的欢呼声、鼓掌声以及解说员的激动解说, 而在正常事件中他们则表现较为平静。另一方面,与视觉模态数据相比,听觉模态数据的底 层物理特征与高层情感语义间的耦合关系比较紧密。例如,体育视频中观众的欢呼声一般 具有较高的短时能量和较低的过零率,而欢呼声代表着观众处于较为激动的状态。这种相 对紧密的耦合关系在一定程度上有助于缩小语义鸿沟。由此可见,音频情感语义可以有效 地辅助体育视频精彩片段的提取。
技术实现思路
本专利技术的目的在于提供,使得 在音频情感语义指导下所提取的体育视频精彩片段更加有效更符合用户的需要。 为实现上述目的,本专利技术的技术方案是:一种音频情感驱动下的体育视频精彩事 件检测方法,包括如下步骤: 步骤Sl :提取出源视频文件的音轨并将音轨分割成等长的基本单元; 步骤S2 :基于两阶段的音频情感感知技术感知出基本单元的中层音频类型以及高层 情感语义类型,得到各基本单元的音频情感感知结果,并运用基于规则的平滑技术进行平 滑处理,得到音频高层情感语义波动序列; 步骤S3 :在音频高层情感语义波动序列的基础上利用视频精彩事件定位算法定位出 视频精彩事件。 在本专利技术的实施例中,步骤Sl中,所述的基本单元的长度均为Is。 在本专利技术的实施例中,步骤SI中,所述的音轨统一格式化为wav格式、单声道,采 样频率为22. 05khz。 在本专利技术的实施例中,步骤S2中,所述的两阶段的音频情感感知技术按照以下方 案实现: 步骤S21 :提取并分析音频基本单元的底层音频特征,其中,底层音频特征包括:过零 率、短时平均能量、频谱流量、音调、Mel频率倒谱系数、静音比例、低频能量比、高过量比率、 带宽; 步骤S22 :基于分层二叉树支持向量机构建一个音频分类器,利用该分类器从底层音 频特征中识别出中层音频类型,其中,中层音频类型包括:欢呼声、鼓掌声、精彩解说声、其 他语音、静音及其他共计六种类型; 步骤S23 :通过语义映射技术将中层音频情感类型映射为高层情感语义类型,从而感 知出底层音频特征中蕴含的高层情感语义类型,其中,高层情感语义类型包括:激动、平缓 共计两种类型。 在本专利技术的实施例中,所述步骤S22中,所述的基于分层二叉树支持向量机的音 频分类器的构建按照以下方案实现:构建一棵最优完全偏二叉树识别出欢呼声、鼓掌声、精 彩解说声、其他语音、静音及其他这六种中层音频类型,且所述完全偏二叉树的构建过程中 取中层音频类型作为叶子结点; 在本专利技术的实施例中,所述的完全偏二叉树构建过程中每一层叶子结点的确定按以下 方案实现: 步骤S221 :设M代表中层音频类型集合,即M={欢呼声,鼓掌声,精彩解说声,其 他语音,静音,其他};对于M中的任一类Mk,计算Mk与其他剩余类1之间的欧式距离 此时,Mk是正类,M#负类;可表示为Σ 其中,dw表示Mk与 1 1迦卜1減美 Mj之间的欧式距离,用Mk与间的中心距离表示; 步骤S222 :计算负类中所有不同类之间的平均欧式距离,也即:本文档来自技高网
...
一种<a href="http://www.xjishu.com/zhuanli/55/201410806622.html" title="一种音频情感驱动下的体育视频精彩事件提取方法原文来自X技术">音频情感驱动下的体育视频精彩事件提取方法</a>

【技术保护点】
一种音频情感驱动下的体育视频精彩事件检测方法,其特征在于:包括如下步骤,步骤S1:提取出源视频文件的音轨并将音轨分割成等长的基本单元;步骤S2:基于两阶段的音频情感感知技术感知出基本单元的中层音频类型以及高层情感语义类型,得到音频情感感知结果,并运用基于规则的平滑技术进行平滑处理,得到音频高层情感语义波动序列;步骤S3:在音频高层情感语义波动序列的基础上利用视频精彩事件定位算法定位出视频精彩事件。

【技术特征摘要】
1. 一种音频情感驱动下的体育视频精彩事件检测方法,其特征在于:包括如下步骤, 步骤Sl:提取出源视频文件的音轨并将音轨分割成等长的基本单元; 步骤S2 :基于两阶段的音频情感感知技术感知出基本单元的中层音频类型以及高层 情感语义类型,得到音频情感感知结果,并运用基于规则的平滑技术进行平滑处理,得到音 频高层情感语义波动序列; 步骤S3 :在音频高层情感语义波动序列的基础上利用视频精彩事件定位算法定位出 视频精彩事件。2. 根据权利要求1所述的一种音频情感驱动下的体育视频精彩事件检测方法,其特征 在于:步骤Sl中,所述的基本单元的长度均为Is。3. 根据权利要求1所述的一种音频情感驱动下的体育视频精彩事件检测方法,其特征 在于:步骤Sl中,所述的音轨统一格式化为wav格式、单声道且采样频率为22. 05kHz。4. 根据权利要求1所述的一种音频情感驱动下的体育视频精彩事件检测方法,其特征 在于:步骤S2中,所述的两阶段的音频情感感知技术按照以下方案实现: 步骤S21 :提取并分析音频基本单元的底层音频特征,其中,底层音频特征包括:过零 率、短时平均能量、频谱流量、音调、Mel频率倒谱系数、静音比例、低频能量比、高过量比率、 带宽; 步骤S22 :基于分层二叉树支持向量机构建一个音频分类器,利用该分类器从底层音 频特征中识别出中层音频类型,其中,中层音频类型包括:欢呼声、鼓掌声、精彩解说声、其 他语音、静音及其他共计六种类型; 步骤S23 :通过语义映射技术将中层音频情感类型映射为高层情感语义类型,从而感 知出底层音频特征中蕴含的高层情感语义类型,其中,高层情感语义类型包括:激动、平缓 共计两种类型。5. 根据权利要求4所述的一种音频情感驱动下的体育视频精彩事件检测方法,其特 征在于:步骤S22中,所述的基于分层二叉树支持向量机的...

【专利技术属性】
技术研发人员:余春艳翁子林苏晨涵陈昭炯
申请(专利权)人:福州大学
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1