一种基于模糊综合评价的视频情感内容识别方法技术

技术编号:3846916 阅读:412 留言:0更新日期:2012-04-11 18:40
本发明专利技术属于视频内容分析领域,具体涉及一种基于模糊综合评价的视频情感内容识别方法。现有视频情感内容识别方法缺乏考虑情感的模糊属性问题。针对现有方法中存在的不足,本发明专利技术首次将模糊理论中模糊综合评价模型用于视频情感内容识别。与现有的方法相比,本发明专利技术提出的方法充分考虑到视频情感内容的模糊属性,在模糊综合评价模型的基础上,本发明专利技术用一个与情感紧密相关的高层特征向量来表示视频片段内容,在高层上研究视频情感内容识别;进一步,采用人工神经网络(ANN)来模拟人类情感反应系统,识别视频片段诱发观众产生的基本情感类型。实验结果证实了本发明专利技术在视频情感内容识别中的有效性和可行性。

【技术实现步骤摘要】

本专利技术属于视频内容分析领域,特别是。
技术介绍
随着多媒体技术与网络技术的发展,数字视频逐渐成为现代信息系统的主要媒体形式。在海量的视频 数据和快节奏的生活环境中,人们没有时间也没有兴趣将所有的视频文件挨个观看,往往只根据个人的爱 好寻找感兴趣的、令人兴奋或令人恐怖的视频或视频片断,这些特征表明人们需要一个个性化情感视频应 用服务技术。自从Picard教授提出"情感计算"(AffectiveComputing)概念以来,视频情感内容计算被众 多学者认为是实现个性化视频服务技术(Personalization Service Technology)和缩短"语义鸿沟"的一个有效 途径,有助于进一步完善多媒体内容描述接口MPEG-7。目前,视频情感内容分析技术已经成为多媒体内 容分析领域研究的热点问题。现有的技术中,如文献"Affective content detection using HMMs" 所述,视频情感内容分析的一般方法是首先进行视频结构化处 理,包括镜头边界检测、关键帧选择、场景边界检测,以镜头或场景作为视频情感内容分析基本结构单元; 然后在每个镜头内部提取关键帧来表示镜头的视觉内容,从关键帧提取颜色、纹理、形状等低层特征,同 时提取镜头对应的音频片段的低层特征,从而获得镜头或场景低层特征向量用于情感内容分析;最后,利 用分类器或规则推理等方法建立低层特征空间和情感类型空间之间的链接桥梁。这类方法存在的问题是 大部分从低层特征层次来考虑情感内容问题,但是人们根本无法根据低层特征重构镜头或场景诱发的情感 类型,也即是他们之间存在"情感鸿沟",因此,直接建立低层特征和情感空间之间的桥接模型难以解决 "情感鸿沟"问题,识别精确度(介于50%与71%之间)还不能满足人们的要求。另外,在2007年,文献"V3deo affective content representation and recognition using video affective tree and Hidden Maricov Model" 用视频情感树高层特征来表示视频内容,在高层特征空间上使用HMM模型 建立两者之间的映射模型,识别精确度有所提高。但是,由于视频情感内容具有模糊属性,而目前提出的 方法都没有考虑到该属性。
技术实现思路
针对现有视频情感内容分析技术存在的缺陷,本专利技术的目的是提出一种基于模糊综合评价的视频情感 内容识别方法,该方法不仅考虑情感的模糊属性,而且在高层上考虑视频情感内容,能够提高视频情感内 容的识别精确度和识全率,有助于推动个性化视频服务,有助于縮短"语义鸿沟"和改善多媒体内容描述 接口MPEG-7。为实现上述目的,本专利技术包括以下步骤(1) 将RGB颜色空间转变为HSL颜色空间,用符合人类视觉感知的颜色空间来表示视觉内容;(2) 对视频数据库进行镜头分割,以镜头作为基本结构单元,进一步提取镜头低层特征向量;(3) 对镜头边界进行检测以识别场景边界,以场景作为研究单元,进一步提取场景低层特征向量;(4) 改进模糊综合评价模型,计算出能够反映场景情感信息的场景高层特征向量;(5) 利用高层特征向量和人工神经网络识别该场景诱发观众产生的基本情感类型。进一步来说,步骤(2)中对视频数据库进行镜头分割的方法最好为鲁棒性好的算法,低层特征提取模型设为力(0 =巧(《(0),其中,表示第,个镜头,;c,々)表示第,个镜头第!'个低层特征基本数据'y,々)表示第f个镜头第/个低层特征值,z'=1,2,...,m;步骤(3)中应采用有效的和鲁棒性的场景边界识别算法,低层特征提取模型'设为z,.0t卜G,.(;vU3^",…,义U'其中A:表示第A个场景'A、 ;2....."表示第/t个场景所包含的镜头,2,("表示第*个场景的第f个低层特征值,片l,2,…,/m从而场景特征向量为Z =(Jt),Z2 (A),…,;;步骤(4)改进模糊综合评价模型,并计算场景的高层特征向量,具体设为/f-WM(Z),其中JT为"^m维 的矩阵,"表示基本情感类型总数,(,'力位置的元素表示第7个场景特征诱发观众产生第i'个基本情感类型 的综合贡献程度,称『为联合综合评价权重矩阵;及(Z)表示场景低层特征和基本情感之间的模糊关系,(f力 位置的元素表示第f个场景特征诱发观众产生第个基本情感类型的评价程度,称及(Z)为单因素评价矩阵: H中(:V)位置的元素表示在场景诱发观众产生第!'个基本情感类型的前提下,场景被评价为第y个基本情感 类型的综合评价值。显然,如果场景诱发观众产生第个基本情感类型,那么被评价为第i'个基本情感类 型应该是最合理的。因此,计算出的高层特征向量为(/ ,/122,...,/ 11)。步骤(5)采用三层BP人工神经网络识别场景诱发观众产生的基本情感类型,具体如图2所示。本专利技术的效果在于采用本专利技术所描述的,可以取得 更高的识别精确度,也可以保持较高的识别识全率。本专利技术之所以具有如此显著的技术效果,其原因在于-(1) 选择HSL颜色空间模型表示视觉内容,与人的情感感知相一致。(2) 考虑到人的情感描述和情感反应的模糊属性,与人的思维表达相一致。(3) 利用联合综合评价权重矩阵来体现不同低层特征对诱发不同基本情感的不同贡献程度。(4) 采用人工神经网络模拟人的情感反应,是目前模拟人类行为的一种比较有效的工具。附图说明图1基于模糊综合评价的视频情感内容识别方法流程图 图2三层BP神经网络模型具体实施例方式图1是本专利技术中各个步骤的流程示意图。如图1所示, 一种基于模糊综合评价的视频情感内容识别方 法应该包括一下几个步骤1、 颜色空间转变文献"Fuzzy-based algorithm for color recognition oflicense plates"提出HSL颜色空间符合人类的情感感知。因此,本发 明将RGB颜色空间转化为HSL颜色空间。2、 镜头分割及镜头特征提取本专利技术采用一种有效的和鲁棒的镜头分割算法,对视频数据库进行分割,详细的算法描述可以参考文 献"Efficient and robust shot change detection,,。采用关键帧代表镜头内容。关键帧选择可以采用基于聚类的算法,也可以采用简单 的算法,本专利技术采用镜头的第一帧、中间帧和最后一帧作为镜头关键帧。进一步,经常采用的三个低层镜头特征模型如下(1) 亮度特征 F争a),,o+争a),其中^(a)-^像素丄分量,帧亮暗程度),!'表示镜头中的第!'个视频帧,如—first表示镜头中的第一个视频帧,—median表示镜头中的中间视频帧,('=last表示镜头中 的最后一个视频帧。(2) 节奏特征尸2(*) = /2(镜头长度),其中镜头长度可以表示为镜头内所包含的视频帧总数,也可以用镜头播放的时间 长度来表示。(3)颜色能量柳= ^其中尸c五(a):/,(像素i/分量,帧亮度,饱和度,彩色面积,对比度),!'表示镜头中的第!'个视频帧。3、 场景边界识别及场景特征提取本专利技术采用一种模拟人类大脑语义理解方式的场景边界识别算法,对视频数据库中的镜头边界序列进行场景边界识别,详细的算法描述可以参考文献"Computa本文档来自技高网
...

【技术保护点】
一种基于模糊综合评价的视频情感内容识别方法,其特征在于该算法包含一下几个步骤: (1)该方法主要思想:由于视频内容(即视频不同低层特征)对诱发观众产生的基本情感具有模糊属性,本专利技术采用模糊理论中的模糊综合评价模型来表示视频场景内容;进 一步,采用人工神经网络识别场景诱发观众产生的基本情感; (2)定义场景低层特征对诱发基本情感的模糊隶属函数μ↓[ij],并用隶属函数来刻画特征与情感之间的模糊关系。根据前人主观实验分析结果可假设:第j类情感的第i个低层特征数据具有相似 性。于是,对于任意一个场景的第i个低层特征值z,将其模糊隶属函数值μ↓[ij](z)假设为z与对应样本数据集的欧氏距离的函数,即μ↓[ij](z)=P(d(z,M↓[ij])),其中M↓[ij]表示第j类基本情感的第i个特征的样本数据集。一般情况,根据聚类的思想,场景特征值z与某个样本数据集距离越近,则z属于这类数据的可能性越大,故μ↓[ij]与d(z,M↓[ij])近似成反比关系。 (3)根据最优化理论来求模糊隶属函数μ↓[ij]; (4)采用低层特征对基本情感 的模糊隶属函数来求两者之间的模糊关系R(Z); (5)由于不同视频低层特征对评价不同情感的贡献程度不一样,本专利技术引入联合综合评价权重矩阵W来刻画贡献程度,设为W=[w↓[ij]]↓[n×m],其中w↓[ij]表示第j个场景低层特征对诱 发第i类基本情感的贡献值,n是基本情感类型的总数,m是场景低层特征的总数。本专利技术采用层次分析法来求W; (6)计算各类基本情感的相对综合评价值,即H=[h↓[ij]]↓[n×m]=W.R(Z),其中h↓[ij]表示在场景诱发观众产生的 基本情感是第i类的前提下,被评价为第j类基本情感的综合评价值; (7)采用人工神经网络来识别场景观众产生的基本情感。...

【技术特征摘要】

【专利技术属性】
技术研发人员:温向明林新棋孙勇路兆铭何培舟郑伟
申请(专利权)人:北京邮电大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1