多媒体数据深度挖掘方法、存储介质及电子设备技术

技术编号:16873820 阅读:52 留言:0更新日期:2017-12-23 11:45
本发明专利技术提供多媒体数据深度挖掘方法,同时本发明专利技术还涉及存储介质与电子设备。本发明专利技术基于深度学习的分布式海量高维视频数据的检索方法,并针对海量高维数据的快速挖掘问题,进行检测数据和计算负载的分布式部署,同时通过实验数据证明基于深度的分布式海量高维视频数据检索框架的有效性。本发明专利技术采用虚拟节点算法对分布式海量高维视频数据检索负载均衡的优化;针对海量高维视频数据分布式检索的负载均衡问题,深入研究对等网络的动态负载均衡算法和索引结构的数据分布特点,设计出一种基于虚拟节点的动态调度算法来满足深度学习大量运算的需要。

Deep mining method, storage medium and electronic equipment for multimedia data

The invention provides a method for the depth mining of multimedia data, and the invention also relates to a storage medium and an electronic device. The retrieval method of distributed massive high dimensional video data based on the deep learning, and for the rapid mining of massive high-dimensional data, distributed load test data and the calculation of the deployment, and through the experimental data prove that the depth of distributed massive high dimensional video data retrieval framework based on effectiveness. The invention adopts the virtual node algorithm for distributed massive high dimensional video data retrieval load balancing optimization; for the load balancing problem of massive high-dimensional data distributed video retrieval, dynamic load balancing algorithm research of P2P network and the index structure of the data distribution features, design a dynamic scheduling algorithm based on virtual nodes to meet the needs of depth learn a lot of operation.

【技术实现步骤摘要】
多媒体数据深度挖掘方法、存储介质及电子设备
本专利技术涉及数据挖掘,尤其涉及一种多媒体数据深度挖掘方法、存储介质及电子设备。
技术介绍
(1)海量视频数据检索研究现状视频信息检索的研究与视频信息的富有程度息息相关,大致上可以分为两个阶段,即基于文本注记的视频检索和基于内容的视频检索(ContentBawdVideoRetrieval,简称CBVR)。在视频信息尚未极大丰富的第一阶段,视频检索系统利用与视频相关的文本信息采用基于文本检索方法实现。这些文本信息主要有两种:内容无关的元数据和对视频进行人工注记的关键词或自由文本。这种方法虽然简单,但随着视频数据爆炸式的增长,以下一些问题凸显,从而影响了对视频信息的有效使用。首先,一个小时的视频就包含约十万幅图像,人工注解需要大量劳动力,非常耗时,费用也很高。随着数据量的激增,对视频内容的所有属性进行标记存在很大困难,也不现实;其次,由于视频内容非常丰富,有限的关键词无法清楚的描述背景、人物、事件等信息;第三,视觉内容是客观的,但是语义内容却是主观的;不同的观察者或同一观察者在不同条件下对同一视频可能给出不同的描述,常会自相矛盾;第四,文字描述是一种特定的抽象,如果描述的标准改变,则注记也得重新制作才能适合新查询的要求。换句话说,特定的注记只适合于特定的查询要求;最后,由于文本注记一般描述的是整个视频的内容,而用户通常需要检索视频中的一个片段,因此传统的基于文本注记的检索方法无法快速找到所需片段,只能通过时序的视频浏览手段获得,因此非常繁琐、耗时。在意识到这些问题后,学者们开始研究基于视频内容如图像、声音等信息的检索方法,期望通过对视频内容进行自动分析理解并引入少量的人机交互达到语义级的检索需求,视频检索进入了第二个阶段即基于内容的视频检索。基于内容的视频检索指的是对视频资料中蕴涵的从底层到高层的数据进行处理、分析和理解来获取视频所描述的内容并进行检索的过程。其核心是提取视频内容的三个关键部分,即视频数据的结构信息、底层视觉和听觉信息以及高层语义信息,并对这些信息进行分析和综合处理,建立通用的模型。基于内容的视频检索能够克服第一阶段视频检索系统的大部分缺点,通过机器学习的方法对颜色、纹理、形状、空间关系、运动信息等底层信息与事件、情节等高层语义之间关系的学习能够客观的对视频内容进行描述与建模,而视频结构化能够针对视频中的局部片段而不是整个视频进行检索。由于模式识别、机器学习的应用,在检索过程中不需要对所有的视频进行标注,通常仅标注部分样例就可以学习出泛化能力较强的模型。基于内容的视频检索是视频信息有效利用、共享的前提与基础,在许多领域有着广泛的应用前景,如数字图书馆、远程教育、广播电视、出版、影视娱乐、安全监控等,从上世纪90年代开始,越来越多的高校、科研机构以及公司开始致力于多媒体信息检索方而的研究,而基于内容的视频检索在学术研究和商业应用方面也都已经取得了一定的成果。很多大学或研究所等研究机构己经开发了许多原型系统,国际上比较著名的有Columbia大学的VisualSEEK/WebSEEK、VideoQ,UIUC开发的Mars,CMU大学的Informedia系统等,国内有浙江大学的Webscope-CBVR、清华大学的TVFind等,在商业仁基于内容的视频检索也被业界广泛认同,许多商用系统已经投入应用,如IBM公司的QBIC、CueVideo系统,Virage公司的Virage系统、Excalibur公司的Excalibur系统等。然而,基于内容的视频检索离真正的实用化还有较大的距离,仍然有许多技术问题需要解决,目前一些大型的通用视频搜索引擎如Google、Baidu、Bing等尚未真正支持基于内容的搜索。从2001年开始,美国NIST(NationalInstituteofStandardsandTechnology)每年都主办针对大规模视频检索的国际评测会议TRC-Vid,它通过提供统一的测试数据和评估标准,鼓励各个研究机构在大规模视频信息分析和检索领域展开开拓性的研究。(2)深度学习研究现状:自从深度学习模型的训练方法被提出,深度学习的发展在最近几年突飞猛进,不仅在理论验证方面得到了成功,而且在实际应用方面,也得到了巨大并且迅速的推广和发展。在理论模型方面,主要分成了三种类型结构,其中包括生成性深度结构、区分性深度结构和混合型结构。深度置信网(DBN)和卷积神经网络是其中两种重要的深层架构形态,而深度置信网主要包括RBM(RestrictedBoltzmannMachine)或者自动编码器(AutoEncoder)两种结构所组成。在实际应用方面,主要在语言识别和信号处理、物体识别、语言识别、自然语言处理和多任务学习方面得到了成功的应用。在语言识别和信号处理方面:语音识别是神经网络最早的应用之一,特别是卷积神经网络。最近神经网络、深度学习的研究复兴都对语言识别领域产生了巨大的冲击,研究人员在此基础上将这些算法成功地大规模应用到实际产品中。例如,微软在2012年发布了他们的MAVIS(微软音频视频搜索服务)的一个新版本,其就是基于深度学习。该系统成功地将单词错误率在四个主要基准库上比之前的模型降低了30%(在RT03S上从27.4%错误率下降到18.5%),而之前最好的模型是基于高斯混合的语音模型,当然也是使用相同的训练数据(309个小时的语音样本)。另一方面,有些研究成果在稍少一点的一个大量词汇基准库上(40个小时的语音样本,Bing手机商务搜索数据库)也得到了一定的错误率改善,大约在16%至23%之间。基于回归神经网络的特征学习算法同时也应用到音乐识别领域上,在四个不同的基准数据库上分别降低了5%至30%左右的错误率。在物体识别方面:2006年深度学习的开始阶段就聚焦于MNIST手写体的图像分类问题,并在此数据集上打破了SVM保持的低错误率(1.4%)。而最新的分类错误率记录仍是由深度学习算法所保持:其中包括Ciresan使用卷积神经网络保持的0.27%错误率,和Rifai使用无先验知识的MNIST版本保持的0.81%错误率。在最近几年,深度学习的焦点已经从手写数字体的研究转移到自然图像的研究应用,最近最大的进展莫过于Krizhevsky在ImageNet数据集上从26.1%的错误率降低到15.3%的错误率。除了语音识别,在其他自然语言处理的应用方面也有很多不同的特征学习算法。Hinton在1986年提出了分布式表示符号数据,并且在2003年进一步应用于上下文统计语言模型,它们都是基于对每个单词学习其分布表示,称作“单词嵌入”。2011年,Collobert等人使用卷积结构结合上述的思想,开发了SENNA系统,该系统在其语言模型中的各项任务中共享了其特征表示,其中包括语言标记,程序分块,命名实体识别,语义功能标识和句法分析等任务。SENNA方法或许比不上这些任务最好的分类结果,但是它比传统的预测算法速度大大提高同时只需要3500行C代码来执行它的分类预测。在2011年,Mikolov等人通过在隐含层中添加回归反馈来提高神经网络语言模型的性能,使其无论在复杂度上还是在单词错误率上都比得上最好的平滑n-gram模型,其中在WallStr本文档来自技高网...
多媒体数据深度挖掘方法、存储介质及电子设备

【技术保护点】
多媒体数据深度挖掘方法,其特征在于,包括:步骤1,获取多媒体视频数据库中的视频,利用各视频中相邻帧的色彩信息特征,将各视频分割为若干连续的子视频片段;步骤2,将所述的连续的子视频片段分配至独立的数据节点,并提取所述子视频片段的关键帧;步骤3,针对视频数据库中的视频,通过构建受限玻尔兹曼机模型,提取所述关键帧的视频特征;步骤4,将子视频片段、关键帧和视频特征作为输入,对AlexNet模型进行训练,得到多模态卷积神经网络;步骤5,针对待挖掘的视频,采用步骤1至步骤3的方法进行关键帧提取和视频特征提取,并将子视频片段,以及提取到的关键帧和视频特征作为输入,利用步骤4的多模态卷积神经网络进行相似性判断,得到挖掘结果。

【技术特征摘要】
1.多媒体数据深度挖掘方法,其特征在于,包括:步骤1,获取多媒体视频数据库中的视频,利用各视频中相邻帧的色彩信息特征,将各视频分割为若干连续的子视频片段;步骤2,将所述的连续的子视频片段分配至独立的数据节点,并提取所述子视频片段的关键帧;步骤3,针对视频数据库中的视频,通过构建受限玻尔兹曼机模型,提取所述关键帧的视频特征;步骤4,将子视频片段、关键帧和视频特征作为输入,对AlexNet模型进行训练,得到多模态卷积神经网络;步骤5,针对待挖掘的视频,采用步骤1至步骤3的方法进行关键帧提取和视频特征提取,并将子视频片段,以及提取到的关键帧和视频特征作为输入,利用步骤4的多模态卷积神经网络进行相似性判断,得到挖掘结果。2.如权利要求1所述的多媒体数据深度挖掘方法,其特征在于,步骤1的具体操作如下:步骤a,将视频的颜色空间转换为HIS颜色空间;步骤b,将视频中的任意一帧分割为若干大小相同的子区域;步骤c,计算每个子区域中,所有像素点的色调之和、亮度之和、以及饱和度之和;步骤d,计算每个子区域的色调平均值、亮度平均值、以及饱和度平均值;步骤e,计算每帧视频中,所有子区域的色调平均值、亮度平均值、以及饱和度平均值之和,记为CHSI;步骤f,计算相邻两帧的CHSI差值,若差值小于第一阈值,则将两帧划分至同一个子...

【专利技术属性】
技术研发人员:郭继舜
申请(专利权)人:大圣科技股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1