一种视音频文件编目标引、元数据存储索引与搜索方法技术

技术编号:8022487 阅读:456 留言:0更新日期:2012-11-29 04:43
本发明专利技术公开了一种视音频文件编目标引、元数据存储索引与搜索方法,它包括以下步骤:为视音频文件构建多维多层面编目标注体系;多维度的编目标注;通过图像分析算法抽取代表帧图片;场景检测,获取高层语义信息并自动标注与定义到编目标注体系中;对多维度编目标注体系构建存储与索引系统;实现快速、精确的查找。本发明专利技术构建了多维度的编目框架,使得可以从多种视角和维度去编目并标引,让资料的查找工作变成选择工作;很大程度上提高了视频高层语音和艺术角度的标记和搜索的速度,在馆藏编目体系之上,为记者、编辑等艺术类用户提供了基于视频内容的、基于艺术观点和视角的查询手段与方法,提高了工作效率。

【技术实现步骤摘要】

本专利技术涉及。
技术介绍
随着目前媒体资料的不断大量涌现,而视音频文件素材自身的描述信息非常有限,通常只包含标题文件信息,因此通常的方法管理这些海量的多媒体内容的方法是按照一定的馆藏元数据规范,如DC元数据(Dublin Core Metadata),进行人工标引编目,这种方法是科学与严谨的,但是它又存在一定的专业性和狭隘性,它要求音视频资料的使用者必须要学习这种“科学严谨”的规范和方法,并牢记这种编目标准的专业术语(行话),才能通过关键词进行搜索与查找。目前,媒体资料的编目标引和检索还停留在键入关键字的方式,无法快速、准确地 记录这些重要信息。搜索时同样无法快速搜索需要的内容,即便找到了媒体资料,仅依靠文字信息对视频的简单说明,搜索结果也无法直观地呈现出媒体工作者所真正关心的相关视音频序列,仍需要通过不停地对视音频浏览查看,最终确定是否为所需资料,检准率和选中率非常低。由此增加了媒资系统应用和推广的难度,最终结果是无法实现媒体资产的价值再现与价值最大化。
技术实现思路
本专利技术的目的在于解决现有技术的不足,提供一种对视音频文件构建多维度的编目框架,使得可以从多种视角和维度去编目并标引,达到资料的检索者、使用者能够运用他们的专业知识查找并发现所需视音频资料,让资料的查找工作变成选择工作的,可实现快速、精确查找的视音频文件编目标引、元数据存储索引与搜索方法。本专利技术的目的是通过以下技术方案来实现的,它包括以下步骤 51:为视音频文件构建一套多维多层面编目标注体系,容纳对视音频文件多层面属性的标注; 52:基于该编目标注体系,进行多维度的编目标注; 53:通过图像分析算法抽取代表帧图片; 54:对代表帧图片进行场景检测,获取高层语义信息,并自动标注与定义到编目标注体系中;55:对多维度编目标注体系构建存储与索引系统,提供对编目信息的随机高效存取; 56:通过多维度编目标注的层面组合与递进检索手段,实现快速、精确的查找。本专利技术所述的进行多维度的编目标注的步骤包括以下子步骤 A、手工标注依次浏览整个视音频文件素材,在浏览过程中逐渐记录其中自包含的信息,并将这些信息文字化;B、自动智能标注对视音频文件进行分析,对场景进行识别和切分,并查找出关键帧图片,对关键帧图片应用图像处理算法获取出图像特征,最后通过人工智能手段对这些场景进行识别并文字化。本专利技术所述的信息存储过程中,将海量的信息表达为JSON格式并存储于NoSQL数据库中。本专利技术所述的音视频文件素材检索过程中,将检索变革为选取操作,通过识别操作者的检索意图,对结果进行聚类组合,为操作者提供直观的选择。本专利技术的有益效果是本专利技术针对视音频媒体资料,实现一种多维度的编目标引框架,以及对此产生的海量非结构化数据的存储和读取方法,基于图像特征信息的自动抽取,并将特征信息填充标注到编目标引框架系统中,提供一套基于标注的组合递进搜索方法;该方法突破了传统的基于馆藏元数据标准对视音频资料进行编目和检索的手段,并在此基础上构建多维度的编目框架,使得可以从馆藏、事件、技术、艺术等多种视角和维度去编目并标引,达到资料的检索者、使用者能够运用他们专业领域的知识、技能和手段查找并 发现他们所需要的视音频资料,让资料的查找工作变成选择工作;很大程度上提高了视频高层语音和艺术角度的标记和搜索的速度,在馆藏编目体系之上,为记者、编辑等艺术类用户提供了基于视频内容的、基于艺术观点和视角的查询手段与方法,提高了工作效率。附图说明图I为本专利技术的操作流程图。具体实施例方式下面结合附图进一步详细描述本专利技术的技术方案,但本专利技术的保护范围不局限于以下所述。如图I所示,,它包括以下步骤 SI :为视音频文件构建一套多维多层面编目标注体系,容纳对视音频文件多层面属性的标注; 定义多维多层面编目的编目框架 该方法运行的基础是设计一套开放的、兼容并包的数据框架--编目体系架构,突破传统馆藏的规范、格式的视音频信息描述局限,提供一种非结构化的信息描述和表达架构;采用非关系型数据模型,实现对视频进行任意的、非对称的、非关系的描述信息定义,因此能够实现如馆藏、编码技术、拍摄技术、拍摄手法、内容语义、环境特征、情感等方面的高层概念和语义的综合标注。对视音频素材应用编目框架 视音频素材自身的描述信息非常有限,通常只包含了标题文件名信息。但实际上,视音频素材本身包含了大量丰富的信息,如果能够充分利用这些信息,对视音频的管理、查找和再利用都会有巨大的帮助。因此,将上一步定义的多维多层面编目的框架应用到视音频素材上,构建一个基础平台,有了这个平台,才有可能通过各种技术手段,将视音频素材自包含的信息获取出来,达到通过一定的搜索引擎进行搜索的能力和目标。S2 :基于该编目标注体系,进行多维度的编目标注;将视音频素材自包含的信息抽取出来,基于第二步中应用的框架,将这些抽取出来的信息附加到音视频上,实现从抽象的自表达信息变成为具体的、可以存储为数据的、可以识别和检索的信息。进一步的,编目标准有两种方案第一种方案是由人来识别这些信息,将这些信息用文字表达出来,方法是依次浏览整个视音频素材,在这个过程中逐渐记录其自包含的信息,并将其文字化。第二种方案采用图像处理手段,自动地获取出来,方法是对视频文件进行分析,对场景进行识别和切分,并查找出关键帧图片,对关键帧图片再应用图像处理算法,获取出图像特征,如颜色、文理、对象、场景等,然后通过人工智能的手段对这些场景进行识别并将其文字化。第一种方案简单直接,但是费时费力,识别的效果好坏完全依赖于识别者的知识和技能;第二种技术难度大,但是一旦突破了技术门槛,它的识别效率、准确度都相比第一种方案高。本方法中,应用第二种方案为主,辅以第一种方案进行适当地调校和优化,达到更佳的效果。S3 :通过图像分析算法抽取代表帧图片; 54:对代表帧图片进行场景检测,获取高层语义信息,并自动标注与定义到编目标注体系中; 55:对多维度编目标注体系构建存储与索引系统,提供对编目信息的随机高效存取; 56:通过多维度编目标注的层面组合与递进检索手段,实现快速、精确的查找。本专利技术可以通过以下途径来实施 灵活的编目框架,可以采用XML技术手段来定义容纳各种信息的的编目框架,在GUI表达上,采用InEdit技术,实现属性的动态拖动编辑与布局。关键帧抽取算法,可以采用图像向量空间距离对比,直方图对比等图像素材,计算场景变换与抽取代表的关键帧。图像处理算法,采用颜色计算、灰度化、二值化、直方图、模式识别等通用的成熟算法,获取图像的基本特征,在此基础上,采用人工智能与神经网络,通过机器学习将图像特征与高层语义结合起来,达到自动识别场景并表达为人能够理解的文字与概念的目的。海量信息存储,采用NoSQL数据库和JSON数据结构,来达到快速、高效的非结构数据存储与读取。海量信息索引,采用Lucene作为引擎框架,采用Hadoop实现海量数据的分布式调度与索引。层面的聚类与组合,在检索技术上,采用全文检索作为入口,然后根据概念对结果进行聚类组合,技术上可以采用划分发、层次法、基于密度的方法、基于网格的方法和基于模型的方法等聚类算法或几种算法的组合来实现层面的聚类与组合。本专利技术包括交换机、编目框架定义模块、手本文档来自技高网...

【技术保护点】
一种视音频文件编目标引、元数据存储索引与搜索方法,其特征在于:它包括以下步骤:S1:为视音频文件构建一套多维多层面编目标注体系,容纳对视音频文件多层面属性的标注;S2:基于该编目标注体系,进行多维度的编目标注;S3:通过图像分析算法抽取代表帧图片;S4:对代表帧图片进行场景检测,获取高层语义信息,并自动标注与定义到编目标注体系中;S5:对多维度编目标注体系构建存储与索引系统,提供对编目信息的随机高效存取;S6:通过多维度编目标注的层面组合与递进检索手段,实现快速、精确的查找。

【技术特征摘要】

【专利技术属性】
技术研发人员:余军李正平张汨余刚韩志红
申请(专利权)人:成都索贝数码科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1