视频资源数据源的处理方法及其系统技术方案

技术编号:9899995 阅读:207 留言:0更新日期:2014-04-10 10:44
本发明专利技术公开了一种视频资源数据源的处理方法及其系统,其中该方法包括:获取多种维度的视频资源数据的数据源;将所述数据源转换为按照预定数据结构建立的数据模型,并将所述数据模型存储为物化视图。通过本发明专利技术在建立倒排索引时只需面对统一的数据模型的物化视图,在执行查询时可以快速地得到处理结果,从而大大节约了建立倒排索引的时间。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种视频资源数据源的处理方法及其系统,其中该方法包括:获取多种维度的视频资源数据的数据源;将所述数据源转换为按照预定数据结构建立的数据模型,并将所述数据模型存储为物化视图。通过本专利技术在建立倒排索引时只需面对统一的数据模型的物化视图,在执行查询时可以快速地得到处理结果,从而大大节约了建立倒排索引的时间。【专利说明】视频资源数据源的处理方法及其系统
本专利技术涉及信息检索技术,尤其涉及一种视频资源数据源的处理方法及其系统。
技术介绍
随着科技的发展,越来越多的用户通过互联网搜索并观看各种视频。由于互联网提供的视频信息十分丰富,并具有不断变化及更新的特点,随之产生了多种搜索引擎进行视频信息检索。在关系数据库系统中,索引是检索数据最有效率的方式。但对于全网的视频搜索引擎,并不能满足其特殊要求。由于搜索引擎面对的是全网的海量视频数据,例如乐视网等大型的视频网站搜索引擎索引都是亿级甚至几千亿的网页数量,面对如此海量的视频数据,使得数据库系统很难有效的管理。倒排索引是搜索引擎极为重要的索引方式,通过倒排索引解决海量的视频资源的存储与检索。在实际中,搜索引擎通常要面对不同的视频资源的数据源,这些数据源类型多样、来源复杂,如果不对这些各种维度的数据源进行处理则导致建立的倒排索引查询效率低下,不能够满足搜索引擎的需求。综上所述可知,现有技术中对视频资源的数据源的处理不符合倒排索引需求的技术方案,因此有必要提出改进的技术手段解决上述问题。
技术实现思路
本专利技术的主要目的在于提供一种视频资源数据源的处理方法及其系统,以解决现有技术存在的对视频资源的数据源的处理不符合倒排索引需求的问题。为了解决上述问题,根据本专利技术的一方面,提供了一种视频资源数据源的处理方法,其包括:获取多种维度的视频资源数据的数据源;将所述数据源转换为按照预定数据结构建立的数据模型,并将所述数据模型存储为物化视图。其中,所述数据模型包括:基础数据,其进一步包括以下信息:视频标题、视频简介、演员、导演。其中,所述数据模型还包括:扩展数据,其进一步包括以下信息:平台属性、码流信息。其中,所述将所述数据源转换为按照预定数据结构建立的数据模型的步骤,包括:对于所述数据模型的基础数据,其采用定长结构,并将所述基础数据按照横表的方式进行存储;对于所述数据模型的扩展数据,其采用不定长结构,并将所述扩展数据按照列表的方式进行存储。其中,所述获取多种维度的视频资源数据的数据源包括:按照视频资源数据的来源划分所述数据源包括:文件系统、数据库;按照视频资源应用的终端渠道划分所述数据源包括:电视终端、移动终端;按照视频资源的文件格式划分所述数据源包括:可扩展标记语言文件、文本文件。根据本专利技术的另一方面,还提供了一种视频资源数据源的处理系统,其包括:获取模块,用于获取多种维度的视频资源数据的数据源;处理模块,用于将所述数据源转换为按照预定数据结构建立的数据模型,并将所述数据模型存储为物化视图。其中,所述数据模型包括:基础数据,其进一步包括以下信息:视频标题、视频简介、演员、导演。其中,所述数据模型还包括:扩展数据,其进一步包括以下信息:平台属性、码流信息。其中,所述处理模块进一步包括:第一处理模块,用于对于所述数据模型的基础数据,其采用定长结构,并将所述基础数据按照横表的方式进行存储;第二处理模块,用于对于所述数据模型的扩展数据,其采用不定长结构,并将所述扩展数据按照列表的方式进行存储。其中,所述获取多种维度的视频资源数据的数据源包括:按照视频资源数据的来源划分所述数据源包括:文件系统、数据库;按照视频资源应用的终端渠道划分所述数据源包括:电视终端、移动终端;按照视频资源的文件格式划分所述数据源包括:可扩展标记语言文件、文本文件。根据本专利技术的技术方案,通过将多种维度的视频资源数据的数据源转换为预定数据结构的数据模型,并将所述数据模型存储为物化视图,在建立倒排索引时只需面对统一的数据模型的物化视图,在执行查询时可以快速地得到处理结果,从而大大节约了建立倒排索引的时间。【专利附图】【附图说明】此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的视频资源数据源的处理方法的流程图;图2是根据本专利技术实施例的视频资源数据源的处理系统的结构框图。【具体实施方式】为使本专利技术的目的、技术方案和优点更加清楚,以下结合附图及具体实施例,对本专利技术作进一步地详细说明。根据本专利技术的实施例,提供了一种视频资源数据源的处理方法。图1是根据本专利技术实施例的视频资源数据源的处理方法的流程图,如图1所示,该方法包括:步骤S102,获取多种维度的视频资源数据的数据源。上述的数据源是指原始数据,当初次得到或接收到视频资源数据的数据源时,由于未经过处理,搜索引擎面对的是带有业务逻辑的数据源,这种带有业务逻辑的数据源不能够直接建立倒排索引的数据结构。在实际应用中,获取到的视频资源数据的数据源是多种维度的,可以有多种划分方式,例如:按照视频资源数据的来源划分所述数据源包括:文件系统或数据库(DB);按照视频资源应用的终端渠道划分所述数据源包括:电视终端或移动终端;按照视频资源的文件格式划分所述数据源包括:可扩展标记语言(XML)文件、或文本文件(TXT)。当然,数据源的维度不仅限于上述划分方式,本专利技术对于其他维度的划分方式不进行限定。步骤S104,将所述数据源转换为按照预定数据结构建立的数据模型,并将所述数据模型存储为物化视图。物化视图实际上就是物理表,数据模型是基于数据库的,存储为物化视图即把数据模型以物理表的形式进行存储,便于后续过程中搜索引擎查询的时候调用。不同维度的数据源具有各自的特点,为了屏蔽多数据源的复杂的业务逻辑,需要将多维度的数据源转换为统一结构的数据模型。预定数据结构的数据模型包括基础数据和扩展数据。其中,基础数据是搜索最关心的基本的维度数据,是展现视频(影视剧)所必不可少的数据。例如包括:视频标题、视频简介、演员(主演)、导演等信息。一般情况下,视频数据都带有离线的应用逻辑属性,例如扩展数据包括平台属性;另外,还有些视频数据带有自定义的功能属性,例如扩展数据包括平台价格、码流信息等。需要说明,上述举例仅为示例性说明,并不用于限制本专利技术。数据模型是基于数据库的,将基础数据和扩展数据按照预定的数据结构存储起来。具体地,基础数据是定长的,基础数据按照水平扩展,每一个数据逐项存储;而扩展数据是不定长的,扩展数据以列的方式存储。这种基础数据采用横表方式、扩展数据以列表方式的存储方式具有较高的灵活性。然后,将预定数据结构的数据模型存储为物化视图,在之后建立倒排索引时只需面对统一的数据模型的物化视图,通过物化视图在执行查询时,就可以避免进行耗时的操作,从而快速地得到处理结果,从而在建立倒排索引时大大节约了时间,例如面对上亿的数据只需花费1-2分钟就完成快速地处理完成。在实际应用中,可将预定数据结构的数据模型存储的物化视图作为基本视图,根据该基本视图可建立与数据结构相关的多视图,并根据多个视图建立倒排索引。从而在执行查询时,通过查询的扩展参数执行查询,从而快速地得到处理本文档来自技高网...

【技术保护点】
一种视频资源数据源的处理方法,其特征在于,包括:获取多种维度的视频资源数据的数据源;将所述数据源转换为按照预定数据结构建立的数据模型,并将所述数据模型存储为物化视图。

【技术特征摘要】

【专利技术属性】
技术研发人员:曹坤波郑磊
申请(专利权)人:乐视网信息技术北京股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1