本发明专利技术公开提供一种倒排索引存储方法及其系统,其中该方法包括:建立视频文件的倒排索引文件;提供多个索引服务器,将所述倒排索引文件同步存储至多个索引服务器,并根据终端设备的访问渠道分别设置对应的索引服务器提供索引服务。通过本发明专利技术能够根据终端设备的访问渠道设置对应的索引服务器检索得到倒排索引信息,从而提高了访问请求的效率和速度。
【技术实现步骤摘要】
【专利摘要】本专利技术公开提供一种倒排索引存储方法及其系统,其中该方法包括:建立视频文件的倒排索引文件;提供多个索引服务器,将所述倒排索引文件同步存储至多个索引服务器,并根据终端设备的访问渠道分别设置对应的索引服务器提供索引服务。通过本专利技术能够根据终端设备的访问渠道设置对应的索引服务器检索得到倒排索引信息,从而提高了访问请求的效率和速度。【专利说明】倒排索引存储方法及其系统
本专利技术涉及信息检索技术,尤其涉及一种视频资源数据的倒排索引存储方法及其系统。
技术介绍
随着科技的发展,越来越多的用户通过互联网搜索并观看各种视频。由于互联网提供的视频信息十分丰富,并具有不断变化及更新的特点,随之产生了多种搜索引擎进行视频信息检索。目前的搜索引擎一般使用两种技术实现信息检索:一是使用网站分类技术,即把网站进行树状归类,登陆的网站属于至少一个类别,对每个站点都有简略的描述。二是使用全文检索技术,全文检索技术处理的对象是文本,它能够对大量文档(例如互联网上的大量网页)建立由字(词)到文档的倒排索引,在此基础上,当用户使用关键词来对文档进行查询时,系统将给用户返回含有该关键词的文档。建立这种倒排索引的好处是不必为每个用户查询都检查一遍所有的文档。但是,在实际应用中终端设备通过多种渠道访问互联网,在提供索引服务时,如果不考虑终端设备的访问渠道、对所有的终端设备提供一致的索引服务,则会降低检索效率,因此有必要提出改进的技术方案解决上述问题。
技术实现思路
本专利技术的主要目的在于提供一种倒排索引存储方法及其系统,以解决现有技术存在的不区分终端设备的访问渠道、对访问的所有终端设备提供一致的索引服务导致降低检索效率的问题。为了解决上述问题,根据本专利技术的一方面,提供了一种倒排索引存储方法,其包括:建立视频文件的倒排索引文件;提供多个索引服务器,将所述倒排索引文件同步存储至多个索引服务器,并根据终端设备的访问渠道分别设置对应的索引服务器提供索引服务。其中,所述根据终端设备的访问渠道分别设置对应的索引服务器提供索引服务,包括:根据终端设备的类型分别设置对应的索引服务器提供索引服务;或者,根据终端设备使用的运营商平台分别设置对应的索引服务器提供索引服务。其中,所述方法还包括:接收倒排索引文件的更新文件,根据终端设备的访问渠道使用预先设置的更新方式将所述倒排索引的更新文件发布给对应的索引服务器。其中,所述方法还包括:记录终端设备的访问请求的数量;当对于同一个倒排索引文件的访问请求的数量超过预设阈值时,提供扩容索引服务器用于接收终端设备的访问请求。其中,所述建立视频文件的倒排索引文件,包括:通过预设的分词方式对视频文件信息进行分词处理得到关键词;建立所述关键词与具有所述关键词的视频文件信息之间的索引关系,从而建立视频文件的倒排索引文件。根据本专利技术的另一方面,还提供一种倒排索引存储系统,其包括:建立模块,用于建立视频文件的倒排索引文件;存储模块,用于将所述倒排索引文件同步存储至提供的多个索引服务器;设置模块,用于根据终端设备的访问渠道分别设置对应的索引服务器提供索引服务。其中,所述设置模块包括:第一设置模块,用于根据终端设备的类型分别设置对应的索引服务器提供索引服务;第二设置模块,用于根据终端设备使用的运营商平台分别设置对应的索引服务器提供索引服务。其中,所述系统还包括:更新模块,用于接收到倒排索引文件的更新文件后,根据终端设备的访问渠道使用预先设置的更新方式将所述倒排索引的更新文件发布给对应的索引服务器。其中,所述系统还包括:记录模块,用于记录终端设备的访问请求的数量;管理模块,用于当对于同一个倒排索引文件的访问请求的数量超过预设阈值时,提供扩容索引服务器用于接收终端设备的访问请求。其中,所述建立模块包括:关键词获取模块,用于通过预设的分词方式对视频文件信息进行分词处理得到关键词;倒排索引建立模块,用于建立所述关键词与具有所述关键词的视频文件信息之间的索引关系,从而建立视频文件的倒排索引文件。根据本专利技术的技术方案,通过将倒排索引文件同步存储至多个索引服务器,并根据终端设备的访问渠道分别设置对应的索引服务器提供索引服务,在接收到终端设备访问倒排索引文件的访问请求时,能够根据终端设备的访问渠道设置对应的索引服务器检索得到倒排索引信息,从而提高了访问请求的效率和速度。【专利附图】【附图说明】此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的倒排索引存储方法的流程图;图2是根据本专利技术一个实施例的倒排索引存储系统的结构框图;图3是根据本专利技术另一实施例的倒排索引存储系统的结构框图。【具体实施方式】为使本专利技术的目的、技术方案和优点更加清楚,以下结合附图及具体实施例,对本专利技术作进一步地详细说明。根据本专利技术的实施例,提供了 一种倒排索弓I存储方法。图1是根据本专利技术实施例的倒排索引存储方法的流程图,如图1所示,该方法包括:步骤S102,建立视频文件的倒排索引文件。首先,通过预设的分词方式对视频文件信息进行分词处理得到关键词。视频文件信息指视频文件包含的名称、主题词、内容简介等一些文字信息,通过分词处理得到视频文件信息的关键词。一般地,分词处理就是将连续的字序列按照一定的规范重新组合成词序列。分词的目的就是对各文档进行分析以提取那些有可能成为用户查询对象的字(词)。通过预设的分词方式对文件视频信息进行分词处理,得到初步分词词汇。其中,预设的分词方式例如二元分词法、最大匹配法、统计方法等算法,此处不赘述。然后,建立所述关键词与具有所述关键词的视频文件信息之间的索引关系,从而建立视频文件的倒排索引文件。经过分词处理得到关键词后,将关键词连同对应的文件的标识信息(ID) —起存储在倒排索引文件中,在对所有文件进行分析之后,按得到的关键词的顺序对关键词进行排序、合并等处理,统计各关键词在个文件中出现的概率,并且索引文件中还有可能包含其他索引信息。例如:文件数,用于表明关键词在多少个文件中出现;总频率,用于表明关键词在所有文件中出现的次数;频率,用于表明关键词在一个文件中出现的次数。从而,建立关键词与其索引信息之间的关联关系,得到视频文件的倒排索引文件。步骤S104,提供多个索引服务器,将所述倒排索引文件同步存储至多个索引服务器,并根据终端设备的访问渠道分别设置对应的索引服务器提供索引服务。将建立的倒排索引文件同步存储至多个外部索引服务器,根据终端设备的访问渠道设置提供对应服务的一个或多个索引服务器,并且与一类访问渠道对应设置的多个索引服务器以分布式的方式提供索引服务。具体实施时,将所述倒排索引文件同步存储至多个索引服务器之后,可以在每一个倒排索引文件的设定位置设置该索引服务器提供索引服务的终端设备的访问渠道信息,用于在终端设备发起访问请求时,通过设置在倒排索引文件的设定位置的终端设备的访问渠道信息判断当前索引服务器是否为发起访问请求的终端设备提供服务。或者,根据不同的终端设备的访问渠道,调整所述倒排索引文件中的关键词索引结果的顺序,用于在终端设备发起访问请求时,优先给出与所述终端设备的类型、渠道关联性大的索引结果。由于每个访问终端设备本文档来自技高网...
【技术保护点】
一种倒排索引存储方法,其特征在于,包括:建立视频文件的倒排索引文件;提供多个索引服务器,将所述倒排索引文件同步存储至多个索引服务器,并根据终端设备的访问渠道分别设置对应的索引服务器提供索引服务。
【技术特征摘要】
【专利技术属性】
技术研发人员:曹坤波,郑磊,
申请(专利权)人:乐视网信息技术北京股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。