大数据的存储、搜索方法及装置制造方法及图纸

技术编号:13771737 阅读:57 留言:0更新日期:2016-09-29 17:09
本发明专利技术提供了一种大数据的存储、搜索方法及装置,其中存储方法包括:获取大数据的原始日志并分析其具体日志内容;根据所述具体日志内容对所述原始日志进行分类,将指定数目的原始日志集合生成一个文档,并为该文档建立与分词间的映射关系,其中,所述分词与该文档的具体日志内容相匹配;对各文档进行组合处理以生成组合的文件,其中,该文件被搜索时,能够提供与组合文档数目相对应的多个分词;利用所述文件替代所述原始日志存入到分布式存储系统架构中。采用本发明专利技术能够大大降低了数据的冗余性,从而减少了对服务器资源的浪费,提高存储资源的利用率。

【技术实现步骤摘要】

本专利技术涉及计算机
,特别是涉及大数据的存储、搜索方法及装置
技术介绍
随着计算机和网络的发展,搜索功能已经成为最常用的功能,用户通过搜索操作方便快捷地获取目的信息。但是,随着业务的发展,可搜索的数据量也越来越大,目前将不断增大的数据量称之为大数据,对其的搜索操作称之为对大数据的搜索。大数据的数据量级通常是百万级以上,甚至是百万亿级、千万亿级以上,针对如此庞大的数据体系,首先对数据的存储提到了较高的要求。例如,目前常用的ES系统(Elected Search),该系统中,搜索匹配操作所需要的索引数据和原始数据均要存储在该系统中,对系统的要求较高。并且,为了保证原始数据的可靠性,还需要在分布式系统基础架构(hadoop)中进行存储,这就导致了数据冗余,会造成大量的服务器资源的浪费。进一步,搜索引擎在工作时,首先对搜索词进行分词,然后对各分词执行大数据匹配操作,即对每个分词都在大数据体系中进行庞大的匹配操作,那么,尤其在存在数据冗余的情况下,对搜索词进行的匹配操作的数量必然也是极高的数量级。考虑到大数据级别的搜索操作的操作本身数量级高,则必然会浪费较多的时间和系统资源。并且,耗时过长,对于搜索引擎本身也是致命的弱点,若用户无法在较短的时间内获得有效搜索结果,那么,该搜索引擎的用户粘性就会逐渐下降。因此,现在亟需一种针对大数据搜索的改进方法。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的大数据的存储、搜索方法及装置。基于本专利技术的一个方面,本专利技术实施例提供了一种数据的存储方法,包括:获取大数据的原始日志并分析其具体日志内容;根据所述具体日志内容对所述原始日志进行分类,将指定数目的原始日志集合生成一个文档,并为该文档建立与分词间的映射关系,其中,所述分词与该文档的具体日志内容相匹配;对各文档进行组合处理以生成组合的文件,其中,该文件被搜索时,能够提供与组合文档数目相对应的多个分词;利用所述文件替代所述原始日志存入到分布式存储系统架构中。可选地,对各文档进行组合处理以生成组合的文件,包括:对各文档进行文档压缩处理,得到压缩后的压缩文档;对各压缩文档进行组合处理,得到组合的文件。可选地,所述压缩文档格式为gz文件。可选地,所述指定数目的原始日志为128条原始日志,所述组合的文件为256M~2G之间。可选地,利用所述文件替代所述原始日志存入到分布式存储系统架构中,包括:利用所述文件中第一个分词的起始位置作为参考位置,记录各分词在所述文件中的偏移位置;将各分词在所述文件中的偏移位置信息以及所述文件均存入所述分布式存储系统架构中。可选地,所述大数据为百万级别以上的数据。基于本专利技术的另一个方面,本专利技术实施例还提供了一种大数据的搜索方法,应用于使用上述的大数据的存储方法的数据存储系统,所述方法包括:对搜索词进行分词,得到多个分词;利用各分词到所述使用了大数据的存储方法的数据存储系统中进行匹配,得到匹配结果,其中,所述数据存储系统中包括多个文件,各文件中包括多个文档,每个文档与分词间具备映射关系;根据所述匹配结果查找到对应的文档,并从所述文档中再次匹配到对应的原始日志。可选地,利用各分词到所述使用了大数据的存储方法的数据存储系统中进行匹配,包括:利用倒排索引结构的方式,利用各分词到所述使用了大数据的存储方法的数据存储系统中进行匹配。可选地,所述大数据为百万级别以上的数据。基于本专利技术的又一个方面,本专利技术实施例还提供了一种大数据的存储装置,包括:日志分析模块,适于获取大数据的原始日志并分析其具体日志内容;文档生成模块,适于根据所述具体日志内容对所述原始日志进行分类,将指定数目的原始日志集合生成一个文档,并为该文档建立与分词间的映射关系,其中,所述分词与该文档的具体日志内容相匹配;文件生成模块,适于对各文档进行组合处理以生成组合的文件,其中,该文件被搜索时,能够提供与组合文档数目相对应的多个分词;存储模块,适于利用所述文件替代所述原始日志存入到分布式存储系统架构中。可选地,所述文件生成模块还适于:对各文档进行文档压缩处理,得到压缩后的压缩文档;对各压缩文档进行组合处理,得到组合的文件。可选地,所述压缩文档格式为gz文件。可选地,所述指定数目的原始日志为128条原始日志,所述组合的文件为256M~2G之间。可选地,其中,所述存储模块还适于:利用所述文件中第一个分词的起始位置作为参考位置,记录各分词在所述文件中的偏移位置;将各分词在所述文件中的偏移位置信息以及所述文件均存入所述分布式存储系统架构中。可选地,所述大数据为百万级别以上的数据。基于本专利技术的再一个方面,本专利技术实施例还提供了一种大数据的搜索装置,与上述的大数据的存储装置耦合,所述装置包括:分词模块,适于对搜索词进行分词,得到多个分词;第一匹配模块,适于利用各分词到所述使用了大数据的存储装置的数据存储系统中进行匹配,得到匹配结果,其中,所述数据存储系统中包括多个文件,各文件中包括多个文档,每个文档与分词间具备映射关系;第二匹配模块,适于根据所述匹配结果查找到对应的文档,并从所述文档中再次匹配到对应的原始日志。可选地,所述第一匹配模块还适于:利用倒排索引结构的方式,利用各分词到所述使用了大数据的存储装置的数据存储系统中进行匹配。可选地,所述大数据为百万级别以上的数据。在本专利技术实施例中,对于原始日志的存储方式进行了改进,因单条原始日志非常小,通常只有几K或者几十K,若大量原始日志直接存储,则会形成大量的存储碎片,且每次存储均要为该原始日志生成对应的索引,浪费大量存储资源,因此,本专利技术实施例将指定数目的原始日志集合合并生成一个文档。其中,文档中所包含哪些原始日志由具体日志内容所决定,这样就能够让具备相似日志内容的原始日志归纳至一个文档中。进一步,本专利技术实施例还根据文档所对应的具体日志内容生成可用于进行搜索或索引操作的分词,分词与具体的文档间形成映射关系,以便后期搜索时,能够利用搜索词的分词与文档的分词直接匹配。随后,本专利技术实施例还对各文档再次进行组合处理,生成组合的文件,进而利用文件替代原始日志存储到分布式存储系统架构中。由此可以看出,本专利技术实施例中,将原始日志进行了集中合成,生成具备一定规模和容量的文件,并对文件进行统一的存储管理,文件的容量要远远超过原始日志的大小,对于分布式存储系统架构而言,文件的管理仅需要设置文件的索引,而不需要设置每条原始日志的索引,大大降低了数据的冗余性,从而减少了对服务器资源的浪费,提高存储资源的利用率。采用本专利技术实施例所提供的大数据的存储方法,因能够达到减少资源浪费的目的,适用于任何大数据的存储过程,甚至于百万级别、百万亿级、千万亿级的大数据的存储。在本专利技术实施例中,因采用了上文所述的大数据的存储方法的数据存储系统,数据存储利用了分词与文档间的映射关系,并将多个原始日志聚合成分词,这使得数据存储的数量级大大下降,也使得搜索词分词所得到的各分词的搜索过程简单快捷化,分词无须依次与各原始日志进行匹配,而是分别匹配数据存储系统中的分词,数据存储系统中的分词数据比之原始日志的数量级大大降低,缩短了匹配时间。若匹配上,则进一步在文档中针对多条原始日志进行二次匹配即可,匹配操作所需数据级大大下降,那么针本文档来自技高网...

【技术保护点】
一种大数据的存储方法,包括:获取大数据的原始日志并分析其具体日志内容;根据所述具体日志内容对所述原始日志进行分类,将指定数目的原始日志集合生成一个文档,并为该文档建立与分词间的映射关系,其中,所述分词与该文档的具体日志内容相匹配;对各文档进行组合处理以生成组合的文件,其中,该文件被搜索时,能够提供与组合文档数目相对应的多个分词;利用所述文件替代所述原始日志存入到分布式存储系统架构中。

【技术特征摘要】
1.一种大数据的存储方法,包括:获取大数据的原始日志并分析其具体日志内容;根据所述具体日志内容对所述原始日志进行分类,将指定数目的原始日志集合生成一个文档,并为该文档建立与分词间的映射关系,其中,所述分词与该文档的具体日志内容相匹配;对各文档进行组合处理以生成组合的文件,其中,该文件被搜索时,能够提供与组合文档数目相对应的多个分词;利用所述文件替代所述原始日志存入到分布式存储系统架构中。2.根据权利要求1所述的方法,其中,对各文档进行组合处理以生成组合的文件,包括:对各文档进行文档压缩处理,得到压缩后的压缩文档;对各压缩文档进行组合处理,得到组合的文件。3.根据权利要求2所述的方法,其中,所述压缩文档格式为gz文件。4.根据权利要求2所述的方法,其中,所述指定数目的原始日志为128条原始日志,所述组合的文件为256M~2G之间。5.根据权利要求1-4任一项所述的方法,其中,利用所述文件替代所述原始日志存入到分布式存储系统架构中,包括:利用所述文件中第一个分词的起始位置作为参考位置,记录各分词在所述文件中的偏移位置;将各分词在所述文件中的偏移位置信息以及所述文件均存入所述分布式存储系统架构中。6.根据权利要求1-5任一项所述的方法,其中,所述大数据为百万级别以上的数据。7.一种大数据的搜索方法,应用于使用所述权利要求1-6任一项所述的大数据的存储方法的数据存储系统,所述方法包括:对搜索词进行分词,得到多个分词;利用各分词到所述使用了大数据的存储方法...

【专利技术属性】
技术研发人员:魏自立李浩穆玉伟赵晶晶蒋东冯鑫
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1