大数据的存储、搜索方法及装置制造方法及图纸

技术编号：13771737 阅读：67 留言：0更新日期：2016-09-29 17:09

本发明专利技术提供了一种大数据的存储、搜索方法及装置，其中存储方法包括：获取大数据的原始日志并分析其具体日志内容；根据所述具体日志内容对所述原始日志进行分类，将指定数目的原始日志集合生成一个文档，并为该文档建立与分词间的映射关系，其中，所述分词与该文档的具体日志内容相匹配；对各文档进行组合处理以生成组合的文件，其中，该文件被搜索时，能够提供与组合文档数目相对应的多个分词；利用所述文件替代所述原始日志存入到分布式存储系统架构中。采用本发明专利技术能够大大降低了数据的冗余性，从而减少了对服务器资源的浪费，提高存储资源的利用率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机
，特别是涉及大数据的存储、搜索方法及装置。
技术介绍
随着计算机和网络的发展，搜索功能已经成为最常用的功能，用户通过搜索操作方便快捷地获取目的信息。但是，随着业务的发展，可搜索的数据量也越来越大，目前将不断增大的数据量称之为大数据，对其的搜索操作称之为对大数据的搜索。大数据的数据量级通常是百万级以上，甚至是百万亿级、千万亿级以上，针对如此庞大的数据体系，首先对数据的存储提到了较高的要求。例如，目前常用的ES系统(Elected Search)，该系统中，搜索匹配操作所需要的索引数据和原始数据均要存储在该系统中，对系统的要求较高。并且，为了保证原始数据的可靠性，还需要在分布式系统基础架构(hadoop)中进行存储，这就导致了数据冗余，会造成大量的服务器资源的浪费。进一步，搜索引擎在工作时，首先对搜索词进行分词，然后对各分词执行大数据匹配操作，即对每个分词都在大数据体系中进行庞大的匹配操作，那么，尤其在存在数据冗余的情况下，对搜索词进行的匹配操作的数量必然也是极高的数量级。考虑到大数据级别的搜索操作的操作本身数量级高，则必然会浪费较多的时间和系统资源。并且，耗时过长，对于搜索引擎本身也是致命的弱点，若用户无法在较短的时间内获得有效搜索结果，那么，该搜索引擎的用户粘性就会逐渐下降。因此，现在亟需一种针对大数据搜索的改进方法。
技术实现思路
鉴于上述问题，提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的大数据的存储、搜索方法及装置。基于本专利技术的一个方面，本专利技术实施例提供了一种数据的存储方法，包括：获取大数据的原...

【技术保护点】
一种大数据的存储方法，包括：获取大数据的原始日志并分析其具体日志内容；根据所述具体日志内容对所述原始日志进行分类，将指定数目的原始日志集合生成一个文档，并为该文档建立与分词间的映射关系，其中，所述分词与该文档的具体日志内容相匹配；对各文档进行组合处理以生成组合的文件，其中，该文件被搜索时，能够提供与组合文档数目相对应的多个分词；利用所述文件替代所述原始日志存入到分布式存储系统架构中。

【技术特征摘要】
1.一种大数据的存储方法，包括：获取大数据的原始日志并分析其具体日志内容；根据所述具体日志内容对所述原始日志进行分类，将指定数目的原始日志集合生成一个文档，并为该文档建立与分词间的映射关系，其中，所述分词与该文档的具体日志内容相匹配；对各文档进行组合处理以生成组合的文件，其中，该文件被搜索时，能够提供与组合文档数目相对应的多个分词；利用所述文件替代所述原始日志存入到分布式存储系统架构中。2.根据权利要求1所述的方法，其中，对各文档进行组合处理以生成组合的文件，包括：对各文档进行文档压缩处理，得到压缩后的压缩文档；对各压缩文档进行组合处理，得到组合的文件。3.根据权利要求2所述的方法，其中，所述压缩文档格式为gz文件。4.根据权利要求2所述的方法，其中，所述指定数目的原始日志为128条原始日志，所述组合的文件为256M～2G之间。5.根据权利要求1-4任一项所述的方法，其中，利用所述文件替代所述原始日志存入到分布式存储系统架构中，包括：利用所述文件中第一个分词的起始位置作为参考位置，记录各分词在所述文件中的偏移位置；将各分词在所述文件中的偏移位置信息以及所述文件均存入所述分布式存储系统架构中。6.根据权利要求1-5任一项所述的方法，其中，所述大数据为百万级别以上的数据。7.一种大数据的搜索方法，应用于使用所述权利要求1-6任一项所述的大数据的存储方法的数据存储系统，所述方法包括：对搜索词进行分词，得到多个分词；利用各分词到所述使用了大数据的存储方法...

【专利技术属性】
技术研发人员：魏自立，李浩，穆玉伟，赵晶晶，蒋东，冯鑫，
申请(专利权)人：北京奇虎科技有限公司，奇智软件北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人