System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种大数据标签的存储方法技术_技高网

一种大数据标签的存储方法技术

技术编号:41286324 阅读:14 留言:0更新日期:2024-05-11 09:34
本发明专利技术涉及数据存储技术领域,尤其涉及一种大数据标签的存储方法,包括:获取封装数据及封装数据内容对应的索引标签;根据所述索引标签形成对应的若干索引向量,并将各索引向量归并为基础检索目录;收集数据运行周期的检索数据,并根据运行周期的检索数据对各所述封装数据确定对应的检索标签;将对同一所述封装数据的所述索引标签和所述检索标签进行检索关联,形成运行检索目录;对所述运行检索目录以目录简化策略进行简化,以形成新的基础检索目录;根据所述新的基础检索目录检索;本发明专利技术借助ElasticSearch存储标签数据,提高了查询效率,并且利用ElasticSearch的别名功能实现了数据一致性的保证,并且提高了用户查询体验及使用效率。

【技术实现步骤摘要】

本专利技术涉及数据存储,尤其涉及一种大数据标签的存储方法


技术介绍

1、目前行业内关于标签数据的存储方案分为两类,一类是以关系型数据库作为数据存储,例如hive、mysql。使用大宽表,或者实体表和标签表独立开,通过表关联的形式提供标签数据查询。这类方式的存储对于查询来讲是比较费劲的,多条数据时,根据实体分页查询等逻辑就比较复杂。性能也是一大问题。

2、另一类是非关系型数据库,以非结构化,以hbase及elastic search两种存储为主。hbase存储,在简单查询方面性能及存储方面能满足需求,但当涉及到分群,聚合操作是无法满足查询要求。elasticsearch在查询方面因其底层通过倒排索引给查询带了了很大优势,但是在更新是效率不高。甚至可能出现部分更新的操作。导致数据紊乱,新旧数据混合。有数据不一致的风险。

3、中国专利授权公告号:

4、但是,上述方法存在以下问题:无法根据用户的习惯,对网店进行个性化装饰。


技术实现思路

1、为此,本专利技术提供一种大数据标签的存储方法,用以克服现有技术中使用es数据存储,标签任务在不同周期进行标签计算之后,更新索引出现的数据不一致,出现新旧数据混合问题。

2、为实现上述目的,本专利技术提供一种大数据标签的存储方法,包括:

3、获取封装数据及封装数据内容对应的索引标签;

4、根据所述索引标签形成对应的若干索引向量,并将各索引向量归并为基础检索目录;

5、收集数据运行周期的检索数据,并根据运行周期的检索数据对各所述封装数据确定对应的检索标签;

6、将对同一所述封装数据的所述索引标签和所述检索标签进行检索关联,以在所述基础检索目录中增加所述检索标签指向对应索引标签的索引向量,形成运行检索目录;

7、对所述运行检索目录以目录简化策略进行简化,以形成新的基础检索目录;

8、根据所述新的基础检索目录进行下一个数据运行周期的检索数据;

9、其中,所述目录简化策略为根据所述基础检索目录中各索引向量的检索频率,对所述基础检索目录的索引数量进行缩减,以形成新的基础检索目录,且,在完成缩减时,任一封装数据能够根据新的基础检索目录查询。

10、进一步地,所述索引标签通过elasticsearch查询api获取,且,所述索引标签的字段为嵌套形式。

11、进一步地,所述索引标签的数量至少为1个。

12、进一步地,所述将对同一所述封装数据的所述索引标签和所述检索标签进行检索关联的步骤包括:

13、确定单个所述封装数据的所述检索标签;

14、根据关键字等效规则,确定所述检索标签与所述索引标签的映射;

15、建立由所述检索标签指向所述索引标签的补充索引向量,增添至原索引向量中。

16、进一步地,所述检索关联的方式包括将所述检索标签设置为所述索引标签的别名。

17、进一步地,所述目录简化策略包括:

18、在所述运行周期中,获取单个封装数据的全部检索次数;

19、分别获取单个封装数据由所述索引标签检索的检索次数以及由所述检索标签检索的检索次数;

20、根据各检索次数计算检索引导词占比;

21、获取所述检索引导词占比低于预设占比对应的所述索引标签,并将对应的所述索引标签的索引向量从所述运行检索目录中删除。

22、进一步地,所述根据运行周期的检索数据对各所述封装数据确定对应检索标签,包括:

23、在所述运行周期中,获取单个封装数据的全部检索记录,获取各次检索中的检索关键词;

24、根据所述检索关键词在映射字典中确定若干映射词;

25、若存在至少一个所述映射词与单个封装数据的任一个索引标签相同,将所述检索关键词确定为所述索引标签的检索标签。

26、进一步地,所述映射字典中预先设置有所述检索关键词对应的映射词。

27、进一步地,所述目录简化策略,还包括:

28、计算各运行周期中,所述检索标签的检索频率与对应的所述索引标签的检索频率;

29、分析各运行周期中的所述检索标签的检索频率的波动趋势;

30、若连续三个运行周期中的所述检索标签的检索频率均较上一运行周期中的所述检索标签的检索频率为增大,且,所述检索标签的检索频率与对应的所述索引标签的检索频率的比值大于预设比值,判定将所述检索标签对应的所述索引标签的索引向量从所述运行检索目录中删除。

31、进一步地,所述预设比值大于5。

32、与现有技术相比,本专利技术的有益效果在于,本专利技术一方面为了解决现有指标数据存储过程中分页查询需求复杂,响应性能不高的问题,另一方面能够解决使用es数据存储的标签任务在不同周期进行标签计算之后,更新索引出现的数据不一致,出现新旧数据混合问题。通过将索引标签与检索标签进行关联,保证标签数据的更新在用户无感知的状态下进行,并且数据一致性能够得到保证。

33、另外,本专利技术借助elasticsearch存储标签数据,提高了查询效率,并且利用elasticsearch的别名功能实现了数据一致性的保证,并且提高了用户查询体验及使用效率。还可以随时扩展新标签无需变更数据结构。

本文档来自技高网...

【技术保护点】

1.一种大数据标签的存储方法,其特征在于,包括:

2.根据权利要求1所述的大数据标签的存储方法,其特征在于,所述索引标签通过ElasticSearch查询Api获取,且,所述索引标签的字段为嵌套形式。

3.根据权利要求2所述的大数据标签的存储方法,其特征在于,所述索引标签的数量至少为1个。

4.根据权利要求1所述的大数据标签的存储方法,其特征在于,所述将对同一所述封装数据的所述索引标签和所述检索标签进行检索关联的步骤包括:

5.根据权利要求1所述的大数据标签的存储方法,其特征在于,所述检索关联的方式包括将所述检索标签设置为所述索引标签的别名。

6.根据权利要求1所述的大数据标签的存储方法,其特征在于,所述目录简化策略包括:

7.根据权利要求1所述的大数据标签的存储方法,其特征在于,所述根据运行周期的检索数据对各所述封装数据确定对应检索标签,包括:

8.根据权利要求7所述的大数据标签的存储方法,其特征在于,所述映射字典中预先设置有所述检索关键词对应的映射词。

9.根据权利要求7所述的大数据标签的存储方法,其特征在于,所述目录简化策略,还包括:

10.根据权利要求9所述的大数据标签的存储方法,其特征在于,所述预设比值大于5。

...

【技术特征摘要】

1.一种大数据标签的存储方法,其特征在于,包括:

2.根据权利要求1所述的大数据标签的存储方法,其特征在于,所述索引标签通过elasticsearch查询api获取,且,所述索引标签的字段为嵌套形式。

3.根据权利要求2所述的大数据标签的存储方法,其特征在于,所述索引标签的数量至少为1个。

4.根据权利要求1所述的大数据标签的存储方法,其特征在于,所述将对同一所述封装数据的所述索引标签和所述检索标签进行检索关联的步骤包括:

5.根据权利要求1所述的大数据标签的存储方法,其特征在于,所述检索关联的方式包括将所述检索标签设...

【专利技术属性】
技术研发人员:高海玲高经郡连文龙
申请(专利权)人:北京科杰科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1