一种数据存储方法及装置、电子设备及存储介质制造方法及图纸

技术编号:39432852 阅读:11 留言:0更新日期:2023-11-19 16:16
本发明专利技术涉及计算机数据存储技术领域,具体提供一种数据存储方法及装置、电子设备及存储介质,旨在解决使用现有B+树在flush时,消耗大量的cpu和磁盘io的问题。为此,本发明专利技术的数据存储方法包括:构建数据库数据层,包含若干个分片page,每个分片page上存储完整的KV键值对数据;构建数据库索引层,存储数据库数据层中存储的KV键值对数据的索引信息,索引信息以树形结构存储,包括产生各个分片page的分裂key作为索引key,各个分裂key对应的分片page的ID信息作为索引value。本发明专利技术通过构建数据库数据层和索引层的方式,将数据和索引分离存储,以提升性能并降低资源消耗。提升性能并降低资源消耗。提升性能并降低资源消耗。

【技术实现步骤摘要】
一种数据存储方法及装置、电子设备及存储介质


[0001]本专利技术涉及计算机数据存储
,具体提供一种数据存储方法及装置、电子设备及存储介质。

技术介绍

[0002]B+树是一种树数据结构,通常用于数据库和操作系统的文件索引系统中。比如NTFS、ReiserFS、NSS、XFS、JFS、ReFS以及BFS等文件系统都在使用B+树作为元数据索引。B+树的特点是能够保持数据稳定有序,其插入与修改拥有较稳定的对数时间复杂度。B+树是一种平衡查找树,所有记录节点都是按键值的大小顺序存放在同一层的叶节点中,各叶节点指针进行连接。
[0003]现有技术中,经典B+树本身是紧凑排序的,所以删除、更新、新增key都会发生叶子节点的变动,这样产生的问题是只要涉及到某个叶子节点,即使某些key不需要更新,其数据也需要拷贝到新的叶子节点,以保证数据的紧凑存储,这里会带来内存申请拷贝,及磁盘io操作。因为B+树是平衡的,在新增节点和删除节点时,会造成父节点的索引信息变更,平衡的计算是消耗cpu的,索引的更新是消耗内存和io的。因此,经典B+树在flush时,会写入和删除大量的key,flush消耗大量的cpu和磁盘io,这样导致经典B+树在flush时效率是受限,且消耗必要和非必要资源较高,且flush时间在整体数据库运行时间占比并不大,所以cpu的使用是不平滑有尖刺的。
[0004]相应地,本领域需要一种新的数据存储方案来解决上述问题。

技术实现思路

[0005]为了克服上述缺陷,提出了本专利技术,以提供解决或至少部分地解决使用现有的方法进行B+树的flush时,导致消耗大量的cpu和磁盘io的技术问题的数据存储方法及装置、电子设备及存储介质。
[0006]在第一方面,本专利技术提供一种数据存储方法,该数据存储方法包括:
[0007]构建数据库数据层,包含若干个分片page,每个分片page上存储完整的KV键值对数据;
[0008]构建数据库索引层,存储数据库数据层中存储的KV键值对数据的索引信息,所述的索引信息以树形结构存储,包括产生各个分片page的分裂key作为索引key,各个分裂key对应的分片page的ID信息作为索引value。
[0009]在上述一种数据存储方法的一个技术方案中,所述的数据库数据层中每个分片page中包含增量更新文件和存储文件:
[0010]所述增量更新文件和存储文件均存储完整的KV键值对数据,且所述KV键值对数据中的key值是有序排列的;
[0011]所述增量更新文件和存储文件中的key值是存在重叠的,当增量更新文件和存储文件中同时存储同一key值,则优先读取增量更新文件,其次查找存储文件。
[0012]在上述一种数据存储方法的一个技术方案中,所述的数据库数据层中包含分片p1、分片p2、......、分片pn,分片p1上存储KV键值对数据包括(k11,v11)、(k12,v12)、......、(k1r,vlr),key值由k11至k1r有序增大,分片p2上存储KV键值对数据包括(k21,v21)、(k22,v22)、......、(k2s,v2s),key值由k21至k2s有序增大,分片pn上存储KV键值对数据包括(knl,vn1)、(kn2,vn2)、......、(knt,vnt),key值由kn1至knt有序增大,分片p1至分片pn中下一分片中的最小key大于上一分片中的最大key;
[0013]所述的数据库索引层中存储索引信息的索引key包括(k1r、k2s、......、knt),索引value包括(分片p1的ID、分片p2的ID、......、分片pn的ID);
[0014]将写入key在数据库索引层中的索引信息中进行索引查找,判断写入key在索引key中的位置区间,根据位置区间确定索引value所对应的分片pn的ID。
[0015]在上述一种数据存储方法的一个技术方案中,该数据存储方法包括数据写入流程:
[0016]针对内存表中的写入key值在数据库索引层中树形结构的索引信息中进行查找,得到索引value;
[0017]将内存表中写入key值对应的完整KV键值对数据写入索引value所对应分片page中的增量更新文件中。
[0018]在上述一种数据存储方法的一个技术方案中,所述增量更新文件中存储KV键值对数据、及其key值的前向指针和后向指针,所述前向指针是前向key值所在文件中的偏移量,所述后向指针是后向key值所在文件中的偏移量;
[0019]当进行写入key值对应的完整KV键值对数据写入时,通过二分查找得到对应的位置,更新写入key值的前向节点的指针,更新写入key值的指针,更新写入key值的后向节点的指针,通过指针可得到有序的key值列表。
[0020]在上述一种数据存储方法的一个技术方案中,该数据存储方法包括:
[0021]在将内存表中的数据写入数据库数据层中对应分片的增量更新文件过程中;
[0022]当内存表中的数据写入之后,增量更新文件的大小超过预设闪存阈值,则触发分页内部数据合并流程;
[0023]所述的分页内部数据合并流程将同一分页的增量更新文件与存储文件进行数据合并,增量更新文件中的所有数据被全部写入存储文件中,数据合并之后增量更新文件为空。
[0024]在上述一种数据存储方法的一个技术方案中,该数据存储方法包括:
[0025]当分页内部数据合并流程结束之后,判断存储文件的大小是否超过预设存储阈值;
[0026]若判断结果为是,则触发分页分裂流程:新创建第一分页和第二分页,对需要分裂的分页进行有序遍历,先写入到新创建的第一分页的存储文件中,写满第一分页后,写入到新创建的第二分页的存储文件到结束;这时得到第一分页/第二分页对应的最大key值,再将其更新到数据库索引层的索引信息中,需要分裂的分页所对应的索引信息被择时释放。
[0027]在第二方面,本专利技术提供一种数据存储装置,该数据存储装置包括:
[0028]数据库数据层模块,包含若干个分片page,每个分片page上存储完整的KV键值对数据;
[0029]数据库索引层模块,存储数据库数据层中存储的KV键值对数据的索引信息,所述的索引信息以树形结构存储,包括产生各个分片page的分裂key作为索引key,各个分裂key对应的分片page的ID信息作为索引value。在第三方面,本专利技术提供一种电子设备,包括处理器和存储器,所述存储器用于存储计算机可执行程序,当所述计算机可执行程序被所述处理器执行时,所述处理器执行如权利要求1

7任意一项所述的一种数据存储方法。
[0030]在第四方面,提供一种计算机可读存储介质,该计算机可读存储介质其中存储有多条程序代码,所述程序代码适于由处理器加载并运行以执行上述一种数据存储方法的技术方案中任一项技术方案所述的数据存储方法。
[0031]本专利技术上述一个或多个技术方案,至少具有如本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据存储方法,其特征在于,包括:构建数据库数据层,包含若干个分片page,每个分片page上存储完整的KV键值对数据;构建数据库索引层,存储数据库数据层中存储的KV键值对数据的索引信息,所述的索引信息以树形结构存储,包括产生各个分片page的分裂key作为索引key,各个分裂key对应的分片page的ID信息作为索引value。2.根据权利要求1所述的一种数据存储方法,其特征在于,所述的数据库数据层中每个分片page中包含增量更新文件和存储文件:所述增量更新文件和存储文件均存储完整的KV键值对数据,且所述KV键值对数据中的key值是有序排列的;所述增量更新文件和存储文件中的key值是存在重叠的,当增量更新文件和存储文件中同时存储同一key值,则优先读取增量更新文件,其次查找存储文件。3.根据权利要求2所述的一种数据存储方法,其特征在于,所述的数据库数据层中包含分片p1、分片p2、......、分片pn,分片p1上存储KV键值对数据包括(k11,v11)、(k12,v12)、......、(klr,vlr),key值由k11至klr有序增大,分片p2上存储KV键值对数据包括(k21,v21)、(k22,v22)、......、(k2s,v2s),key值由k21至k2s有序增大,分片pn上存储KV键值对数据包括(kn1,vn1)、(kn2,vn2)、......、(knt,vnt),key值由kn1至knt有序增大,分片p1至分片pn中下一分片中的最小key大于上一分片中的最大key;所述的数据库索引层中存储索引信息的索引key包括(k1r、k2s、......、knt),索引value包括(分片p1的ID、分片p2的ID、......、分片pn的ID);将写入key在数据库索引层中的索引信息中进行索引查找,判断写入key在索引key中的位置区间,根据位置区间确定索引value所对应的分片pn的ID。4.根据权利要求3所述的一种数据存储方法,其特征在于,包括数据写入流程:针对内存表中的写入key值在数据库索引层中树形结构的索引信息中进行查找,得到索引value;将内存表中写入key值对应的完整KV键值对数据写入索引value所对应分片page中的增量更新文件中。5.根据权利要求4所述的一种数据存储方法,其特...

【专利技术属性】
技术研发人员:徐锐波幸福卢文伟刘方
申请(专利权)人:北京云思智学科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1