分布式内存列式数据库的生成代码复用匹配管理方法技术

技术编号：21798535 阅读：14 留言：0更新日期：2019-08-07 10:22

本发明专利技术公开了分布式内存列式数据库的生成代码复用匹配管理方法，解决了现有的代码生成和复用方法无法适应表达式的各种复杂情况，对一复杂的等价表达式的匹配和复用，其无法满足情况；并且，未提出关于Pipeline代码的匹配方法的问题。本发明专利技术包括创建映射关系，包括：对数据库中每个生成的代码请求，在缓存复用管理器中创建KV映射关系，KV映射关系表示为

Generation Code Reuse Matching Management Method for Distributed Memory Column Database

全部详细技术资料下载

【技术实现步骤摘要】
分布式内存列式数据库的生成代码复用匹配管理方法
本专利技术涉及分布式内存列式数据库的编译执行方式下匹配复用以及管理动态生成的代码的方法
，具体涉及分布式内存列式数据库的生成代码复用匹配管理方法。
技术介绍
在经典的数据库火山模型中，执行流程从语法树根节点开始，递归调用子节点处理函数进行处理，到达叶节点后取出相应表的一行数据进行处理并依次返回。在每次递归调用流程中只对一行数据进行处理导致了很差的代码局部性，包括过多的函数调用；还导致了很差的数据局部性，因为每次读取只需要一部分数据，进而使得CPUCache频繁换入换出。因而火山模型极度不适合海量数据的分析处理。在海量数据分析处理系统中(包括SparkSQL等)，普遍使用的是向量化(Vectorization)模型，即一种批处理模型。在向量化模型中，每次取出一列或几列进行批处理运算，再对结果与其他列进行运算；其整个流程用有向无环图DAG表示，则一次批处理运算代表一个节点，完成该节点运算后将结果推送到其他节点。这种模型具有很好的代码局部性和数据局部性。但其需要多次大量地将中间结果写入内存(即物化)。于是，一些数据库，如Hyper，提出了Pipeline的执行模型，将多次批处理运算融合到一个Pipeline计算中。在能够融合的多次批处理运算形成的Pipeline中，在单个函数中，每次对单个元组进行计算并传递，最终能减少物化。但Pipeline执行方式的效率提升依赖于：1、需要能够根据执行计划动态生成合适的Pipeline代码，以合并对多个批处理的计算，因为难以在开发时即抽象出各种满足所有功能需求的算子；2、需...

【技术保护点】
1.分布式内存列式数据库的生成代码复用匹配管理方法，其特征在于，包括：创建映射关系，包括：对数据库中每个生成的代码请求，在缓存复用管理器中创建KV映射关系，KV映射关系表示为<属性，代码标识>；匹配等价性，包括：从缓存复用管理器中的KV映射关系读取属性，对待生成计划代码进行功能等价性匹配，若匹配成功，则实现代码缓存复用；若匹配失败，则执行创建映射关系。

【技术特征摘要】
1.分布式内存列式数据库的生成代码复用匹配管理方法，其特征在于，包括：创建映射关系，包括：对数据库中每个生成的代码请求，在缓存复用管理器中创建KV映射关系，KV映射关系表示为<属性，代码标识>；匹配等价性，包括：从缓存复用管理器中的KV映射关系读取属性，对待生成计划代码进行功能等价性匹配，若匹配成功，则实现代码缓存复用；若匹配失败，则执行创建映射关系。2.根据权利要求1所述的分布式内存列式数据库的生成代码复用匹配管理方法，其特征在于，创建映射关系，对数据库中每个生成的代码请求，在缓存复用管理器中创建KV映射关系，KV映射关系表示为<属性，代码标识>，其中，生成的代码为Pipeline代码，Pipeline代码的<属性，代码标识>映射的属性值包括的内容有(Pipeline长度，各Pipeline节点的功能)；匹配等价性，从缓存复用管理器中的KV映射关系读取属性，对待生成计划代码进行功能等价性匹配，其中，待生成计划代码的属性表示为(Pipeline长度1，各Pipeline节点功能1)，已有的代码属性表示为(Pipeline长度2，各Pipeline节点功能2)；其中，功能等价性匹配，包括：当Pipeline长度1<＝Pipeline长度2，将Pipeline节点功能1组成的功能节点序列1中的每个节点放置到Pipeline节点功能2组成的功能节点序列2中，对于Pipeline功能序列2中未匹配的点，进行置空操作，如果放置后，功能节点序列1仍然保持原有的相对序列则匹配等价性成功；如果放置结果中相对顺...

【专利技术属性】
技术研发人员：段翰聪，刘长红，冯杰，闵革勇，敖齐平，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人