【技术实现步骤摘要】
一种分布式数据库的数据表统计信息自动采集方法
[0001]本专利技术公开一种方法,涉及数据库
,具体地说是一种分布式数据库的数据表统计信息自动采集方法。
技术介绍
[0002]分布式数据库,分布式数据库系统是指将数据分散存储在不同计算机节点上,通过网络协议进行通信和协调,形成一个具有统一视图和访问方式的数据库系统。它具有高扩展性、高可用性、高并发能力。
[0003]数据库查询优化器,是数据库系统的重要组成部分,Optimizer组件即为查询优化器。查询优化器的作用是需要在一个合理的时间找到一个合理的计划,并且保证这个合理计划能稳定快速的返回查询结果。
[0004]CBO(Cost
‑
Based Optimization),“基于代价的优化器”,该优化器通过对SQL Parser后产生的关系表达式进行转换,生成多个执行计划,然后CBO会根据统计信息(Statistics)和代价模型(Cost Model)计算各个计划的“代价”,选择“代价”最低的执行计划,作为最终的执行计划,发送给执行引擎。
[0005]统计信息(Statistics),存储在元数据中,是从数据表中提取出的一些数据特征,如总行数、列的distinct值(NDV)、列的直方图、网络资源、CPU使用情况等等。统计信息的准确与否最终会影响CBO选择最优的执行计划。
[0006]目前使用数据库的用户还需手动执行命令语法采集数据表的统计信息,不但用户体验感较差,统计信息也不能保证更新。
技术实现思路
...
【技术保护点】
【技术特征摘要】
1.一种分布式数据库的数据表统计信息自动采集方法,其特征是预设SQL命令,利用SQL命令捕获数据表的变化数据,所述变化数据为数据表ID和变化行数,将所述变化数据存储至map结构的变量中;定时触发刷新统计信息的操作,获取所述变量中元素所对应的数据表,根据数据表获取统计信息,根据条件判断是否需要刷新所述统计信息,所述条件包括:
①
所述统计信息不存在,
②
距离上次自动刷新超过预设时长,
③
数据表成功执行IMPORT操作,导入了数据SQL语句,
④
数据表发生了schema change操作,更改了表结构,
⑤
当数据表发生插入、更新或删除的操作时,根据公式:rowsAffected>=rowCount*fraction+min_row,判断是否满足刷新条件,fraction的分数取值在(0,1)之间,min_row为最小行数,rowCount为数据变化行数,rowsAffected为数据未变化时统计信息中的表行数;满足任一项所述条件则刷新统计信息,并存储统计信息,利用Gossip协议通知各个数据库节点。2.根据权利要求1所述的一种分布式数据库的数据表统计信息自动采集方法,其特征是所述预设SQL命令,利用SQL命令捕获数据表的变化数据,包括:预设SQL命令为set sql.stats.automatic_collection.enabled,当set sql.stats.automatic_collection.enabled=true,则开启捕获数据表中变化数据的操作,捕获数据表中变化数据,否则set sql.stats.automatic_collection.enabled=false,关闭捕获数据表中变化数据的操作。3.根据权利要求1所述的一种分布式数据库的数据表统计信息自动采集方法,其特征是所述将所述变化数据存储至map结构的变量中,包括:命名所述map结构的变量为mutationCounts,将mutationCounts的key设为数据表ID,value设为数据变化行数。4.根据权利要求1所述的一种分布式数据库的数据表统计信息自动采集方法,其特征是所述根据数据表获取统计信息,包括:先尝试从数据表统计信息的缓存中获取统计信息,若缓存中不存在,则从数据库元数据中获得统计信息并将统计信息加入缓存中。5.根据权利要求1所述的一种分布式数据库的数据表统计信息自动采集方法,其特征是所述满足任一项所述条件则刷新统计信息,包括:根据数据表ID拼接触发刷新统计信息的SQL语句,利用所述SQL语句调用执行器刷新数据表的统计信息。6.一种分布式数据库的数据表统计信息自动采集装...
【专利技术属性】
技术研发人员:蒋家超,
申请(专利权)人:上海沄熹科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。