一种基于预测模型的数据表接入方法及系统技术方案

技术编号:21298844 阅读:24 留言:0更新日期:2019-06-12 07:44
本发明专利技术提供一种基于预测模型的数据表接入方法及系统,所述方法包括:通过收集表征数据表的记录内容变化状态的历史相关数据;对所述历史相关数据进行数列描述,转换为多维特征历史数据;将所述多维特征历史数据输入到预测模型中进行运算;基于所述预测模型运算后输出的预测值,确定所述数据表是否接入,以此判断数据表的接入时机,大大减少了系统运算开支和资源的浪费,对于数据的利用率也得到显著的提升。

A Data Table Access Method and System Based on Prediction Model

The invention provides a data table access method and system based on prediction model. The method includes: collecting historical related data representing the changing state of the recorded content of the data table; describing the historical related data in sequence and converting it into multi-dimensional feature historical data; inputting the multi-dimensional feature historical data into the prediction model for operation; and based on the prediction. The predicted output of the model after calculation determines whether the data table is accessed or not, so as to judge the access time of the data table, which greatly reduces the system operation expenses and waste of resources, and significantly improves the utilization rate of data.

【技术实现步骤摘要】
一种基于预测模型的数据表接入方法及系统
本说明书涉及计算机
,尤其涉及一种基于预测模型的数据表接入方法及系统。
技术介绍
随着互联网技术普及,大数据处理和运算基于大量的数据表分析进行,为了大数据分析目的,通常需要定期(例如每天)接入大量的数据表作为大数据分析源。然而,每个数据表的活跃程度都不同,活跃周期也不尽相同,在实际状况下,大量的数据表并不是活跃的,也就是说不是经常变化的,例如,每天接入2万多个表,其中75%在20天内都无变化,可以定义这些活跃程度较低的数据表为惰性表。在这种情况下,如果对所有的数据表都每天接入进行分析,会造成巨大的系统资源浪费,但另一方面,如果随意的降低这些惰性表的接入频率,则可能导致当这些表发生变化时,没有及时接入。由此可见,这种情况下,如何判断数据表的接入时机是一个亟待解决的问题。
技术实现思路
鉴于上述问题,提出了本说明书以便提供一种克服上述问题或者至少部分地解决上述问题的基于预测模型的数据表接入方法及系统。第一方面,本说明书提供一种基于预测模型的数据表接入方法,包括:收集表征数据表的记录内容变化状态的历史相关数据;对所述历史相关数据进行数列描述,转换为多维特征历史数据;将所述多维特征历史数据输入到预测模型中进行运算;基于所述预测模型运算后输出的预测值,确定所述数据表是否接入。根据本专利技术的优选实施方式,所述收集表征数据表的记录内容变化状态的历史相关数据,进一步包括:以预设时间段为单位,收集所述数据表的记录内容变化状态,作为所述用于表征数据表的记录内容变化状态的历史相关数据。根据本专利技术的优选实施方式,所述历史相关数据进一步包括:数据表变化状态结果值,以及一个或多个数据表相关属性特征值。根据本专利技术的优选实施方式,对所述历史相关数据进行数列描述,转换为多维特征历史数据,进一步包括:按时间顺序将所述历史相关数据中的所述数据表变化状态结果值描述为状态变化数列,并将所述一个或多个数据表相关属性特征值分别对应所述状态变化数列中的各个变化状态结果值进行标注,转换为多维特征历史数据。根据本专利技术的优选实施方式,将所述多维特征历史数据输入到预测模型中进行运算之前,还包括:将预设一定历史时段内的数据表,及对应的历史相关数据作为样本数据用于训练所述预测模型。根据本专利技术的优选实施方式,所述将预设一定历史时段内的数据表作为样本数据用于训练所述预测模型,进一步包括:将预设一定历史时段内的数据表作为样本数据,将所述历史时段结束时的接入状态作为分类标识,提取样本数据中相关的一个或多个属性特征值作为特征变量;使用所述特征变量训练所述预测模型。根据本专利技术的优选实施方式,所述提取样本数据中相关的一个或多个属性特征值作为特征变量,进一步包括:提取样本数据中相关的一个或多个属性特征值,基于信息评价指标进行变量筛选;将筛选后的属性特征值作为特征变量。根据本专利技术的优选实施方式,使用所述特征变量训练所述预测模型,还包括:设置所述预测模型运算后的分类判定阈值,通过绘制不同阈值下的P-R曲线调整匹配需求的阈值;使用调整后的阈值作为所述预测模型确定数据表是否接入的分类判定标准。根据本专利技术的优选实施方式,基于所述预测模型运算后输出的预测值,确定所述数据表是否接入,进一步包括:将所述输出的预测值与所述调整后的阈值进行比较,确定所述数据表是否接入。根据本专利技术的优选实施方式,还包括:设置数据表发生记录内容变化作为接入状态,需对数据表进行接入,且设置数据表未发生记录内容变化作为不接入状态,需不对数据表进行接入;构建i*k的接入状态矩阵T,用以记录待接入的数据表在一定历史时段的接入状态,所述接入状态矩阵T由元素t(i,k)构成,由此数据表接入状态的判定规则与取值如下:其中,t(i,k)表示第i个待接入的数据表在第k日的接入状态,c(i,k)表示第i个数据表在第k日的数据记录条数。根据本专利技术的优选实施方式,还包括:分析所述接入状态矩阵T,依据数据表接入状态的稳定程度将所述数据表归入三种接入模式,第i个数据表的接入模式t(i)计算规则如下:其中S1、S2和S3代表三种接入模式,即S1:数据表在k日内的接入状态没有变化,皆为0,数据记录条数保持不变;S2:数据表在k日内的接入状态没有变化,皆为1,数据记录条数每日都会发生变动;S3:数据表在k日内的接入状态发生变化,有的日期记录条数会变动,有的不变动。12、如权利要求11所述的方法,在所述S1接入模式下,采取定期接入策略,以捕获S1模式的表的数据变化情况,定期接入策略的时间周期选取,基于接入模式变化率p来确定接入周期,所述接入模式变化率p由下列公式计算其中,接入模式变化率p即为m周期内的S1模式下的数据表在经过周期n后接入模式还是S1的比率。根据本专利技术的优选实施方式,在所述S2接入模式下,按一定周期内持续对数据表进行接入,直到所述周期结束后重新计算数据表的接入状态,以更新数据表的接入模式。根据本专利技术的优选实施方式,在所述S3接入模式下,使用所述预测模型确定所述数据表的接入状态。根据本专利技术的优选实施方式,基于所述数据表的接入状态,所述S1、S2和S3接入模式之间可以互相切换。根据本专利技术的优选实施方式,所述预测模型为以分类算法构建的二分类模型,所述分类算法包括:逻辑回归、决策树和/或随机森林运算。第二方面,本说明书提供一种基于预测模型的数据表接入系统,包括:收集单元,用于收集表征数据表的记录内容变化状态的历史相关数据;描述单元,用于对所述历史相关数据进行数列描述,转换为多维特征历史数据;模型运算单元,用于将所述多维特征历史数据输入到预测模型中进行运算;接入判断单元,用于根据所述预测模型运算后输出的预测值,确定所述数据表是否接入。根据本专利技术的优选实施方式,所述收集单元,进一步用于,以预设时间段为单位,收集所述数据表的记录内容变化状态,作为所述用于表征数据表的记录内容变化状态的历史相关数据。根据本专利技术的优选实施方式,所述历史相关数据进一步包括:数据表变化状态结果值,以及一个或多个数据表相关属性特征值。根据本专利技术的优选实施方式,所述描述单元,进一步用于,按时间顺序将所述历史相关数据中的所述数据表变化状态结果值描述为状态变化数列,并将所述一个或多个数据表相关属性特征值分别对应所述状态变化数列中的各个变化状态结果值进行标注,转换为多维特征历史数据。根据本专利技术的优选实施方式,还包括:训练单元,用于将预设一定历史时段内的数据表,及对应的历史相关数据作为样本数据训练所述预测模型。根据本专利技术的优选实施方式,所述训练单元,进一步用于,将预设一定历史时段内的数据表作为样本数据,将所述历史时段结束时的接入状态作为分类标识,提取样本数据中相关的一个或多个属性特征值作为特征变量;使用所述特征变量训练所述预测模型。根据本专利技术的优选实施方式,所述训练单元,还用于,提取样本数据中相关的一个或多个属性特征值,基于信息评价指标进行变量筛选;将筛选后的属性特征值作为特征变量。根据本专利技术的优选实施方式,所述训练单元,还用于,设置所述预测模型运算后的分类判定阈值,通过绘制不同阈值下的P-R曲线调整匹配需求的阈值;使用调整后的阈值作为所述预测模型确定数据表是否接入的分类判定标准。根据本专利技术的优选实施方式,接入判断单元,还用于,将所述本文档来自技高网...

【技术保护点】
1.一种基于预测模型的数据表接入方法,包括:收集表征数据表的记录内容变化状态的历史相关数据;对所述历史相关数据进行数列描述,转换为多维特征历史数据;将所述多维特征历史数据输入到预测模型中进行运算;基于所述预测模型运算后输出的预测值,确定所述数据表是否接入。

【技术特征摘要】
1.一种基于预测模型的数据表接入方法,包括:收集表征数据表的记录内容变化状态的历史相关数据;对所述历史相关数据进行数列描述,转换为多维特征历史数据;将所述多维特征历史数据输入到预测模型中进行运算;基于所述预测模型运算后输出的预测值,确定所述数据表是否接入。2.如权利要求1所述的方法,其中,所述收集表征数据表的记录内容变化状态的历史相关数据,进一步包括:以预设时间段为单位,收集所述数据表的记录内容变化状态,作为所述用于表征数据表的记录内容变化状态的历史相关数据。3.如权利要求2所述的方法,其中,所述历史相关数据进一步包括:数据表变化状态结果值,以及一个或多个数据表相关属性特征值。4.如权利要求3所述的方法,其中,对所述历史相关数据进行数列描述,转换为多维特征历史数据,进一步包括:按时间顺序将所述历史相关数据中的所述数据表变化状态结果值描述为状态变化数列,并将所述一个或多个数据表相关属性特征值分别对应所述状态变化数列中的各个变化状态结果值进行标注,转换为多维特征历史数据。5.如权利要求3所述的方法,其中,将所述多维特征历史数据输入到预测模型中进行运算之前,还包括:将预设一定历史时段内的数据表,及对应的历史相关数据作为样本数据用于训练所述预测模型。6.如权利要求5所述的方法,其中,所述将预设一定历史时段内的数据表作为样本数据用于训练所述预测模型,进一步包括:将预设一定历史时段内的数据表作为样本数据,将所述历史时段结束时的接入状态作为分类标识,提取样本数据中相关的一个或多个属性特征值作为特征变量;使用所述特征变量训练所述预测模型。7.如权利要求6所述的方法,其中,所述提取样本数据中相关的一个或多个属性特征值作为特征变量,进一步包括:提取样本数据中相关的一个或多个属性特征值,基于信息评价指标进行变量筛选;将筛选后的属性特征值作为特征变量。8.如权利要求6或7所述的方法,其中,使用所述特征变量训练所述预测模型,还包括:设置所述预测模型运算后的分类判定阈值,通过绘制不同阈值下的P-R曲线调整匹配需求的阈值;使用调整后的阈值作为所述预测模型确定数据表是否接入的分类判定标准。9.如权利要求8所述的方法,其中,基于所述预测模型运算后输出的预测值,确定所述数据表是否接入,进一步包括:将所述输出的预测值与所述调整后的阈值进行比较,确定所述数据表是否接入。10.如权利要求1所述的方法,还包括:设置数据表发生记录内容变化作为接入状态,需对数据表进行接入,且设置数据表未发生记录内容变化作为不接入状态,需不对数据表进行接入;构建i*k的接入状态矩阵T,用以记录待接入的数据表在一定历史时段的接入状态,所述接入状态矩阵T由元素t(i,k)构成,由此数据表接入状态的判定规则与取值如下:其中,t(i,k)表示第i个待接入的数据表在第k日的接入状态,c(i,k)表示第i个数据表在第k日的数据记录条数。11.如权利要求10所述的方法,还包括:分析所述接入状态矩阵T,依据数据表接入状态的稳定程度将所述数据表归入三种接入模式,第i个数据表的接入模式t(i)计算规则如下:其中S1、S2和S3代表三种接入模式,即S1:数据表在k日内的接入状态没有变化,皆为0,数据记录条数保持不变;S2:数据表在k日内的接入状态没有变化,皆为1,数据记录条数每日都会发生变动;S3:数据表在k日内的接入状态发生变化,有的日期记录条数会变动,有的不变动。12.如权利要求11所述的方法,在所述S1接入模式下,采取定期接入策略,以捕获S1模式的表的数据变化情况,定期接入策略的时间周期选取,基于接入模式变化率p来确定接入周期,所述接入模式变化率p由下列公式计算其中,接入模式变化率p即为m周期内的S1模式下的数据表在经过周期n后接入模式还是S1的比率。13.如权利要求11所述的方法,其中,在所述S2接入模式下,按一定周期内持续对数据表进行接入,直到所述周期结束后重新计算数据表的接入状态,以更新数据表的接入模式。14.如权利要求11所述的方法,其中,在所述S3接入模式下,使用所述预测模型确定所述数据表的接入状态。15.如权利要求11-14任一项所述的方法,其中,基于所述数据表的接入状态,所述S1、S2和S3接入模式之间可以互相切换。16.如权利要求1所述的方法,其中,所述预测模型为以分类算法构建的二分类模型,所述分类算法包括:逻辑回归、决策树和/或随机森林运算。17.一种基于预测模型的数据表接入系统,包括:收集单元,用于收集表征数据表的记录内容变化状态的历史...

【专利技术属性】
技术研发人员:张为锋曹斐
申请(专利权)人:拉卡拉支付股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1