表征现金流的数据组织形式与基于多任务学习的预测方法技术

技术编号：22169156 阅读：46 留言：0更新日期：2019-09-21 11:34

本发明专利技术涉及大数据处理技术，旨在提供一种表征现金流的数据组织形式与基于多任务学习的预测方法。包括：对电力部门销售流水和用电量的历史数据进行信息挖掘和统计分析；建立与回归分析有关的多个任务，建立多维数据标签；按时间序列进行交叉检验，利用深度卷积神经网络或者递归神经网络进行多任务学习，对模型进行性能测试；采用网格法得到神经网络的最佳超参数，最终确定神经网络模型的配置，并将该神经网络模型用于电力销售金额的预测。本发明专利技术构建了联合这些信息的新的数据组织形式，能够刻画日现金流来源。通过本发明专利技术构建的多任务学习相比传统统计模型有较少的人工干预，结果更加鲁棒，更适应大数据。

Data Organization Form Representing Cash Flow and Prediction Method Based on Multitask Learning

全部详细技术资料下载

【技术实现步骤摘要】
表征现金流的数据组织形式与基于多任务学习的预测方法
本专利技术涉及大数据处理，特别涉及一种表征现金流的数据组织形式与基于多任务学习的预测方法。
技术介绍
销售金额预测是指对未来特定时间内，全部产品或特定产品的销售数量与销售金额的估计。销售预测旨在充分考虑未来各种影响因素的基础上，通过一定的分析方法提出切实可行的销售目标，以及帮助企业做好财务预算，其结果对企业的发展规划、战略部署有着十分重要的意义。尽管如此，进行高质量消费预测绝非易事。目前可用于现金流预测的数据挖掘工具主要是一些统计分析方法，如时间序列分析、线性/非线性回归模型、灰色系统模型、最大熵马尔可夫模型等。虽然已有众多的成熟模型，而且这些模型已被广泛应用于经济预测领域，但是从以下两方面原因导致了电力销售金额预测的不准确性，也就限制了上述统计分析方法的实际应用。一方面电网销售金额数据名目众多，数量庞大，有必要先将这些数据按照一定的方式组织在一起，筛选出对现金流预测有帮助的信息，进而提供一种系统有效的，综合多模态、多时期、多用户，以及结合数据分布特征的数据组织形式。传统方法要么是选取其中少量数据维度，要么忽略已有数据之间的总体关联性质，这都导致了数据的信息缺失，使得进一步的建模受到先验限制；另一方面，基于能获取的所有数据维度，传统方法无法有效提取出其中利于预测的高维的、相互作用的有效特征。基于上述原因，对大数据处理和挖掘的需求也应运而生，其中代表性的方法就是神经网络。但是，目前尚未见到关于神经网络以及多任务学习在电网销售金额预测方面的运用的报道。
技术实现思路
本专利技术要解决的技术问题是，克服现有技术中的...

【技术保护点】
1.一种表征现金流的数据组织形式与基于多任务学习的预测方法，其特征在于，包括以下步骤：(1)读取电力部门销售流水和用电量的历史数据；(2)对历史数据进行信息挖掘和统计分析，评估金额到账时间与用户支付时间的关系，得出每天缴费用户的缴费金额到账情况、区域、用电量和具体金额的分布信息；按照设定的数据结构形式进行数据组织，然后按照分位数统计量对现金流数据进行分类；(3)建立与回归分析有关的多个任务，分类任务及匹配组成当日现金流的用户支付金额分布的任务，以此建立多维数据标签；(4)对历史数据按时间序列均分为k个时间段，每个时间段包含多天数据；(5)进行k次交叉检验：每次取步骤(4)中的k‑1组作为训练集，利用深度卷积神经网络或者递归神经网络进行多任务学习；通过回归分析给出未来定期金额的预测，并将剩下的一组作为检验集，对模型进行性能测试；(6)重复步骤(5)，采用网格法得到神经网络的最佳超参数，最终确定神经网络模型的配置，并将该神经网络模型用于电力销售金额的预测。

【技术特征摘要】
1.一种表征现金流的数据组织形式与基于多任务学习的预测方法，其特征在于，包括以下步骤：(1)读取电力部门销售流水和用电量的历史数据；(2)对历史数据进行信息挖掘和统计分析，评估金额到账时间与用户支付时间的关系，得出每天缴费用户的缴费金额到账情况、区域、用电量和具体金额的分布信息；按照设定的数据结构形式进行数据组织，然后按照分位数统计量对现金流数据进行分类；(3)建立与回归分析有关的多个任务，分类任务及匹配组成当日现金流的用户支付金额分布的任务，以此建立多维数据标签；(4)对历史数据按时间序列均分为k个时间段，每个时间段包含多天数据；(5)进行k次交叉检验：每次取步骤(4)中的k-1组作为训练集，利用深度卷积神经网络或者递归神经网络进行多任务学习；通过回归分析给出未来定期金额的预测，并将剩下的一组作为检验集，对模型进行性能测试；(6)重复步骤(5)，采用网格法得到神经网络的最佳超参数，最终确定神经网络模型的配置，并将该神经网络模型用于电力销售金额的预测。2.根据权利要求1所述的方法，其特征在于，所述步骤(1)中，所述电力部门销售流水的历史数据包括：用户行业、识别码、预计到账区间、实际缴费日期、缴费方式和缴费金额；所述用电量的历史数据是指每位用户的每月实际用电量。3.根据权利要求1所述的方法，其特征在于，所述步骤(1)中，还包括对历史数据进行数据去噪和时间序列平稳化的预处理。4.根据权利要求1所述的方法，其特征在于，所述步骤(2)中对历史数据进行信息挖掘和分析，具体包括以下步骤：(2.1)统计历年所有用户的用电量水平，根据用电量样本的1/4、1/2、3/4分位数划分初步用电量区间；将使用电量超过设定值的用户作为最后1/4分位，对其用电量等级再进行细分，最后按用电量将所有用户分成M个等级；(2.2)对最小到账日当天的用户组T中的用户缴费金额进行加总后作为现金流的估计，构成输入特征的一个维度；以20％、40％、60％、80％这几个分位数以及假设的现金流最大值1×10^9作为间断点，将加总现金流数据分为5类，其类标分别为0、1、2、3、4；(2.3)设定用户缴费到账日期的区间，将缴费日期归类为小于最小到账日、处于到账区间内或大于最大到账日；通过缴费时间与到账区间的关系，评估用户所缴纳金额对最小到账日现金流的影响；(2.4)取最小到账日和最大到账日中间的日期作为估计的实际到账日，并记作预计到账日，这个日期下的用户组记为S；在这个日期下：(2.41)对当日缴费用户的行业分布...

【专利技术属性】
技术研发人员：贺一丹，李梦，孔德兴，
申请(专利权)人：杭州博钊科技有限公司，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人