System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种强一致保障的分布式概率型HTAP回归算法制造技术_技高网

一种强一致保障的分布式概率型HTAP回归算法制造技术

技术编号:40135724 阅读:6 留言:0更新日期:2024-01-23 22:50
本申请提供了一种强一致保障的分布式概率型HTAP回归算法,涉及IT与软件开发/平台技术领域,包括如下步骤:S1.寻找关于预测电价的数据源;S2.数据预处理,处理有问题的数据;S3.数据分析和建模,采用集成回归算法;S4.结果可视化。在数据获取处理过程中,进行必要的数据清洗和预处理,包括删除了异常数据、进行必要的数据清洗和预处理,如此使得数据获取的精准度和可靠性提升,利于提升后期电价预测结果的可行度。同时本申请不仅提供了一种SQL的新能力,同时提高了效率与方便性,对解决现实中此类问题带来了极大的优势。

【技术实现步骤摘要】

本申请涉及it与软件开发/平台,尤其涉及一种强一致保障的分布式概率型htap回归算法。


技术介绍

1、电价预测就是指在考虑市场供求关系,市场参与者的市场力,电力成本,以及电力市场体制结构、社会经济形势等重要因素影响的条件下,通过利用数学工具对历史数据进行分析和研究,探索事物之间的内在联系和发展变化规律,在满足一定精度和速度的情况下,对未来电力市场中的电力交易价格进行预测。电价是反映电力市场运营状况,评价市场竞争效率的核心指标,是电力市场决策的基础。阐述了电力市场电价预测问题的特点、内容和方法,分析和比较了短期预测和中长期预测的各种方法,指出了各种方法的优缺点。

2、目前为止的电价预测,需要将电价相关属性因子数据,以及电价标签因子导出标注后,采用机器学习算法学习模型后实现预测,这样,无论实时交易电价对模型的影响、以及模型的获取、发布及使用方便性,都严重影响了电价预测与相关业务的质效。

3、现有的传统数据库功能,也只能实现精确的“=”式查询,而当用于查询的属性列符合线性、二次或者某种阶次的拟合规律时,如果要查询不在属性集合内的值(例如属性列c1的值有2、3对应的另一列c2的数值,现在要查询c1列=2.5的c2列值),同样需要将数据从数据库中导出到文本文件,用机器学习算法进行人工拟合模型,然后再代入参数进行计算;而传统数据库,在产生实时电价交易数据的服务端,也不适合进行分析型智能预测计算;同时,将数据量特别大时,硬文件可能无法有效管理这些数据,对机器学习算法的执行也带来影响,使得工作无法开展;另外,传统的数据库筛选过滤、处理异常数据的功能不佳,难以在工作开展中获取有效数据。


技术实现思路

1、为了克服上述
技术介绍
中的不足,本申请实施例提供一种强一致保障的分布式概率型htap回归算法,数据获取的精准度和可靠性提升,同时实现了数据库服务端实时电价预测的功能。

2、本申请实施例解决其技术问题所采用的技术方案是:

3、一种强一致保障的分布式概率型htap回归算法,包括如下步骤:

4、s1.寻找关于预测电价的数据源;

5、s2.数据预处理,处理有问题的数据;

6、s3.数据分析和建模,采用集成回归算法;

7、s4.结果可视化。

8、进一步的,在所述步骤s1中,通过测量或取得历史数据的方式,获得该区域的小时级历史气温,工作日,节假日,小时参数,月参数,年参数,历史用电负荷,包括同一时段上一周的负荷,同一时段昨天的负荷,前二十四小时的平均负荷以及历史节点电价,包括同一时段上一周的电价,同一时段昨天的电价,前二十四小时的平均电价,前一天的峰值电价,上一周的峰值电价。

9、在具体实现过程中,关于测量或取得历史数据的方式:

10、a.使用内置的数学和统计函数对数据进行计算和分析,例如求和、平均值、标准差。

11、b.使用group by语句对数据进行汇总和聚合,可以按某个字段对数据进行分组,并计算每个组的总和、平均值、最小值、最大值统计信息。

12、进一步的,在所述步骤s2中,将收集取得的数据导入sql数据库中,并进行必要的数据清洗和预处理,去除重复项、处理缺失值。

13、进一步的,在所述步骤s2中,在sql数据库进行数据预处理中,由于存在的人为误差,删除了异常数据,比如:由于极端高温或极端低温导致的峰值电价,大面积输电堵塞导致的峰值电价,由于该类数据的出现概率很小,我们采用异常分析的办法,剔除掉1%概率最小的数据。

14、在具体实现过程中:

15、一、关于去除重复项的说明,能够使用group by子句来消除sql server中重复的行。这可以在select中一次处理一组行,以便只返回唯一的行。下面是一个论述怎样使用group by子句来消除重复数据的代码示例:

16、select productname,sum(quantity)as quantity from orders group byordername

17、如上面的示例代码所示,group by子句将消除所有重复的行,只返回productname和quantity数量。

18、二、关于在sql数据库中处理缺失值,需要说明的是,按照如下步骤进行:

19、(1)、首先打开已经存在的数据;

20、(2)、选择需要替换缺失值的数据;

21、(3)、打开之后可以看到,有一处数据是缺失了的,下面我们将要新建一个变量填补这个缺失值;

22、(4)、打开转换,找到替换缺失值,单击将其打开;

23、(5)、打开之后会弹出一个替换缺失值的窗口,先要选择替换缺失值的变量,选择添加到右边的白色方框,然后设置变量名,选择更改,最后选择序列均值,确定即可。

24、(6)、单击确定之后会弹出一个日志文件窗口,可以看到替换缺失值到底有没有成功,出现下面的值就是成功了。

25、(7)、可以看到出现了一个新的用自定义的名字命名的变量,对缺失值进行了填补。

26、进一步的,在所述步骤s3中,集成回归算法的每一颗集成子树所需要的数据集,在实现bagging时,采用分布式newsql数据库的region相邻选取的策略来实现。

27、在具体实现过程中,例如有region1,2,3,4,5,6......,集成子树的数据集分别选(1、2),(2,3),(3,4),......。

28、进一步的,利用分布式newsql数据库的分布计算节点,分布执行集成回归算法,迭代选举得到模型。

29、进一步的,利用模型,代用sql语句中“=”后的域外值,得到回归拟合结果,同时将集成回归模型的precision返回当成该结果的possibility输出。

30、进一步的,集成回归算法的目的是对“=”号前谓词代表的列值c1与select后面的列值c2、c3......进行学习拟合。

31、进一步的,在分布式newsql数据库htap的分析域进行,交易域的电价交易数据实时一致地向分析域同步,动态支持预测结果的实时性与准确性。

32、进一步的,所述集成回归算法包括但不局限于:随机森林算法、gbdt回归算法。

33、本申请实施例的优点是:

34、1.在数据获取处理过程中,进行必要的数据清洗和预处理,包括删除了异常数据、去除重复项、处理缺失值,如此使得数据获取的精准度和可靠性提升,利于提升后期电价预测结果的可行度。

35、2.应对该方法,给电价查询sql语句赋予了回归拟合的能力,从而使得数据库表中具有某种相关关系的表列之间的“=”值查询,可以查询任意值,避免了导出单独重新计算的过程;交易分析混合负载特征的利用赋予电价预测结果由即时业务数据实时动态驱动;同时,对海量数据,采用分布式数据库计算/存储分布的优点,实现了在文件本文档来自技高网...

【技术保护点】

1.一种强一致保障的分布式概率型HTAP回归算法,其特征在于,包括如下步骤:

2.如权利要求1所述的强一致保障的分布式概率型HTAP回归算法,其特征在于,在所述步骤S1中,通过测量或取得历史数据的方式,获得该区域的小时级历史气温,工作日,节假日,小时参数,月参数,年参数,历史用电负荷,包括同一时段上一周的负荷,同一时段昨天的负荷,前二十四小时的平均负荷以及历史节点电价,包括同一时段上一周的电价,同一时段昨天的电价,前二十四小时的平均电价,前一天的峰值电价,上一周的峰值电价。

3.如权利要求1所述的强一致保障的分布式概率型HTAP回归算法,其特征在于,在所述步骤S2中,将收集取得的数据导入SQL数据库中,并进行必要的数据清洗和预处理,去除重复项、处理缺失值。

4.如权利要求1所述的强一致保障的分布式概率型HTAP回归算法,其特征在于,在所述步骤S2中,在SQL数据库进行数据预处理中,由于存在的人为误差,删除了异常数据,比如:由于极端高温或极端低温导致的峰值电价,大面积输电堵塞导致的峰值电价,由于该类数据的出现概率很小,我们采用异常分析的办法,剔除掉1%概率最小的数据。

5.如权利要求1所述的强一致保障的分布式概率型HTAP回归算法,其特征在于,在所述步骤S3中,集成回归算法的每一颗集成子树所需要的数据集,在实现Bagging时,采用分布式NewSQL数据库的Region相邻选取的策略来实现。

6.如权利要求5所述的强一致保障的分布式概率型HTAP回归算法,其特征在于,利用分布式NewSQL数据库的分布计算节点,分布执行集成回归算法,迭代选举得到模型。

7.如权利要求6所述的强一致保障的分布式概率型HTAP回归算法,其特征在于,利用模型,代用SQL语句中“=”后的域外值,得到回归拟合结果,同时将集成回归模型的precision返回当成该结果的Possibility输出。

8.如权利要求7所述的强一致保障的分布式概率型HTAP回归算法,其特征在于,集成回归算法的目的是对“=”号前谓词代表的列值C1与Select后面的列值C2、C3......进行学习拟合。

9.如权利要求8所述的强一致保障的分布式概率型HTAP回归算法,其特征在于,在分布式NewSQL数据库HTAP的分析域进行,交易域的电价交易数据实时一致地向分析域同步,动态支持预测结果的实时性与准确性。

10.如权利要求9所述的强一致保障的分布式概率型HTAP回归算法,其特征在于,所述集成回归算法包括但不局限于:随机森林算法、GBDT回归算法。

...

【技术特征摘要】

1.一种强一致保障的分布式概率型htap回归算法,其特征在于,包括如下步骤:

2.如权利要求1所述的强一致保障的分布式概率型htap回归算法,其特征在于,在所述步骤s1中,通过测量或取得历史数据的方式,获得该区域的小时级历史气温,工作日,节假日,小时参数,月参数,年参数,历史用电负荷,包括同一时段上一周的负荷,同一时段昨天的负荷,前二十四小时的平均负荷以及历史节点电价,包括同一时段上一周的电价,同一时段昨天的电价,前二十四小时的平均电价,前一天的峰值电价,上一周的峰值电价。

3.如权利要求1所述的强一致保障的分布式概率型htap回归算法,其特征在于,在所述步骤s2中,将收集取得的数据导入sql数据库中,并进行必要的数据清洗和预处理,去除重复项、处理缺失值。

4.如权利要求1所述的强一致保障的分布式概率型htap回归算法,其特征在于,在所述步骤s2中,在sql数据库进行数据预处理中,由于存在的人为误差,删除了异常数据,比如:由于极端高温或极端低温导致的峰值电价,大面积输电堵塞导致的峰值电价,由于该类数据的出现概率很小,我们采用异常分析的办法,剔除掉1%概率最小的数据。

5.如权利要求1所述的强一致保障的分布式概率型htap回归算法,其特征在于,在所述步骤s...

【专利技术属性】
技术研发人员:陈彬徐欢朱泰鹏梁盈威
申请(专利权)人:广东电网有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1