一种基于大数据的通用模型动态积分预警方法技术

技术编号:27460120 阅读:30 留言:0更新日期:2021-02-25 05:15
本发明专利技术涉及一种基于大数据的通用模型动态积分预警方法,其包括以下步骤:S1.数据抽取,将不同数据库结构的源数据库同步至目标数据库clickhouse中;S2.基于画布拖拽配置动态积分模型;S3.下发动态积分模型:将动态积分模型的配置参数下发到生产者kafka分区中,实现分布式负载均衡算法;S4.基于动态积分模型,计算实时动态积分。本发明专利技术基于画布拖拽生成动态积分配置模型,满足了动态模型配置的灵活性质,同时可以提高大数据计算模型的时效性质,达到秒级预算结果。达到秒级预算结果。达到秒级预算结果。

【技术实现步骤摘要】
一种基于大数据的通用模型动态积分预警方法


[0001]本专利技术涉及大数据处理
,具体地涉及一种基于大数据的通用模型动态积分预警方法。

技术介绍

[0002]目前传统的积分引擎基于少量历史数据、静态数据,无法动态满足实时数据流分析,无法动态业务性对积分进行影响,无法进行实时流式数据计算分值,大部分的传统积分引擎是批处理的离线方式进行积分计算,无法满足实时分值计算,动态调整分值。
[0003]随着大数据技术的发展,现有的传统积分模型都面临着海量数据的分析。如果单纯的依靠关系型数据库进行离线分析,在分析的过程中往往需要耗费大量的时间,分析过程中会存在数据异常,物理中断等情况,造成传统积分模型分析过程中线程中断,可靠性不高,数据分析的准确性不高,时效性不高。传统积分模型动态的去修改积分规则和积分对应的数据源,需要进行人为的代码编写,无法实时动态拖拽配置生成积分规则引擎,需要耗费大量的人力成本进行代码编写、测试、发布,耗时较久。传统积分模型无法直观的进行规则的展示,需要人为的整理积分模型规则,可辨度不高,理解难度较大,无法直观的展示积分模型规则。

技术实现思路

[0004]本专利技术旨在提供一种基于大数据的通用模型动态积分预警方法,以解决上述问题。为此,本专利技术采用的具体技术方案如下:
[0005]一种基于大数据的通用模型动态积分预警方法,其包括以下步骤:
[0006]S1.数据抽取,将不同数据库结构的源数据库同步至目标数据库clickhouse中;
[0007]S2.配置动态积分模型,具体过程为:
[0008]S21.配置动态积分模型的数据源对应的表名称、对应的字段类型、字段详解和字段中文名称;
[0009]S22.基于画布拖拽生成动态积分配置模型:基于画布拖拽选择主数据源结点,基于主数据源连接过滤算子,基于过滤算子连接n个数据源结点,依次基于第i个数据源n
i
连接对应的过滤算子节点s
i
,基于过滤算子节点s
i
连接对应的分值算子节点f
i
,基于分值算子节点f
i
连接聚合算子节点,最终聚合算子节点连接到输出算子节点,其中,i=1,2,

,n;
[0010]S23.保存动态积分模型:将结点及结点对应的配置参数和各连接线关系保存在MongoDB数据库中;
[0011]S3.下发动态积分模型:将动态积分模型的配置参数下发到生产者kafka分区中,实现分布式负载均衡算法;
[0012]S4.基于动态积分模型,计算实时动态积分。
[0013]进一步地,步骤S1具体为:
[0014]S11.构建源数据库连接的配置文件,包含用户名、密码、端口、ip和数据库名称;
[0015]S12.构建目标数据库连接的配置文件,包含用户名、密码、端口、ip和数据库名称;
[0016]S13.选择源数据库对应表结构与目标数据库表结构字段映射;
[0017]S14.选择源数据库增量字段;
[0018]S15.生成符合DataX规定的json格式,将源数据库同步至目标数据库clickhouse中。
[0019]进一步地,过滤算子支持关系包括:时间过滤、条件过滤和关联字段;分值算子支持关系包括:权重0到+∞、单维度爆表、全维度爆表、最大值和压缩正态分布;聚合算子支持关系包括:是否阻塞结点、聚合组和所有前结点与本聚合算子关联的字段映射。
[0020]进一步地,S23中的保持连接线关系具体为:保存数据源与数据过滤结点之间的关系顺序,保存数据过滤结点与下一个数据源之间的顺序关系,保存下一个数据源结点与数据过滤结点之间的关系,保存数据源结点与分值计算结点直接的关系,保存数据源与分值计算结点之间的关系,保存分值计算结点与数据聚合结点之间的关系以及保存数据聚合结点与表输出结点之间的关系。
[0021]进一步地,步骤S4具体为:获取动态积分模型的开始结点,也就是主数据源结点,从左到右的顺序依次执行对应的数据过滤算子、分值算子、聚合算子和表输出算子结点,具体如下:
[0022]S41、当流程走到数据过滤结点时,找到上级对应的数据源结点,基于时间过滤、条件过滤组装成sql语句对clickhouse中的数据源表进行查询,返回结果集再基于字段映射转换成对应的字段及对应字段的值;当该数据过滤的结点上级是主数据源结点时进行分页,每次轮询去取1000条数据,将每条数据下发并重新生成新模型进行下发运算;
[0023]S42、当流程走到分值计算结点时,其流程与S41一样,并增加以下限制条件:
[0024]a.基于上述过滤条件查找出总条数,再与权重进行加权:
[0025]分值=∑v
i
×
w
i
[0026]其中v
i
代表总条数,w
i
代表权重;
[0027]b.当选择单维度爆表的情况下,并且计算出来的总条数大于等于配置的最大值,则配置直接展示该这个结点的分值为配置的最大值;
[0028]c.当选择全维度爆表的情况下,并且计算出来的总条数大于等于配置的最大值,则配置该模型计算出来的分值为99分;
[0029]d.当选择正态分布压缩分值时,分值计算如下:
[0030]当原始值等于s1时,则压缩值为t1;
[0031]当原始值等于s2时,则压缩值为t2;
[0032]当原始值等于s2/s1时,则压缩值为t2/t1;
[0033]当原始值大于s2/s1时,则压缩值为t2/s2
×
原始值;
[0034]当原始值小于s2/s1时,则压缩值为t1/s1
×
原始值;
[0035]S43.当流程走到聚合结点时,当选择阻塞结点时,则判断当前结点上所有上级结点是否运行完毕,如果运行完毕则直接进入下一个结点,否则递归找到所有未运行的上级结点运行并记录运行的状态及结点,当所有上级结点运行完毕后直接进入下一个结点;当选择聚合组时,则所有上级结点的生成的结果集基于聚合组key进行分组过滤,满足则进入下一个结点,否则跳出当前循环;
[0036]S44.当流程走到表输出结点值时,当选择插入时,则基于字段映射转换规则进行数据入库到指定的结果表中;当选择更新时,则基于更新的字段进行判断是否存在,如果不存在则基于字段映射转换规则进行数据入库到指定的结果表中,如果存在则进行更新操作;
[0037]S45.基于上述结果表展示运行后的总分值及对应的结果集。
[0038]进一步地,结果表包括以下字段:
[0039]总分值Double类型,用于存储总分值;
[0040]模型id Long类型,用于保存是哪个积分模型;
[0041]创建时间,用于保存生成该积分的时间;
[0042]更新时间,用于记录更新该模型的时间;
[0043]运行的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的通用模型动态积分预警方法,其特征在于,包括以下步骤:S1.数据抽取,将不同数据库结构的源数据库同步至目标数据库clickhouse中;S2.配置动态积分模型,具体过程为:S21.配置动态积分模型的数据源对应的表名称、对应的字段类型、字段详解和字段中文名称;S22.基于画布拖拽生成动态积分配置模型:基于画布拖拽选择主数据源结点,基于主数据源连接过滤算子,基于过滤算子连接n个数据源结点,依次基于第i个数据源n
i
连接对应的过滤算子节点s
i
,基于过滤算子节点s
i
连接对应的分值算子节点f
i
,基于分值算子节点f
i
连接聚合算子节点,最终聚合算子节点连接到输出算子节点,其中,i=1,2,

,n;S23.保存动态积分模型:将结点及结点对应的配置参数和各连接线关系保存在MongoDB数据库中;S3.下发动态积分模型:将动态积分模型的配置参数下发到生产者kafka分区中,实现分布式负载均衡算法;S4.基于动态积分模型,计算实时动态积分。2.如权利要求1所述的方法,其特征在于,步骤S1具体为:S11.构建源数据库连接的配置文件,包含用户名、密码、端口、ip和数据库名称;S12.构建目标数据库连接的配置文件,包含用户名、密码、端口、ip和数据库名称;S13.选择源数据库对应表结构与目标数据库表结构字段映射;S14.选择源数据库增量字段;S15.生成符合DataX规定的json格式,将源数据库同步至目标数据库clickhouse中。3.如权利要求1所述的方法,其特征在于,过滤算子支持关系包括:时间过滤、条件过滤和关联字段;分值算子支持关系包括:权重0到+∞、单维度爆表、全维度爆表、最大值和压缩正态分布;聚合算子支持关系包括:是否阻塞结点、聚合组和所有前结点与本聚合算子关联的字段映射。4.如权利要求1所述的方法,其特征在于,S23中的保持连接线关系具体为:保存数据源与数据过滤结点之间的关系顺序,保存数据过滤结点与下一个数据源之间的顺序关系,保存下一个数据源结点与数据过滤结点之间的关系,保存数据源结点与分值计算结点直接的关系,保存数据源与分值计算结点之间的关系,保存分值计算结点与数据聚合结点之间的关系以及保存数据聚合结点与表输出结点之间的关系。5.如权利要求1所述的方法,其特征在于,步骤S4具体为:获取动态积分模型的开始结点,也就是主数据源结点,从左到右的顺序依次执行对应的数据过滤算子、分值算...

【专利技术属性】
技术研发人员:刘远祥左军王仁斌
申请(专利权)人:厦门市美亚柏科信息股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1