一种基于大数据的自助分析平台制造技术

技术编号：37541217 阅读：25 留言：0更新日期：2023-05-12 16:10

本发明专利技术公开了一种基于大数据的自助分析平台，属于大数据平台技术领域，本发明专利技术要解决的技术问题为如何摆脱对IT部门的严重依赖，降低数据分析门槛，更快的普及数据技术，达到灵活易于使用的目的，采用的技术方案为：该平台包括数据源接入单元、ETL单元、自助分析引擎单元、分析建模单元、数据应用单元及权限管理单元，数据源接入单元用于多种数据源、不同数据类型文件的接入；ETL单元用于将多来源的异构数据进行处理后得到具备完整性、一致性的数据模型，对各种结构化数据进行排序、去重、映射及行列合并的处理；自助分析引擎单元用于使用Python扩展挖掘算法构建模型，进而使用Tensorflow搭建模型，对数据进行深度学习训练，提供业务上数据预测和完善未来结果。提供业务上数据预测和完善未来结果。提供业务上数据预测和完善未来结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于大数据的自助分析平台

[0001]本专利技术涉及大数据平台
，具体地说是一种基于大数据的自助分析平台。

技术介绍

[0002]传统的侧重于数据平台的建设，提供报表服务，以IT为主，多集中在公司的IT部门，以数据分析为主，以业务分析为主，面向没有IT背景的业务分析师。
[0003]在快速发展的今天，商业智能已经不同于传统的商业智能，商业智能已经逐渐转变为自助和业务主导的模式。
[0004]故如何摆脱对IT部门的严重依赖，降低数据分析门槛，更快的普及数据技术，达到灵活易于使用的目的是目前亟待解决的技术问题，

技术实现思路

[0005]本专利技术的技术任务是提供一种基于大数据的自助分析平台，来解决如何摆脱对IT部门的严重依赖，降低数据分析门槛，更快的普及数据技术，达到灵活易于使用的目的的问题。
[0006]本专利技术的技术任务是按以下方式实现的，一种基于大数据的自助分析平台，该平台包括，
[0007]数据源接入单元，用于多种数据源、不同数据类型文件的接入；其中，数据源是指创建业务库和产品应用服务器的连接，拿到数据进行分析，构建统一的数据分析平台；
[0008]ETL(Extract
‑
Transform
‑
Load的缩写，数据抽取、转转及加载)单元，用于将多来源的异构数据进行处理后得到具备完整性、一致性的数据模型，对各种结构化数据进行排序、去重、映射及行列合并的处理，从而可以提高数据的质量、适应不同的数据分析方法；r/>[0009]自助分析引擎单元，用于使用Python扩展挖掘算法构建模型，进而使用Tensorflow搭建模型，对数据进行深度学习训练，提供业务上数据预测和完善未来结果，保证模型预测准确性，极大减轻运维人员的工作量；其中，Python扩展挖掘算法包括分类算法(逻辑回归、朴素贝叶斯、支持向量机、决策树、随机森林)、回归算法(线性回归、渐进梯度回归树)、聚类算法(K均值、DBSCAN、高斯混合模型)、文本分析(分词、词袋、停用词处理)及深度学习(神经网络)；
[0010]分析建模单元，用于通过指标模型、数据模型和机器学习模型进行数据分析建模，进而实现指标展现的应用；
[0011]数据应用单元，用于将数据以报表、可视化图形以及自助分析的方式进行应用；
[0012]权限管理单元，用于为公司所有的业务人员配置对应的权限管控。
[0013]作为优选，所述数据源接入单元支持的数据库包括关系数据库(RDBMS)、多维数据库(OLAP)、大数据库(BIGDATA)、本地文件及非关系型数据库(NOSQL)。
[0014]作为优选，所述数据源接入单元的工作过程具体如下：
[0015](1)、建立“数据连接”界面，在界面上配置数据源的连接信息；其中，连接信息各配
置项包括名称(新建的数据源的标示名，必须唯一)、别名(新建的数据源显示的名称)、连接字符串(数据库地址、数据库端口、数据库名称)、驱动程序类型(用户选择连接的数据库的类型)、用户名(数据库的用户名)及密码(数据库的密码)；
[0016](2)将相关连接信息输入后，自动对数据源进行测试连接，并标识该数据源的连接状态；
[0017](3)、数据源建立后，被纳入“数据库管理”；数据库管理根据需要添加数据库的资源(主要是表、视图、存储过程)到数据源下，以便在创建可视化数据集时，直接拖拽选择字段。
[0018]作为优选，所述ETL单元的工作过程具体如下：
[0019](1)、选择录入的多个数据源，将数据源节点拖入ETL画布区，在节点处选择设置数据处理方式；
[0020](2)、运行当前节点所选择的数据处理方式；其中，数据处理方式系统内置模块与自定义模块两种；系统内置模块的数据处理方式包括采样(按照某种规则从数据集中挑选样本数据)、拆分(将原始样本集按照训练集和测试集的方式拆分为两个子集)、过滤(根据用户需求，通过写SQL语句(片段)的方式，对数据集中指定字段进行条件筛选过滤)、列选择及空值处理；自定义模块的数据处理方式包括使用SQL脚本手动输入SQL语言完成对数据的处理和查询的任务、Python自定义脚本实现数据处理及数据分析；
[0021](3)、将节点处理好的数据导出到一张新表或Spark中进行计算和处理。
[0022]作为优选，所述自助分析引擎单元对数据处理包括如下情况：
[0023]①
、对于超大数据量的复杂查询分析，使用ETL对新连接的数据进行预处理，使用Spark提交任务的方式来实现自助分析；
[0024]②
、对于中小数据量的数据使用MPP(Greenplum、Vertica)数据库实现快速查询。
[0025]作为优选，所述指标模型的全局视图以指标为核心，实现一站式初始化指标库，并展示指标、维度和事实表三者之间关系的全局概览视图，以表格的形式展现；指标模型存储指标存储库中，并由指标管理系统对指标进行新建、修改及编辑的生命周期的管理；
[0026]指标库默认内置品牌零售(售罄率、成交率、留存率、动销率、平均成交时长)、电商行业(用户留存率、利润、成交转化率、复购率、销售额)、教育行业(课程留存率、课程到课率、试听转化率、观看人均时长比例)、文娱行业(有效直播看博率、活跃用户数、付费用户数、关注率、涨粉率)、保险行业(保单客户数、保单总额、退保率、理赔申请耗时、续保支付转化率、退保申请人数)、互联网(登录率、点击率、复购率、流入流出比例)、汽车(销售毛利率、费用毛利比、售后毛利率、汽车销售额)、房地产(看房转化率、电话接听率、活动参与率、成交转化率)、证券(用户粘性、股基交易率、客户活跃率)及游戏(渠道付费比、活动参加率、玩家留存率、付费率、通关率、人均抽卡次数)的领域指标；
[0027]数据模型将所有查询结果归集后，以“维度”和“度量”重新构建数据结构，提高数据处理效率与计算能力，进而将数据模型应用到自助仪表盘和电子表格；基于成熟的建模理论和方法，围绕事实表和维度表的关系而进行模型的构建；平台内置星型模型(所有维表都直接连接到事实表上，将多个维度集合到一个事实表，形成一个宽表)、雪花模型(一个或多个维表没有直接连接到事实表上，而是通过其他维度表连接到事实表)和星座模型(包含多个事实表，维表是公共的，可以共享)、单表模型，实现了数据模型的灵活性及应用广泛
性；
[0028]机器学习模型包括分类、回归、聚类、预测及关联，这5大类机器学习的成熟算法。其中包含了多种可训练的模型：逻辑回归、决策树、随机森林、朴素贝叶斯、支持向量机、线性回归、K均值、高斯混合模型。
[0029]作为优选，所述数据应用单元包括多维度分析模块和可视化模块；
[0030]多维度分析模块，用于将多维数据集中的各个维度进行有机组合，查询出相应的数据，提供切片、切块、钻取以及行列互换的多种可视化操作方式，使得不同角色可基于自身所关注的维度进行灵活的数本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的自助分析平台，其特征在于，该平台包括，数据源接入单元，用于多种数据源、不同数据类型文件的接入；其中，数据源是指创建业务库和产品应用服务器的连接，拿到数据进行分析，构建统一的数据分析平台；ETL单元，用于将多来源的异构数据进行处理后得到具备完整性、一致性的数据模型，对各种结构化数据进行排序、去重、映射及行列合并的处理；自助分析引擎单元，用于使用Python扩展挖掘算法构建模型，进而使用Tensorflow搭建模型，对数据进行深度学习训练，提供业务上数据预测和完善未来结果；其中，Python扩展挖掘算法包括分类算法、回归算法、聚类算法、文本分析及深度学习；分析建模单元，用于通过指标模型、数据模型和机器学习模型进行数据分析建模，进而实现指标展现的应用；数据应用单元，用于将数据以报表、可视化图形以及自助分析的方式进行应用；权限管理单元，用于为公司所有的业务人员配置对应的权限管控。2.根据权利要求1所述的基于大数据的自助分析平台，其特征在于，所述数据源接入单元支持的数据库包括关系数据库、多维数据库、大数据库、本地文件及非关系型数据库。3.根据权利要求1所述的基于大数据的自助分析平台，其特征在于，所述数据源接入单元的工作过程具体如下：(1)、建立“数据连接”界面，在界面上配置数据源的连接信息；其中，连接信息各配置项包括名称、别名、连接字符串、驱动程序类型、用户名及密码；(2)将相关连接信息输入后，自动对数据源进行测试连接，并标识该数据源的连接状态；(3)、数据源建立后，被纳入“数据库管理”；数据库管理根据需要添加数据库的资源到数据源下，以便在创建可视化数据集时，直接拖拽选择字段。4.根据权利要求1所述的基于大数据的自助分析平台，其特征在于，所述ETL单元的工作过程具体如下：(1)、选择录入的多个数据源，将数据源节点拖入ETL画布区，在节点处选择设置数据处理方式；(2)、运行当前节点所选择的数据处理方式；其中，数据处理方式系统内置模块与自定义模块两种；系统内置模块的数据处理方式包括采样、拆分、过滤、列选择及空值处理；自定义模块的数据处理方式包括使用SQL脚本手动输入SQL语言完成对数据的处理和查询的任务、Python自定义脚本实现数据处理及数据分析；(3)、将节点处理好的数据导出到一张新表或Spark中进行计算和处理。5.根据权利要求1所述的基于大数据的自助分析平台，其特征在于，所述自助分析引擎单元对数据处理包括如下情况：
①
、对于超大数据量的复杂查询分析，使用ETL对新连接的数据进行预处理，使用Spark提交任务的方式来实现自助分析；
②
、对于中小数据量的数据使用MPP(Greenplum、Vertica)数据库实现快速查询。6.根据权利要求1所述的基于大数据的自助分析平台，其特征在...

【专利技术属性】
技术研发人员：宫庆周，李承林，徐士强，王禹博，
申请(专利权)人：浪潮云信息技术股份公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人