一种数据分析系统、方法、服务器及存储介质技术方案

技术编号:35893959 阅读:18 留言:0更新日期:2022-12-10 10:26
本发明专利技术提供一种数据分析系统、方法、服务器及存储介质,本发明专利技术涉及元数据分析技术领域,获取用户行为数据,并对用户行为数据进行预处理,形成用户行为数据集;对用户行为数据集进行分组或聚合操作,计算用户行为数据集中的均值与标准差;对用户行为数据进行评分;对用户行为数据进行归一化处理,形成事件对象化图谱,用以表示事件与行为、事件与事件的连接关系;将处理结果进行存储供并进行展示。可以实现数据处理流程动态调整、数据处理结果组合再处理、数据处理结果分层输出/再处理,数据集/数据集规则指数型增量动态扩展。解决数据的分析规则海量增长、规则算子动态扩展、数据处理批流一体化的问题。处理批流一体化的问题。处理批流一体化的问题。

【技术实现步骤摘要】
一种数据分析系统、方法、服务器及存储介质


[0001]本专利技术涉及元数据分析
,尤其涉及一种数据分析系统、方法、服务器及存储介质。

技术介绍

[0002]数据分析是数据处理流程的核心,因为数据中所蕴藏的价值就产生于分析的过程。所谓“大数据分析”,其和以往数据分析的最重要的差别在于数据量急剧增长。由于数据量的增长,使得对于数据的存储、查询以及分析的要求迅速提高。从实际操作的角度看,“大数据分析”需要通过对原始数据进行分析来探究一种模式,寻找导致现实情况的根源因素,通过建立模型与预测来进行优化,以实现各个领域的持续改善与创新。现阶段数据分析手段主要包含以下方式:模型分析:通过梳理数据分析逻辑开发的定制化的数据分析程序,针对特殊需求的定制化开发。
[0003]批量分析:通过页面规则配置后,程序根据配置的规则翻译生成Spark SQL可执行文件,定期调度执行分析。
[0004]实时/序列分析:通过页面规则配置后,程序根据配置的规则拼装生成siddhi可执行的文件,实时调度进行数据分析。
[0005]基于定制模型的分析方式功能相对单一,需要研发人员自己开发分析程序,对研发人员技术要求较高,开发周期相对较长,同时模型复用性较低。模型的性能优化方面参差不齐,对整体系统的稳定性存在巨大隐患。
[0006]基于页面规则配置化的批量分析,通过代码翻译的方式将规则固化,不利于规则的动态调整。翻译后的代码不利于进行代码层面的性能优化,同时该方式为基于规则翻译方式,针对同一数据集的多种分析规则会生成多个分析代码,分析时会同时加载相同数据,造成数据重复拉取,资源浪费,影响整体系统的稳定性运行,无法满足规则指数增长的需求,代码翻译方式对于海量数据分析没有实际意义。
[0007]基于规则配置的实时/序列分析方式,该分析方式本质上同批量分析的代码翻译方式,采用程序翻译成引擎可执行的语句活文件。由于流分析引擎先天的存在缺陷,导致该分析方式存在分数据丢失的情况,同时分析性能无法满足业务需求,无法支撑数据爆炸增长的分析诉求。

技术实现思路

[0008]为了解决现有技术的不足,本专利技术提供一种数据分析系统是基于元数据与策略驱动的数据分析方法来解决数据的分析规则海量增长、规则算子动态扩展、数据处理批流一体化的问题。
[0009]数据分析系统包括:数据预处理模块、用户行为分析模块、事件评分处置模块、对象化处理模块以及系统架构模块;
数据预处理模块用于获取用户行为数据,并对用户行为数据进行预处理,形成用户行为数据集;用户行为分析模块用于对用户行为数据集进行分组或聚合操作,计算用户行为数据集中的均值与标准差;事件评分处置模块用于对用户行为数据进行评分;对象化处理模块用于对用户行为数据进行归一化处理,形成事件对象化图谱,用以表示事件与行为、事件与事件的连接关系;系统架构模块用于将处理结果进行存储供并进行展示。
[0010]进一步需要说明的是,数据预处理模块采用XML文件的形式对用户行为数据进行预处理。
[0011]进一步需要说明的是,数据预处理模块的主流程通过XML配置方式对用户行为数据进行预处理,用户行为数据的处理规则基于XML配置实现。
[0012]进一步需要说明的是,对象化处理模块还基于深度学习和图计算结合大规模图表征算法,对已有的对象化数据进行计算和分析,使用定点和边描述相应关系。
[0013]进一步需要说明的是,对象化处理模块基于BSP模型的同步调度方式,将计算过程分为若干超步,每个超步内所有的顶点程序独立并行的执行,结束后进行全局同步。
[0014]进一步需要说明的是,系统架构模块提供浏览器,使用户通过浏览器访问系统,在页面中进行相关规则配置操作。
[0015]进一步需要说明的是,系统架构模块还用于将规则下发到引擎,还初始化配置项中的处理规则,对数据进行加载,对用户行为数据进行统一的数据处理、分析、事件处置、对象化处理操作,将处理结果进行存储供并进行展示。
[0016]本专利技术还提供一种数据分析方法,方法包括:S101、获取用户行为数据,并对用户行为数据进行预处理,形成用户行为数据集;S102、对用户行为数据集进行分组或聚合操作,计算用户行为数据集中的均值与标准差;S103、对用户行为数据进行评分;S104、对用户行为数据进行归一化处理,形成事件对象化图谱,用以表示事件与行为、事件与事件的连接关系;S105、将处理结果进行存储供并进行展示。
[0017]本专利技术还提供一种服务器,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行基于元数据与策略驱动的数据分析方法步骤。
[0018]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现基于元数据与策略驱动的数据分析方法步骤。
[0019]从以上技术方案可以看出,本专利技术具有以下优点:本专利技术提供的基于元数据与策略驱动的数据分析系统及方法采用XML文件的形式来体现数据处理的规则配置。本专利技术提供的基于元数据与策略驱动的数据分析系统及方法用Flink计算引擎代替Spark计算引擎进行数据处理。系统中配置项可用Json、ymal、MySQL替代XML形式,可以自定数据处理的流程,针对不同数据集配置的不同处理规则,自定义数
据接入源、数据输出源。可以实现数据处理流程动态调整、数据处理结果组合再处理、数据处理结果分层输出/再处理,数据集/数据集规则指数型增量动态扩展。解决数据的分析规则海量增长、规则算子动态扩展、数据处理批流一体化的问题。
[0020]本专利技术实现数据集与分析规则一对一、一对多、多对多的并行分析方式。对分析流程实现了处理器化,处理器支持热扩展。分析流程可编排功能,系统层面实现流批一体化。具有使用简单、覆盖场景多、性能优越、可扩展性强、插件化处理、数据分析精确度高的优点。
附图说明
[0021]为了更清楚地说明本专利技术的技术方案,下面将对描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0022]图1为数据分析系统示意图;图2为数据分析系统实施例架构图;图3为数据分析方法流程图。
具体实施方式
[0023]如图1和2所示,本专利技术提供一种数据分析系统中所提供的图示仅以示意方式说明本专利技术的基本构想,数据分析系统可以基于人工智能技术对关联的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用装置。
[0024]本专利技术基于元数据与策略驱动的数据分析系统利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据分析系统,其特征在于,包括:数据预处理模块、用户行为分析模块、事件评分处置模块、对象化处理模块以及系统架构模块;数据预处理模块用于获取用户行为数据,并对用户行为数据进行预处理,形成用户行为数据集;用户行为分析模块用于对用户行为数据集进行分组或聚合操作,计算用户行为数据集中的均值与标准差;事件评分处置模块用于对用户行为数据进行评分;对象化处理模块用于对用户行为数据进行归一化处理,形成事件对象化图谱,用以表示事件与行为、事件与事件的连接关系;系统架构模块用于将处理结果进行存储供并进行展示。2.根据权利要求1所述的数据分析系统,其特征在于,数据预处理模块采用XML文件的形式对用户行为数据进行预处理。3.根据权利要求1所述的数据分析系统,其特征在于,数据预处理模块的主流程通过XML配置方式对用户行为数据进行预处理,用户行为数据的处理规则基于XML配置实现。4.根据权利要求1所述的数据分析系统,其特征在于,对象化处理模块还基于深度学习和图计算结合大规模图表征算法,对已有的对象化数据进行计算和分析,使用定点和边描述相应关系。5.根据权利要求4所述的数据分析系统,其特征在于,对象化处理模块基于BSP模型的同步调度方式,将计算过程分为若干超步,每个超步内所有的顶点程序独立并行的执行,结束后进行全局同步。...

【专利技术属性】
技术研发人员:翟永吉路骁王琦博马衍硕刘长秋
申请(专利权)人:中孚安全技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1