一种多源异构行业领域大数据处理全链路解决方案。本发明专利技术在理解行业领域大数据海量性、多样性、快速性、价值性特点的基础上,根据行业领域管理决策的应用需求,设计与实现了多源异构行业领域大数据处理全链路解决方案。本解决方案首先总结归纳了行业领域大数据处理流程,然后提出了面向行业领域大数据的三层存储架构方案,又提出了面向管理决策的多层次多维度数据分析与知识发现方案,最后搭建了面向行业领域大数据的全链路数据处理平台。
【技术实现步骤摘要】
一种多源异构行业领域大数据处理全链路解决方案
本专利技术属于大数据处理
具体涉及一种多源异构行业领域大数据处理全链路解决方案。
技术介绍
随着信息技术在各行业领域深入应用,行业领域大数据极速产生和积累,例如金融领域的交易数据、电信领域的网络数据、交通运输的交通流量数据、教育领域的学生行为数据等。行业领域大数据具有明显的大数据特征,即所谓的4V特征属性:海量性(Volume)、多样性(Variety)、高速性(Velocity)、价值性(Value)。这些数据规模庞大、种类繁多,但蕴含价值丰富,如果能从海量复杂数据中获得知识,将能够为各行业领域的活动提供智力支持,对人类的决策模式和社会经济的运行模式产生深远的影响。目前,在大数据的驱动下,各行各业都意识到迫切需要研究强大的大数据管理与处理平台、有效的数据处理技术和智能的数据分析算法,用于支撑实时数据统计、数据分析、复杂数据挖掘等应用。但大数据由采集、集成、存储、分析到产生价值,是一个复杂的过程。行业领域大数据的特征,为行业领域大数据管理与处理过程提出了诸多的挑战与困难:1)面对跨系统分布、数据形式多样、结构各异的行业领域大数据,如何实现提出具有通用性的行业领域大数据处理流程?2)面对数据量庞大、类型复杂,如何设计高效的数据存储架构,以满足实时快速的业务分析需求?3)面对行业领域决策需求,如何构建多角度的数据分析模型,真正挖掘出大数据中蕴含的价值?4)如何搭建全链路多源异构行业领域大数据处理平台,将行业领域大数据处理流程、高效存储架构、数据分析模型进行实践?综上所述,信息爆炸时代的到来,大数据的研究价值非常巨大。随着数据管理、数据挖掘、云计算等研究技术的快速发展,许多有效的数据集成、数据融合、数据存储、分布式计算、数据分析技术纷纷涌现,为多源异构行业领域大数据处理的研究提供了理论基础和技术支持。在此背景下,针对行业领域大数据特征,研究多源异构数据集成,研究多层级存储架构,研究面向管理决策的多层次多维度数据分析,搭建全链路多源异构行业领域大数据处理平台,具有重要的研究意义和应用价值。
技术实现思路
本专利技术的目的是解决如何管理规模庞大、种类繁多的行业领域大数据以及如何从其中获取知识的问题,在理解行业领域大数据海量性、多样性、快速性、价值性特点的基础上,根据行业领域管理决策的应用需求,对多源异构领域大数据处理关键技术进行深入研究,包括数据清洗融合、数据存储、深度分析等问题,设计并实现了多源异构行业领域大数据处理全链路解决方案。本专利技术提供的多源异构行业领域大数据处理全链路解决方案详细步骤包括:第1、归纳行业领域大数据处理流程总结现有的大数据处理平台,在传统大数据处理基本流程基础上,结合行业领域大数据的可视性和真实性特点和领域应用需求,探索出面向行业领域大数据处理的最基本流程;整个行业领域大数据的处理流程定义为,在不同的采集设备、工具和系统辅助下,对多个异构行业领域数据源进行抽取与集成,再根据数据的特点进行统一存储,结合行业应用多角度需求,利用数据分析技术对存储的数据进行分析和挖掘,获取管理决策知识,并利用可视化分析方法将结果展示给用户;行业领域大数据的处理流程可以划分为数据抽取与集成模块、数据存储模块、数据分析模块和可视分析模块。(1)数据抽取与集成模块行业领域大数据的数据源多种多样,例如通过设备实时采集的数据、不同用途的运营式系统产生的数据,要想处理大数据,首先要从不同数据源抽取所需的数据。由于数据来源广泛、结构各异且数据间可能存在不一致,数据抽取后必须对异质多源数据进行数据集成,包括清洗脏数据、数据类型转换等传统数据清洗数据转换方法,并针对领域大数据独有的真实性特点,提供数据融合功能以解决数据冲突,从而保证数据的完整性、一致性和正确性,提高数据的质量。(2)数据存储模块大数据处理过程中,需要按照一定的标准对各类数据进行统一存储管理。在行业领域大数据处理流程中,存在原始数据、数据清洗、融合、转换生成的中间数据、数据分析及用于可视化展示的结果数据,它们的数据类型、数据规模、数据用途不尽相同。本专利技术考虑构建三层级行业领域数据统一存储框架,以满足不同层级不同规模不同用途数据存储的需求。(3)数据分析模块数据分析是整个行业领域大数据处理流程的核心,是大数据价值特性的体现。大数据中知识价值密度低,知识覆盖方面广泛,需要按照一定的方式对数据进行全方面的分析。在大数据背景下传统数据统计和数据挖掘算法无法及时处理海量数据,分布式计算框架在二十世纪的前十年发挥关键作用,但随着时间的推移也出现了性能瓶颈。本专利技术考虑基于新一代分布式计算框架Spark构建多层次多维度数据分析模型,以满足大数据背景下的数据分析。(4)可视分析模块行业领域大数据处理不仅要完成数据分析任务,还需要将数据分析结果进行直观体现。可视分析针对行业领域大数据的可视性特点,通过可视分析技术,将文字数据转换为直观易操作的图表,为决策提供更清晰的印象。本专利技术考虑基于Html5和Echarts.js结合的可视分析技术,构建提供数据选择、数据列选择、代码自动生成、代码可编辑的可视分析模块,以满足行业领域大数据背景下可视分析的需要。第2、设计三层数据存储模型获取行业领域原始数据之后,还应对其进行清洗、融合以及挖掘,故行业领域大数据分析需要多级存储,以满足包括指标数据、部门决策数据、数据分析基础数据和原始数据的存储、管理和计算。定义1:用于选取数据存储模型时需要考虑的几项指标具体定义如下:①.查询代价:查询代价是指在数据存储模型中对单位数据进行查询所耗费的时间;②.插入代价:插入代价是指在数据存储模型中对单位数据进行插入操作所耗费的时间;③.删除代价:删除代价是指在数据存储模型中删除单位数据所耗费的时间;④.压缩效率:压缩效率是指数据压缩后的大小和压缩前的大小之比;在选取每层数据存储模型时,每个指标对每层数据存储模型的影响程度是不一样的,通过分析这些指标对每层数据存储模型的影响大小来选取合适的数据存储工具以构建三层数据存储模型。第2.1、设计第一层数据源层存储模型为更完善的保存领域数据,本专利技术提出数据源层存储模型,用于存储从行业领域内众多外部数据源获取的源数据。数据源层存储模型中的数据量很大,这些数据中主要为结构化数据,例如普通的流水数据,这类数据往往存储于数据库中,比如SQLServer、MySQL,其作为数据库中的表,具有查询容易,结构清晰的特点。行业领域大数据背景下的数据也包括了非结构化数据和半结构化数据,比如网站系统产生的日志文件,或者管理系统中的图片文件。这些数据往往以文本文件或者XML文件格式存储,其特点为结构化程度低,挖掘难度大。数据源层数据,更多作为历史数据进行保存,并不作为日常数据分析访问使用,由于数据源层是整个存储模型的初始节点,一点数据修改或丢失将造成不可逆后果。因此,其存在生命周期长,访问频率低,数据价值密度低,数据丢失不可复现等特点。第2.2、设计第二层中间数据层存储模型中间数据层存储模型用于存储从数据源层存储模型经过一次或多次数据集成产生的用于分析的报表,这些报表经过了一次数据清洗和数据融合,一次或多次数据ETL,数据知识密度更大,数据格式更加统一,这样的数据对日常的数据分析与数据挖掘提本文档来自技高网...
【技术保护点】
一种多源异构行业领域大数据处理全链路解决方案,所述解决方案详细步骤如下:第1、归纳行业领域大数据处理流程总结现有的大数据处理平台,在传统大数据处理基本流程基础上,结合行业领域大数据的可视性和真实性特点和领域应用需求,探索出面向行业领域大数据处理的最基本流程;第2、设计三层数据存储模型定义1:用于选取数据存储模型的指标具体定义如下:①.查询代价:查询代价是指在数据存储模型中对单位数据进行查询所耗费的时间;②.插入代价:插入代价是指在数据存储模型中对单位数据进行插入操作所耗费的时间;③.删除代价:删除代价是指在数据存储模型中删除单位数据所耗费的时间;④.压缩效率:压缩效率是指数据压缩后的大小和压缩前的大小之比;在选取每层数据存储模型时,每个指标对每层数据存储模型的影响程度是不一样的,通过分析这些指标对每层数据存储模型的影响大小来选取合适的数据存储工具以构建三层数据存储模型;第2.1、设计第一层数据源层存储模型;数据源层用于存储抽取自众多外部数据源的数据;第2.2、设计第二层中间数据层存储模型;中间数据层用于存储在行业领域日常使用中涉及的报表;中间数据层存储模型分为基础数据层表和数据集市层表;在中间数据层存储模型中,将由数据源层存储模型经过数据集成产生的表称为基础数据层表,这些内容包含更多内容,面向广泛的需求;将由基础数据层表经过ETL(Extraction,Transormation and Loading),即数据抽取、转化和装载产生的表称为数据集市层表,这些内容往往涉及某一具体领域,为某一具体部门服务;第2.3、设计第三层结果表示层存储模型;结果表示层用于存储中间数据层经过数据统计分析或数据挖掘分析产生的结果表;第3、提出面向管理决策的多层次多维度数据分析与知识发现方案第3.1、构建多层次多维度分析模型;定义2:多层次多维度分析模型被定义成一个四元组的形式,Dimension=(Subject,Time,Attributes,Rules),四元组分别是:①.主体元(Subject),为个体、群体或全体;其中个体指的是某一具体事物,大部分情况下指的是某一特定用户;群体指的是一群事物,这些事物往往具有某些共同特征,全体指的是所有事物的全集;②.时间元(Time),为年、月、日、小时或分钟的不同粒度,能够按照不同时间粒度进行统计分析;③.属性元(Attributes),存在单属性行为分析和多属性行为分析;单属性分析的意义在于分析某一属性的价值,而多属性分析则侧重于分析多个属性之间的联系和在多属性共同作用下对事物的影响;④.规则元(Rules),表示对属性元、时间元组施加的规则,这些规则是统计分析规则,或是数据挖掘算法;第3.2、设计基于Spark的分布式决策知识发现方法;设计分布式数据挖掘算法,使之能够和分布式计算平台Spark进行交互;第4、构建行业领域大数据处理分析平台第4.1、数据集成实现;数据集成模块主要完成从数据源导入数据源层存储模型、将数据从数据源层存储模型通过ETL和清洗融合导入中间数据层存储模型中的基础数据层表、将数据从中间数据层的基础数据层表通过ETL导入中间数据层的数据集市层表的功能;第4.2、数据存储模型具体实现;根据第2步设计得到的三层数据存储模型,选取数据存储工具构建三层数据存储架构;第4.3、数据分析实现;使用基于Spark的分布式计算框架搭建数据分析模块;第4.4、数据可视分析;采用HTML5,echarts技术进行数据可视分析;第4.5、任务流管理;使用上下游机制和基于任务队列的生产者消费者模型并行任务流调度。...
【技术特征摘要】
1.一种多源异构行业领域大数据处理全链路解决方案,所述解决方案详细步骤如下:第1、归纳行业领域大数据处理流程总结现有的大数据处理平台,在传统大数据处理基本流程基础上,结合行业领域大数据的可视性和真实性特点和领域应用需求,探索出面向行业领域大数据处理的最基本流程;第2、设计三层数据存储模型定义1:用于选取数据存储模型的指标具体定义如下:①.查询代价:查询代价是指在数据存储模型中对单位数据进行查询所耗费的时间;②.插入代价:插入代价是指在数据存储模型中对单位数据进行插入操作所耗费的时间;③.删除代价:删除代价是指在数据存储模型中删除单位数据所耗费的时间;④.压缩效率:压缩效率是指数据压缩后的大小和压缩前的大小之比;在选取每层数据存储模型时,每个指标对每层数据存储模型的影响程度是不一样的,通过分析这些指标对每层数据存储模型的影响大小来选取合适的数据存储工具以构建三层数据存储模型;第2.1、设计第一层数据源层存储模型;数据源层用于存储抽取自众多外部数据源的数据;第2.2、设计第二层中间数据层存储模型;中间数据层用于存储在行业领域日常使用中涉及的报表;中间数据层存储模型分为基础数据层表和数据集市层表;在中间数据层存储模型中,将由数据源层存储模型经过数据集成产生的表称为基础数据层表,这些内容包含更多内容,面向广泛的需求;将由基础数据层表经过ETL(Extraction,TransormationandLoading),即数据抽取、转化和装载产生的表称为数据集市层表,这些内容往往涉及某一具体领域,为某一具体部门服务;第2.3、设计第三层结果表示层存储模型;结果表示层用于存储中间数据层经过数据统计分析或数据挖掘分析产生的结果表;第3、提出面向管理决策的多层次多维度数据分析与知识发现方案第3.1、构建多层次多维度分析模型;定义2:多层次多维度分析模型被定义成一个四元组的形式,Dimension=(Subject,Time,Attributes,Rules),四元组分别是:①.主体元(Subject),为个体、群体或全体;其中个体指的是某一具体事物,大部分情况下指的是某一特定用户;群体指的是一群事物,这些事物往往具有某些共同特征,全体指的是所有事物的全集;②.时间元(Time),为年、月、日、小时或分钟的不同粒度,能够按照不同时间粒度进行统计分析;③.属性元(Attributes),存在单属性行为分析和多属性行为分析;单属性分析的意义在于分析某一属性的价值,而多属性分析则侧重于分析多个属性之间的联系和在多属性共同作用下对事物的影响;④.规则元(Rules),表示对属性元、时间元组施加的规则,这些规则是统计分析规则,或是数据挖掘算法;第3.2、设计基于Spark的分布式决策知识发现方法;设计分布式数据挖掘算法,使之能够和分布式计算平台Spark进行交互;第4、构建行业领域大数据处理分析平台第4.1、数据集成实现;数据集成模块主要完成从数据源导入数据源层存储模型、将数据从数据源层存储模型通过ETL和清洗融合导入中间数据层存储模型中的基础数据层表、将数据从中间数据层的基础数据层表通过ETL导入中间数据层的数据集市层表的功能;第4.2、数据存储模型具体实现;根据第2步设计得到的三层数据存储模型,选取数据存储工具构建三层数...
【专利技术属性】
技术研发人员:张莹,罗永洪,杨志帆,史慧珂,宋珂慧,袁晓洁,
申请(专利权)人:南开大学,
类型:发明
国别省市:天津,12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。