一种多源异构行业领域大数据处理全链路解决方案制造技术

技术编号：16270080 阅读：200 留言：0更新日期：2017-09-22 21:44

一种多源异构行业领域大数据处理全链路解决方案。本发明专利技术在理解行业领域大数据海量性、多样性、快速性、价值性特点的基础上，根据行业领域管理决策的应用需求，设计与实现了多源异构行业领域大数据处理全链路解决方案。本解决方案首先总结归纳了行业领域大数据处理流程，然后提出了面向行业领域大数据的三层存储架构方案，又提出了面向管理决策的多层次多维度数据分析与知识发现方案，最后搭建了面向行业领域大数据的全链路数据处理平台。

全部详细技术资料下载

【技术实现步骤摘要】
一种多源异构行业领域大数据处理全链路解决方案
本专利技术属于大数据处理
具体涉及一种多源异构行业领域大数据处理全链路解决方案。
技术介绍
随着信息技术在各行业领域深入应用，行业领域大数据极速产生和积累，例如金融领域的交易数据、电信领域的网络数据、交通运输的交通流量数据、教育领域的学生行为数据等。行业领域大数据具有明显的大数据特征，即所谓的4V特征属性：海量性(Volume)、多样性(Variety)、高速性(Velocity)、价值性(Value)。这些数据规模庞大、种类繁多，但蕴含价值丰富，如果能从海量复杂数据中获得知识，将能够为各行业领域的活动提供智力支持，对人类的决策模式和社会经济的运行模式产生深远的影响。目前，在大数据的驱动下，各行各业都意识到迫切需要研究强大的大数据管理与处理平台、有效的数据处理技术和智能的数据分析算法，用于支撑实时数据统计、数据分析、复杂数据挖掘等应用。但大数据由采集、集成、存储、分析到产生价值，是一个复杂的过程。行业领域大数据的特征，为行业领域大数据管理与处理过程提出了诸多的挑战与困难：1)面对跨系统分布、数据形式多样、结构各异的行业领域大数据，如何实现提出具有通用性的行业领域大数据处理流程？2)面对数据量庞大、类型复杂，如何设计高效的数据存储架构，以满足实时快速的业务分析需求？3)面对行业领域决策需求，如何构建多角度的数据分析模型，真正挖掘出大数据中蕴含的价值？4)如何搭建全链路多源异构行业领域大数据处理平台，将行业领域大数据处理流程、高效存储架构、数据分析模型进行实践？综上所述，信息爆炸时代的到来，大数据的研究价值...
一种多源异构行业领域大数据处理全链路解决方案

【技术保护点】
一种多源异构行业领域大数据处理全链路解决方案，所述解决方案详细步骤如下：第1、归纳行业领域大数据处理流程总结现有的大数据处理平台，在传统大数据处理基本流程基础上，结合行业领域大数据的可视性和真实性特点和领域应用需求，探索出面向行业领域大数据处理的最基本流程；第2、设计三层数据存储模型定义1:用于选取数据存储模型的指标具体定义如下：①.查询代价：查询代价是指在数据存储模型中对单位数据进行查询所耗费的时间；②.插入代价：插入代价是指在数据存储模型中对单位数据进行插入操作所耗费的时间；③.删除代价：删除代价是指在数据存储模型中删除单位数据所耗费的时间；④.压缩效率：压缩效率是指数据压缩后的大小和压缩前的大小之比；在选取每层数据存储模型时，每个指标对每层数据存储模型的影响程度是不一样的，通过分析这些指标对每层数据存储模型的影响大小来选取合适的数据存储工具以构建三层数据存储模型；第2.1、设计第一层数据源层存储模型；数据源层用于存储抽取自众多外部数据源的数据；第2.2、设计第二层中间数据层存储模型；中间数据层用于存储在行业领域日常使用中涉及的报表；中间数据层存储模型分为基础数据层表和数据集市层表...

【技术特征摘要】
1.一种多源异构行业领域大数据处理全链路解决方案，所述解决方案详细步骤如下：第1、归纳行业领域大数据处理流程总结现有的大数据处理平台，在传统大数据处理基本流程基础上，结合行业领域大数据的可视性和真实性特点和领域应用需求，探索出面向行业领域大数据处理的最基本流程；第2、设计三层数据存储模型定义1:用于选取数据存储模型的指标具体定义如下：①.查询代价：查询代价是指在数据存储模型中对单位数据进行查询所耗费的时间；②.插入代价：插入代价是指在数据存储模型中对单位数据进行插入操作所耗费的时间；③.删除代价：删除代价是指在数据存储模型中删除单位数据所耗费的时间；④.压缩效率：压缩效率是指数据压缩后的大小和压缩前的大小之比；在选取每层数据存储模型时，每个指标对每层数据存储模型的影响程度是不一样的，通过分析这些指标对每层数据存储模型的影响大小来选取合适的数据存储工具以构建三层数据存储模型；第2.1、设计第一层数据源层存储模型；数据源层用于存储抽取自众多外部数据源的数据；第2.2、设计第二层中间数据层存储模型；中间数据层用于存储在行业领域日常使用中涉及的报表；中间数据层存储模型分为基础数据层表和数据集市层表；在中间数据层存储模型中，将由数据源层存储模型经过数据集成产生的表称为基础数据层表，这些内容包含更多内容，面向广泛的需求；将由基础数据层表经过ETL(Extraction,TransormationandLoading)，即数据抽取、转化和装载产生的表称为数据集市层表，这些内容往往涉及某一具体领域，为某一具体部门服务；第2.3、设计第三层结果表示层存储模型；结果表示层用于存储中间数据层经过数据统计分析或数据挖掘分析产生的结果表；第3、提出面向管理决策的多层次多维度数据分析与知识发现方案第3.1、构建多层次多维度分析模型；定义2：多层次多维度分析模型被定义成一个四元组的形式，Dimension＝(Subject，Time，Attributes，Rules)，四元组分别是：①.主体元(Subject)，为个体、群体或全体；其中个体指的是某一具体事物，大部分情况下指的是某一特定用户；群体指的是一群事物，这些事物往往具有某些共同特征,全体指的是所有事物的全集；②.时间元(Time)，为年、月、日、小时或分钟的不同粒度，能够按照不同时间粒度进行统计分析；③.属性元(Attributes)，存在单属性行为分析和多属性行为分析；单属性分析的意义在于分析某一属性的价值，而多属性分析则侧重于分析多个属性之间的联系和在多属性共同作用下对事物的影响；④.规则元(Rules)，表示对属性元、时间元组施加的规则，这些规则是统计分析规则，或是数据挖掘算法；第3.2、设计基于Spark的分布式决策知识发现方法；设计分布式数据挖掘算法，使之能够和分布式计算平台Spark进行交互；第4、构建行业领域大数据处理分析平台第4.1、数据集成实现；数据集成模块主要完成从数据源导入数据源层存储模型、将数据从数据源层存储模型通过ETL和清洗融合导入中间数据层存储模型中的基础数据层表、将数据从中间数据层的基础数据层表通过ETL导入中间数据层的数据集市层表的功能；第4.2、数据存储模型具体实现；根据第2步设计得到的三层数据存储模型，选取数据存储工具构建三层数...

【专利技术属性】
技术研发人员：张莹，罗永洪，杨志帆，史慧珂，宋珂慧，袁晓洁，
申请(专利权)人：南开大学，
类型：发明
国别省市：天津,12

全部详细技术资料下载我是这个专利的主人