一种快速实现数据挖掘分析的模块组件化方法技术

技术编号:14786013 阅读:73 留言:0更新日期:2017-03-11 00:01
本发明专利技术涉及数据分析处理技术领域,尤其是提供一种快速实现数据挖掘分析的模块组件化方法。本发明专利技术方法对使用编程类的数据挖掘分析工具类的数据分析过程的功能流程进行分析,总结出数据挖掘分析从数据输入过程、数据挖掘分析的算法过程、数据分析结果的解析过程中抽取出共同的方法,通过功能模块化的方法进行各自实现,并按组件化进行组装,使各种数据输入、分析算法、分析结果解析进行模块组件化,从而简化数据挖掘分析过程的流程,为用户进行数据挖掘分析方法的应用,提供了一个快速实现的方法,从而降低了数据挖掘分析过程的难度,为用户在使用数据分析进行数据挖掘时提供一种方便快捷的方法。

【技术实现步骤摘要】

本专利技术涉及数据分析处理
,尤其是提供一种快速实现数据挖掘分析的模块组件化方法
技术介绍
进入信息时代随着大数据的发展,越来越多的行业需要对数据挖掘分析,保存在计算机中的文件和数据库中的数据量正在以指数速度增长,同时人们期望从数据中获得更有用的信息。但数据量越来越大,需要一种新的技术从海量数据中自动、高效地提取所需的有用知识,数据挖掘技术由此而生。数据挖掘分析的应用,需在大量的数据中找出数据的业务逻辑关系,随着数据挖掘分析工具的发展,可通过相关的软件工具,如Carlementine、R语言、SparkMLlib等进行实现,但是这些工具,都需要一定程度的编程语言实现,导致进行数据挖掘分析的难度加大。
技术实现思路
本专利技术解决的技术问题在于提供一种快速实现数据挖掘分析的模块组件化方法;可以大大降低应用数据挖掘分析的门槛,降低数据挖掘分析的应用难度。本专利技术解决上述技术问题的技术方案是:所述的方法包括以下几个步骤:步骤1:对数据挖掘分析过程进行分析总结,抽取出共同的数据挖掘分析过程的方法,对数据挖掘分析过程的数据输入、数据分析算法、数据分析结果解析进行模块组件化;步骤2:分析数据输入,按类型分为文件类输入、关系型数据库输入、大数据型输入,不同的输入类型输入不同的数据源配置参数,形成各类型的模块组件化,用于后续的模块功能组装;步骤3:对数据分析算法,按对数据的分析数量分为普通数据量分析与大数据量分析,按算法的分析结果分为分类算法、回归算法、聚类算法、关联算法等类型;不同的算法设置有不同的数据源输入指标,各类算法按实际的情况进行模块组件化,用于后续的模块功能组装;步骤4:对数据分析结果进行解析,解析出来的结果以以文件或图片的方式进行展示,然后给用户显示数据的最终业务逻辑结果。所述分析数据输入,通过对数据输入的相关操作方法总结,数据输入需共同实现以下方法:1)读取输入的表(子源);2)读取表(子源)中各列名称;3)读取表(子源)总数据量;4)读取表(子源)各列数据等方法;数据输入使用的是文件类方法时,配置读取输入文件的目录地址,同时区分为TXT文件或Excel文件或CSV文件等类型,对于TXT文件配置文件的数据分隔符号,同时实现数据输入需共同实现的方法;对于Excel类文件,对其中包括的多个Sheet,当作多个表(子源)的情况进行读取;数据输入使用的是关系型数据库方法时,配置读取关系型数据库的数据库类型、地址、端口、用户名、密码等信息,通过配置的读取数据库的信息,实现数据输入需共同实现的方法;数据输入使用的是大数据类型方法时,配置大数据的相关信息,HDFS文件系统的,配置读取HDFS文件的目录信息,并且输入的HDFS文件是结构化的数据,并可以通过读取文件头等信息;对于数据输入是HBase,则需配置相关的IP地址、端口等信息,用于数据的读取。对于多种类型的数据输入,各数据输入可以进行多种类型的互相转换,其中主要是文件类向大数据类型、关系型数据库向大数据类型进行转换,转换到大数据类型上,方便于后续进行数据挖掘分析时,调用大数据的分析算法,解除普通数据分析算法在大数据分析时的瓶颈。所述的数据分析算法可通过第三方的数据分析包R语言进行实现;或是通过相关的编写语言Java进行实现;或是通过调用大数据的程序包进行实现;不同的实现方法,通过调用数据输入的不同类型,组织成各类数据格式,用于数据挖掘分析;各算法类型,通过选择不现的算法实现,通过各自功能模块的组件化编程,最终可通过组装的形式,用于最终的数据挖掘分析;从数据分析算法的实现、类型上,抽取出共同的数据输入各数据格式的组织方法,形成组件化的模块,对各类数据输入进行数据的获取并输入到数据分析算法的组件实现上,实现数据挖掘分析的数据输入与分析算法的对接。所述的数据分析结果按数据分析算法的类型进行解析,抽取出共同的方法,按不同的数据分析结果解析进行实现,关联算法需解析出各数据输入的关联度,及各关联项的关联次数,用于描述关联度;对于线性回归需解析出回归自变量的各变量常数系数的值;对分析结果的保存进行配置,指定保存位置与保存类型,可直接保存到文件、图片或关系型数据库表上。所述的方法、在调用数据挖掘分析的过程中,通过运行主程序的方式,从配置数据输入、选择分析算法到数据分析结果解析,从命令行界面上进行选择配置,并形成配置文件的形式,在数据挖掘分析程序启动后直接获取配置信息进行数据挖掘分析过程;通过在界面程序上按数据挖掘分析流程的参数规格,完成从数据输入、分析算法选择、分析结果解析的配置,然后通过传参数的形式进行调用,从而完成数据挖掘分析的过程,并从分析结果解析的文件上,读取相关的分析结果。数据挖掘分析的过程可以按各流程功能的步骤实现模块化,数据输入、分析算法选择及分析结果解析可以按功能进行子模块的再模块化;数据输入、分析算法选择和分析结果解析的后续的功能增加完善、或是对算法的优化,都可独立地进行某个环节的增加、删除或优化,而不会影响到其他的算法。本专利技术的有益效果是:本专利技术方法是通过利用面向对象的编程方法,通过总结分析数据挖掘分析过程的共同方法,通过模块组件化的方式,把各种数据输入、分析算法、分析结果解析进行模块化实现,并通过组件化组装的方式,使数据挖掘分析的过程,简化为通过对数据输入的配置、数据分析算法的选择、数据分析结果的解析,从而简化了数据挖掘分析过程中的难度,使数据挖掘分析过程可以快速实现。通过模块功能组件化的形式,使应用数据挖掘分析的人,尽可能地减少编程,通过直接的数据输入与简单的数据挖掘分析算法选择,从而快速实现数据挖掘分析的模块组件化分析,降低应用数据挖掘分析的门槛,降低数据挖掘分析的应用难度。通过抽取出数据挖掘分析过程的数据输入、分析算法、分析结果解析三个过程,再通过抽取数据输入的各种数据输入类型的获取数据方法、抽取分析算法从实现方式及类型上、抽取分析结果解析过程的方法,把整个数据挖掘分析的过程进行功能模块细化,形成可后续按需要、按功能进行组件化的过程,并且可以快速地进行功能模块的扩展。附图说明下面结合附图对本专利技术进一步说明:附图1是本专利技术快速实现数据挖掘的模块组件化流程图。具体实施方式如图1所示,本专利技术的数据挖掘分析按数据输入、分析算法、分析结果解析进行实现后,通过打包为程序包的形式存在,并可通过界面配置后按相关的规格参数进行输入进行数据挖掘分析的调用,也可以通过命令的形式,进行数据挖掘分析的调用,下面是通过命令的形式进行程序实施方式的说明:步骤一、程序按数据输入、分析算法、分析结果解析的功能模块的具体实现进行加载,并打包为可运行的程序;步骤二、运行程序,程序初始化各数据输入的类型,分析算法的实现方式、类型,分析结果解析的类型等,并各形成1、2、3、…等的编号,用于后续的输入;步骤三、程序初始化完成后,进入数据输入配置功能,程序自动读取原来已经配置好的数据输入,如果要进行数据挖掘分析的数据输入已经存在,可以直接读取并跳转到步骤四;如果数据输入需要重新配置,选择新增,按以下步骤进行操作:1)输入新数据输入的名称;2)选择新数据输入的类型:文件类、关系型数据库、大数据;3)配置数据输入的相关信息:对于文件类,需选择文件类数据输入的类型:TXT、Excel、CS本文档来自技高网...
一种快速实现数据挖掘分析的模块组件化方法

【技术保护点】
一种快速实现数据挖掘分析的模块组件化方法,其特征在于:所述的方法包括以下几个步骤:步骤1:对数据挖掘分析过程进行分析总结,抽取出共同的数据挖掘分析过程的方法,对数据挖掘分析过程的数据输入、数据分析算法、数据分析结果解析进行模块组件化;步骤2:分析数据输入,按类型分为文件类输入、关系型数据库输入、大数据型输入,不同的输入类型输入不同的数据源配置参数,形成各类型的模块组件化,用于后续的模块功能组装;步骤3:对数据分析算法,按对数据的分析数量分为普通数据量分析与大数据量分析,按算法的分析结果分为分类算法、回归算法、聚类算法、关联算法等类型;不同的算法设置有不同的数据源输入指标,各类算法按实际的情况进行模块组件化,用于后续的模块功能组装;步骤4:对数据分析结果进行解析,解析出来的结果以以文件或图片的方式进行展示,然后给用户显示数据的最终业务逻辑结果。

【技术特征摘要】
1.一种快速实现数据挖掘分析的模块组件化方法,其特征在于:所述的方法包括以下几个步骤:步骤1:对数据挖掘分析过程进行分析总结,抽取出共同的数据挖掘分析过程的方法,对数据挖掘分析过程的数据输入、数据分析算法、数据分析结果解析进行模块组件化;步骤2:分析数据输入,按类型分为文件类输入、关系型数据库输入、大数据型输入,不同的输入类型输入不同的数据源配置参数,形成各类型的模块组件化,用于后续的模块功能组装;步骤3:对数据分析算法,按对数据的分析数量分为普通数据量分析与大数据量分析,按算法的分析结果分为分类算法、回归算法、聚类算法、关联算法等类型;不同的算法设置有不同的数据源输入指标,各类算法按实际的情况进行模块组件化,用于后续的模块功能组装;步骤4:对数据分析结果进行解析,解析出来的结果以以文件或图片的方式进行展示,然后给用户显示数据的最终业务逻辑结果。2.根据权利要求1所述的快速实现数据挖掘分析的模块组件化方法,其特征在于:所述分析数据输入,通过对数据输入的相关操作方法总结,数据输入需共同实现以下方法:1)读取输入的表(子源);2)读取表(子源)中各列名称;3)读取表(子源)总数据量;4)读取表(子源)各列数据等方法;数据输入使用的是文件类方法时,配置读取输入文件的目录地址,同时区分为TXT文件或Excel文件或CSV文件等类型,对于TXT文件配置文件的数据分隔符号,同时实现数据输入需共同实现的方法;对于Excel类文件,对其中包括的多个Sheet,当作多个表(子源)的情况进行读取;数据输入使用的是关系型数据库方法时,配置读取关系型数据库的数据库类型、地址、端口、用户名、密码等信息,通过配置的读取数据库的信息,实现数据输入需共同实现的方法;数据输入使用的是大数据类型方法时,配置大数据的相关信息,HDFS文件系统的,配置读取HDFS文件的目录信息,并且输入的HDFS文件是结构化的数据,并可以通过读取文件头等信息;对于数据输入是HBase,则需配置相关的IP地址、端口等信息,用于数据的读取。3.根据权利要求1所述的快速实现数据挖掘分析的模块组件化方法,其特征在于:对于多种类型的数据输入,各数据输入可以进行多种类型的互相转换,其中主要是文件类向大数据类型、关系型数据库向大数据类型进行转换,转换到大数据类型上,方便于后续进行数据挖掘分析时,调用大数据的分析算法,解除普通数据分析算法在大数据分析时的瓶颈。4.根据权利要求2所述的快速实现数据挖掘分析的模块组件化方法,其特征在于:对于多种类型的数据输入,各数据输入可以进行多种类型的互相转换,其中主要是文件类向大数据类型、关系型数据库向大数据类型进行转换,转换到大数据类型上,方便于后续进行数据挖掘分析时,调用大数据的分析算法,解除普通数据分析算法在大数据分析时的瓶颈。5.根据权利要求1至4任一项所述的快速实现数据挖掘分析的模块组件化方法,其特征在于:所述的数据分析算法可通过第三方的数据分析包R语言进行实现;或是通过相关的编写语言Java进行实现;或是通过调用大数据的...

【专利技术属性】
技术研发人员:郑锐韬李勇波孙傲冰季统凯
申请(专利权)人:国云科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1