【技术实现步骤摘要】
本专利技术涉及数据分析处理
,尤其是提供一种快速实现数据挖掘分析的模块组件化方法。
技术介绍
进入信息时代随着大数据的发展,越来越多的行业需要对数据挖掘分析,保存在计算机中的文件和数据库中的数据量正在以指数速度增长,同时人们期望从数据中获得更有用的信息。但数据量越来越大,需要一种新的技术从海量数据中自动、高效地提取所需的有用知识,数据挖掘技术由此而生。数据挖掘分析的应用,需在大量的数据中找出数据的业务逻辑关系,随着数据挖掘分析工具的发展,可通过相关的软件工具,如Carlementine、R语言、SparkMLlib等进行实现,但是这些工具,都需要一定程度的编程语言实现,导致进行数据挖掘分析的难度加大。
技术实现思路
本专利技术解决的技术问题在于提供一种快速实现数据挖掘分析的模块组件化方法;可以大大降低应用数据挖掘分析的门槛,降低数据挖掘分析的应用难度。本专利技术解决上述技术问题的技术方案是:所述的方法包括以下几个步骤:步骤1:对数据挖掘分析过程进行分析总结,抽取出共同的数据挖掘分析过程的方法,对数据挖掘分析过程的数据输入、数据分析算法、数据分析结果解析进行模块组件化;步骤2:分析数据输入,按类型分为文件类输入、关系型数据库输入、大数据型输入,不同的输入类型输入不同的数据源配置参数,形成各类型的模块组件化,用于后续的模块功能组装;步骤3:对数据分析算法,按对数据的分析数量分为普通数据量分析与大数据量分析,按算法的分析结果分为分类算法、回归算法、聚类算法、关联算法等类型;不同的算法设置有不同的数据源输入指标,各类算法按实际的情况进行模块组件化,用于后续的模 ...
【技术保护点】
一种快速实现数据挖掘分析的模块组件化方法,其特征在于:所述的方法包括以下几个步骤:步骤1:对数据挖掘分析过程进行分析总结,抽取出共同的数据挖掘分析过程的方法,对数据挖掘分析过程的数据输入、数据分析算法、数据分析结果解析进行模块组件化;步骤2:分析数据输入,按类型分为文件类输入、关系型数据库输入、大数据型输入,不同的输入类型输入不同的数据源配置参数,形成各类型的模块组件化,用于后续的模块功能组装;步骤3:对数据分析算法,按对数据的分析数量分为普通数据量分析与大数据量分析,按算法的分析结果分为分类算法、回归算法、聚类算法、关联算法等类型;不同的算法设置有不同的数据源输入指标,各类算法按实际的情况进行模块组件化,用于后续的模块功能组装;步骤4:对数据分析结果进行解析,解析出来的结果以以文件或图片的方式进行展示,然后给用户显示数据的最终业务逻辑结果。
【技术特征摘要】
1.一种快速实现数据挖掘分析的模块组件化方法,其特征在于:所述的方法包括以下几个步骤:步骤1:对数据挖掘分析过程进行分析总结,抽取出共同的数据挖掘分析过程的方法,对数据挖掘分析过程的数据输入、数据分析算法、数据分析结果解析进行模块组件化;步骤2:分析数据输入,按类型分为文件类输入、关系型数据库输入、大数据型输入,不同的输入类型输入不同的数据源配置参数,形成各类型的模块组件化,用于后续的模块功能组装;步骤3:对数据分析算法,按对数据的分析数量分为普通数据量分析与大数据量分析,按算法的分析结果分为分类算法、回归算法、聚类算法、关联算法等类型;不同的算法设置有不同的数据源输入指标,各类算法按实际的情况进行模块组件化,用于后续的模块功能组装;步骤4:对数据分析结果进行解析,解析出来的结果以以文件或图片的方式进行展示,然后给用户显示数据的最终业务逻辑结果。2.根据权利要求1所述的快速实现数据挖掘分析的模块组件化方法,其特征在于:所述分析数据输入,通过对数据输入的相关操作方法总结,数据输入需共同实现以下方法:1)读取输入的表(子源);2)读取表(子源)中各列名称;3)读取表(子源)总数据量;4)读取表(子源)各列数据等方法;数据输入使用的是文件类方法时,配置读取输入文件的目录地址,同时区分为TXT文件或Excel文件或CSV文件等类型,对于TXT文件配置文件的数据分隔符号,同时实现数据输入需共同实现的方法;对于Excel类文件,对其中包括的多个Sheet,当作多个表(子源)的情况进行读取;数据输入使用的是关系型数据库方法时,配置读取关系型数据库的数据库类型、地址、端口、用户名、密码等信息,通过配置的读取数据库的信息,实现数据输入需共同实现的方法;数据输入使用的是大数据类型方法时,配置大数据的相关信息,HDFS文件系统的,配置读取HDFS文件的目录信息,并且输入的HDFS文件是结构化的数据,并可以通过读取文件头等信息;对于数据输入是HBase,则需配置相关的IP地址、端口等信息,用于数据的读取。3.根据权利要求1所述的快速实现数据挖掘分析的模块组件化方法,其特征在于:对于多种类型的数据输入,各数据输入可以进行多种类型的互相转换,其中主要是文件类向大数据类型、关系型数据库向大数据类型进行转换,转换到大数据类型上,方便于后续进行数据挖掘分析时,调用大数据的分析算法,解除普通数据分析算法在大数据分析时的瓶颈。4.根据权利要求2所述的快速实现数据挖掘分析的模块组件化方法,其特征在于:对于多种类型的数据输入,各数据输入可以进行多种类型的互相转换,其中主要是文件类向大数据类型、关系型数据库向大数据类型进行转换,转换到大数据类型上,方便于后续进行数据挖掘分析时,调用大数据的分析算法,解除普通数据分析算法在大数据分析时的瓶颈。5.根据权利要求1至4任一项所述的快速实现数据挖掘分析的模块组件化方法,其特征在于:所述的数据分析算法可通过第三方的数据分析包R语言进行实现;或是通过相关的编写语言Java进行实现;或是通过调用大数据的...
【专利技术属性】
技术研发人员:郑锐韬,李勇波,孙傲冰,季统凯,
申请(专利权)人:国云科技股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。