一种适用于分布式算法的运行容器及流程图创建方法技术

技术编号:15450537 阅读:120 留言:0更新日期:2017-05-31 12:17
本发明专利技术公开了一种适用于分布式算法的运行容器及流程图创建方法,运行容器包括硬件模块和软件模块,硬件模块为算法的运行环境;软件模块则包括流程图绘制模块、关系确定模块、接口模块和检测模块。创建方法则包括:首先新建流程;然后往流程里添加算法;增加算法到流程后,修改算法中所用到的属性;编排完的流程,在spark分布式计算系统上进行运算,最终获得分析结果。该适用于分布式算法的运行容器及流程图创建方法与现有技术相比,通过统一算法的接口和标准,能够让用户自由实现自己的算法,并与系统的其他算法无缝组合;通过绘制算法流程图,实现对算法的不同顺序组合来分析处理数据,分析流程多样化,实用性强。

Running container suitable for distributed algorithm and method for creating flow chart

The invention discloses a method for creating distributed algorithm for container operation and flow chart, container operation including the hardware module and software module and hardware module for the running environment of the algorithm; software modules include the flow chart drawing module, determine the module and the interface module and detection module. Create a new process method includes: firstly; and then to the process of adding algorithm; increase the algorithm to process, modify the properties used in the algorithm; the arrangement process, system operation in spark distributed computing, the results of the analysis. Compared with the existing technology in the distributed algorithm container operation and flow chart method to create the application, through a unified algorithm and interface standard, allows users the freedom to realize their algorithm and other algorithm system seamless combination; by drawing the flow chart of the algorithm, to achieve data analysis and processing of different combination of algorithms, analysis process diversification, strong practicability.

【技术实现步骤摘要】
一种适用于分布式算法的运行容器及流程图创建方法
本专利技术涉及大数据
,具体地说是一种实用性强、适用于分布式算法的运行容器及流程图创建方法。
技术介绍
随着信息时代的到来,数据的积累成几何倍增长。为了从已有的海量数据中挖掘有效信息,出现了各种不同的数据挖掘算法。在数据挖掘中,无法立即确定最合适的算法,需要通过不断的尝试不同的算法,或者算法组合来获得不同的计算结果。根据对不同的计算结果进行对比,从而获得最佳的算法方案、以及最优的分析结果,以获得最有效的数据反馈信息。数据分析人员需要既懂算法的原理,又要懂算法的具体代码实现。对技术人员要求较高,同时实现不同的算法组合分析数据时候,需要不断调整编码,较为繁琐。算法的改造一般针对三个方向进行,算法处理容器、算法编写规范、分布式运行框架。尤其是分布式算法,分布式算法的编写与传统算法开发差别较大,并且分布式算法的运行依托于特定的平台,而且不同的平台对分布式算法的开发要求不同,这就导致了同一种算法的实现在不同的平台下不同。在数据挖掘中,由于数据量大,导致单一服务器很难快速计算结果。鉴于此,现提供一种基于适用于分布式算法的运行容器及流程图创建方法。通过将绘制好的流程图自动运行到spark分布式计算系统中,通过采用云计算的方案,大大增加了运算速率。
技术实现思路
本专利技术的技术任务是针对以上不足之处,提供一种实用性强、适用于分布式算法的运行容器及流程图创建方法。一种适用于分布式算法的运行容器,包括硬件模块和软件模块,硬件模块为算法的运行环境;软件模块则包括流程图绘制模块、关系确定模块、接口模块和检测模块;其中:运行环境,该运行环境采用spark分布式计算系统并用于算法的运行;流程图绘制模块,提供绘制界面使用户实现对算法流程的绘制,同时该绘制界面还用于添加算法实例节点;关系确定模块,在通过流程图绘制模块添加算法实例节点后,该关系确定模块通过算法实例节点与算法实例节点之间的连线来表示算法实例节点之间的关系;接口模块,提供用户增加新的算法的接口与标准,且该标准规范实现任意算法在流程图绘制模块中与其它算法随机组合,进行数据分析;检测模块,检测整个算法添加或组合过程的完整性。所述流程图绘制模块中,提供浏览器使用户实现对算法流程的绘制,该绘制的算法流程图中包含算法实例节点以及算法实例节点的关系,算法实例节点的关系是通过算法之间的连线来确定。在流程图绘制模块中,当增加一个算法实例节点后,用户通过算法实例节点的属性值界面,修改算法用到的属性,即每一个算法对应已经编写好算法的jar包,统一算法的输入输出的参数信息,以保证算法节点之间的数据流转。所述关系确定模块根据算法实例节点关系的描述,自动查找到算法节点的起始位置,开始执行算法处理数据,当执行完一个算法实例节点后,根据算法实例节点的描述自动执行下一个算法实例节点。一种基于适用于分布式算法的运行容器的流程图创建方法,其实现过程为:首先通过流程图绘制模块新建流程;创建流程以后,往流程里排放算法:已有算法直接添加到流程中;不存在的算法,根据接口模块提供的标准,增加新的算法后,将新增加的算法加入到流程中;增加算法到流程后,修改算法中所用到的属性;编排完的流程,在spark分布式计算系统上进行运算,最终获得分析结果。本专利技术的一种适用于分布式算法的运行容器及流程图创建方法,具有以下优点:本专利技术通过设计分布式运行容器,并制定统一算法接口标准,使算法与算法之间可以随机组合。仅通过算法即可实现完整的数据分析过程。根据本专利技术的算法接口标准增加的算法,可以与原有算法无缝组合。方便用户扩充算法种类、以及增加个性化算法。本专利技术通过绘制数据分析完整流程图,使得分析数据无需编码实现。数据分析人员只需要懂算法即可。减少了技术人员的要求,以及节省了一般数据分析中,因算法顺序改变而编码调整的时间。同时图形化的数据分析界面,更容易查找整个数据分析流程中不适合的算法节点。针对海量数据的分析,采用自动将流程图解析,获得算法执行顺序。并将算法运算在spark群集上。采用这种云计算的方式,大大缩短了计算的时间,实用性强,适用范围广泛,易于推广。附图说明附图1为本专利技术的流程图创建流程图。具体实施方式下面结合附图和具体实施例对本专利技术作进一步说明。本专利技术的一种适用于分布式算法的运行容器,为不同算法(如分类、聚类、关联、回归等)制定统一的接口标准,自动在容器中执行,实现数据挖掘的云计算。这就使得用户可以完全不关心分布式代码的写法以及分布式算法的运行环境,只写算法代码即可。同时用户可以根据系统的算法接口标准,灵活实现自己的算法。根据系统接口标准规范增加的算法,可以很好的与其他已有算法进行组合运算,增加了算法实现的可扩充性。该容器包括硬件模块和软件模块,硬件模块为算法的运行环境;软件模块则包括流程图绘制模块、关系确定模块、接口模块和检测模块;其中:运行环境,该运行环境采用采用b/s架构,即Spark和Hadoop组成,算法处理容器能够根据算法信息自动加载并运行算法,这样算法开发人员只需要按照算法编写规范进行分布式算法编码,而不需要关心算法如何去运行,从而降低分布式算法的开发门槛;流程图绘制模块,提供绘制界面使用户实现对算法流程的绘制,同时该绘制界面还用于添加算法实例节点;关系确定模块,在通过流程图绘制模块添加算法实例节点后,该关系确定模块通过算法实例节点与算法实例节点之间的连线来表示算法实例节点之间的关系;接口模块,提供用户增加新的算法的接口与标准,且该标准规范实现任意算法在流程图绘制模块中与其它算法随机组合,进行数据分析;检测模块,检测整个算法添加或组合过程的完整性。在系统中,通过该检测模块使其具备流程的检测功能,检查流程的完整性、正确性。例如:避免出现回路的流程等。系统通过测试功能,来验证整个流程的完整与可执行。所述流程图绘制模块中,提供浏览器使用户实现对算法流程的绘制,该绘制的算法流程图中包含算法实例节点以及算法实例节点的关系,算法实例节点的关系是通过算法之间的连线来确定。在流程图绘制模块中,当增加一个算法实例节点后,用户通过算法实例节点的属性值界面,修改算法用到的属性,即每一个算法对应已经编写好算法的jar包,统一算法的输入输出的参数信息,以保证算法节点之间的数据流转。所述关系确定模块根据算法实例节点关系的描述,自动查找到算法节点的起始位置,开始执行算法处理数据,当执行完一个算法实例节点后,根据算法实例节点的描述自动执行下一个算法实例节点。如附图1所示,一种基于适用于分布式算法的运行容器的流程图创建方法,其实现过程为:首先通过流程图绘制模块新建流程;创建流程以后,往流程里排放算法:已有算法直接添加到流程中;不存在的算法,根据接口模块提供的标准,增加新的算法后,将新增加的算法加入到流程中;增加算法到流程后,修改算法中所用到的属性;编排完的流程,在spark分布式计算系统上进行运算,最终获得分析结果。上述流程即为流程图。在本专利技术中,通过统一算法的接口和标准,能够让用户自由实现自己的算法,并与系统的其他算法无缝组合。通过绘制算法流程图,实现对算法的不同顺序组合来分析处理数据,分析流程多样化。流程图会自动解析运行在spark的群集上,省去了人工将算法运行在spark上的工作。算法所运本文档来自技高网...
一种适用于分布式算法的运行容器及流程图创建方法

【技术保护点】
一种适用于分布式算法的运行容器,其特征在于,包括硬件模块和软件模块,硬件模块为算法的运行环境;软件模块则包括流程图绘制模块、关系确定模块、接口模块和检测模块;其中:运行环境,该运行环境采用spark分布式计算系统并用于算法的运行;流程图绘制模块,提供绘制界面使用户实现对算法流程的绘制,同时该绘制界面还用于添加算法实例节点;关系确定模块,在通过流程图绘制模块添加算法实例节点后,该关系确定模块通过算法实例节点与算法实例节点之间的连线来表示算法实例节点之间的关系;接口模块,提供用户增加新的算法的接口与标准,且该标准规范实现任意算法在流程图绘制模块中与其它算法随机组合,进行数据分析;检测模块,检测整个算法添加或组合过程的完整性。

【技术特征摘要】
1.一种适用于分布式算法的运行容器,其特征在于,包括硬件模块和软件模块,硬件模块为算法的运行环境;软件模块则包括流程图绘制模块、关系确定模块、接口模块和检测模块;其中:运行环境,该运行环境采用spark分布式计算系统并用于算法的运行;流程图绘制模块,提供绘制界面使用户实现对算法流程的绘制,同时该绘制界面还用于添加算法实例节点;关系确定模块,在通过流程图绘制模块添加算法实例节点后,该关系确定模块通过算法实例节点与算法实例节点之间的连线来表示算法实例节点之间的关系;接口模块,提供用户增加新的算法的接口与标准,且该标准规范实现任意算法在流程图绘制模块中与其它算法随机组合,进行数据分析;检测模块,检测整个算法添加或组合过程的完整性。2.根据权利要求1所述的一种适用于分布式算法的运行容器,其特征在于,所述流程图绘制模块中,提供浏览器使用户实现对算法流程的绘制,该绘制的算法流程图中包含算法实例节点以及算法实例节点的关系,算法实例节点的关系是通过算法之间的连线来确定。3....

【专利技术属性】
技术研发人员:王莹张立军孙丙聪王栋
申请(专利权)人:浪潮软件集团有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1