机器学习方法及系统技术方案

技术编号：10690432 阅读：300 留言：0更新日期：2014-11-26 18:34

本发明专利技术涉及一种机器学习方法，包括如下步骤：对来自不同数据源的数据进行预处理；对上述预处理后的数据进行特征提取以得到特征量；将上述特征提取的特征量转换为二进制文件格式进行存储；根据用户输入或选择的算法和参数，通过统一的接口将上述存储的二进制文件交给Hadoop系统或者GraphLab系统进行计算处理。本发明专利技术还涉及一种机器学习系统。本发明专利技术不仅能够处理易切分的普通数据集，还能够处理数据依赖性强的图数据，具有更多的选择和灵活性，而且提供更加简洁统一的接口，能够有效降低开发人员的学习难度。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术涉及一种机器学习方法，包括如下步骤：对来自不同数据源的数据进行预处理；对上述预处理后的数据进行特征提取以得到特征量；将上述特征提取的特征量转换为二进制文件格式进行存储；根据用户输入或选择的算法和参数，通过统一的接口将上述存储的二进制文件交给Hadoop系统或者GraphLab系统进行计算处理。本专利技术还涉及一种机器学习系统。本专利技术不仅能够处理易切分的普通数据集，还能够处理数据依赖性强的图数据，具有更多的选择和灵活性，而且提供更加简洁统一的接口，能够有效降低开发人员的学习难度。【专利说明】机器学习方法及系统
本专利技术涉及一种机器学习方法及系统。
技术介绍
目前已有的大数据处理系统主要有两种:一种是基于MapReduce模型的Hadoop系统，另一种是基于图计算模型的GraphLab系统。其中，MapReduce模型是把海量数据切分为相对独立的多个子数据集，然后将这些子数据集分配到分布式集群上进行大规模并行计算，最后再将各个机器的计算结果收集起来，从而得到最终的计算结果。这个模型的原理决定了它只擅长处理一种数据，也即可以被切分为相对独立的各个子部分的数据集，而对于数据依赖性较强的其他类型的计算任务就显得无能为力。而GraphLab系统则是基于图模型。它将一个大图按照图分割的算法分割为多个关联度较低的子图，然后在各个子图之间进行并行计算。图数据是一种数据关联性很强的数据，因此它在一定程度上弥补了 Hadoop的不足。然而，MapReduce模型和图模型都十分复杂，理解起来十分困难。基于这两种模型实...

【技术保护点】
一种机器学习方法，其特征在于，该方法包括如下步骤：对来自不同数据源的数据进行预处理；对上述预处理后的数据进行特征提取以得到特征量；将上述特征提取的特征量转换为二进制文件格式进行存储；根据用户输入或选择的算法和参数，通过统一的接口将上述存储的二进制文件交给Hadoop系统或者GraphLab系统进行计算处理。

【技术特征摘要】

【专利技术属性】
技术研发人员：涂继业，张涌，宁立，
申请(专利权)人：深圳先进技术研究院，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人