本发明专利技术涉及一种机器学习方法,包括如下步骤:对来自不同数据源的数据进行预处理;对上述预处理后的数据进行特征提取以得到特征量;将上述特征提取的特征量转换为二进制文件格式进行存储;根据用户输入或选择的算法和参数,通过统一的接口将上述存储的二进制文件交给Hadoop系统或者GraphLab系统进行计算处理。本发明专利技术还涉及一种机器学习系统。本发明专利技术不仅能够处理易切分的普通数据集,还能够处理数据依赖性强的图数据,具有更多的选择和灵活性,而且提供更加简洁统一的接口,能够有效降低开发人员的学习难度。
【技术实现步骤摘要】
【专利摘要】本专利技术涉及一种机器学习方法,包括如下步骤:对来自不同数据源的数据进行预处理;对上述预处理后的数据进行特征提取以得到特征量;将上述特征提取的特征量转换为二进制文件格式进行存储;根据用户输入或选择的算法和参数,通过统一的接口将上述存储的二进制文件交给Hadoop系统或者GraphLab系统进行计算处理。本专利技术还涉及一种机器学习系统。本专利技术不仅能够处理易切分的普通数据集,还能够处理数据依赖性强的图数据,具有更多的选择和灵活性,而且提供更加简洁统一的接口,能够有效降低开发人员的学习难度。【专利说明】机器学习方法及系统
本专利技术涉及一种机器学习方法及系统。
技术介绍
目前已有的大数据处理系统主要有两种:一种是基于MapReduce模型的Hadoop系统,另一种是基于图计算模型的GraphLab系统。 其中,MapReduce模型是把海量数据切分为相对独立的多个子数据集,然后将这些子数据集分配到分布式集群上进行大规模并行计算,最后再将各个机器的计算结果收集起来,从而得到最终的计算结果。这个模型的原理决定了它只擅长处理一种数据,也即可以被切分为相对独立的各个子部分的数据集,而对于数据依赖性较强的其他类型的计算任务就显得无能为力。 而GraphLab系统则是基于图模型。它将一个大图按照图分割的算法分割为多个关联度较低的子图,然后在各个子图之间进行并行计算。图数据是一种数据关联性很强的数据,因此它在一定程度上弥补了 Hadoop的不足。 然而,MapReduce模型和图模型都十分复杂,理解起来十分困难。基于这两种模型实现的大规模机器学习系统,则更是繁琐。更糟糕的是,这两种模型的差别导致了相对应的机器学习系统有巨大的差别,它们的接口完全不同。开发人员需要彻底理解两种模型后,再学习两个完全不同的系统开发,内容多,难度大,学习曲线十分陡峭,严重阻碍了大规模机器学习系统的应用。
技术实现思路
有鉴于此,有必要提供一种机器学习方法及系统。 本专利技术提供一种机器学习方法,该方法包括如下步骤:对来自不同数据源的数据进行预处理;对上述预处理后的数据进行特征提取以得到特征量;将上述特征提取的特征量转换为二进制文件格式进行存储;根据用户输入或选择的算法和参数,通过统一的接口将上述存储的二进制文件交给Hadoop系统或者GraphLab系统进行计算处理。 其中,该方法还包括:信息提示以及用户交互:所述信息提示指向用户展示当前系统的运行状态、运行进度,并提示用户进行相关的变量设置;所述用户交互包括:标准输入和配置文件输入两种方式。 该方法还包括:提供统一的接口。 该方法还包括:权限认证,通过身份认证的用户才能够使用该系统提供的服务。 所述数据包括:文本数据、视频数据及图数据;所述预处理包括:数据清洗、数据集成、数据规约。 本专利技术还提供一种机器学习系统,该系统包括预处理模块、特征提取模块、转换模块及处理模块,其中:所述预处理模块用于对来自不同数据源的数据进行预处理;所述特征提取模块用于对上述预处理后的数据进行特征提取以得到特征量;所述转换模块用于将上述特征提取的特征量转换为二进制文件格式进行存储;所述处理模块用于根据用户输入或选择的算法和参数,通过统一的接口将上述存储的二进制文件交给Hadoop系统或者GraphLab系统进行计算处理。 其中,该系统还包括交互模块用于:信息提示以及用户交互:所述信息提示指向用户展示当前系统的运行状态、运行进度,并提示用户进行相关的变量设置;所述用户交互包括:标准输入和配置文件输入两种方式。 该系统还包括接口封装模块用于:提供统一的接口。 该系统还包括认证模块用于:权限认证,通过身份认证的用户才能够使用该系统提供的服务。 所述数据包括:文本数据、视频数据及图数据;所述预处理包括:数据清洗、数据集成、数据规约。 本专利技术机器学习方法及系统,封装了 Hadoop和GraphLab的所有功能,不仅能够处理易切分的普通数据集,还能够处理数据依赖性强的图数据,具有更多的选择和灵活性,而且提供更加简洁统一的接口,能够有效降低开发人员的学习难度。 【专利附图】【附图说明】 图1为本专利技术机器学习方法的流程图; 图2为本专利技术的系统架构图; 图3为本专利技术机器学习系统的硬件架构图。 【具体实施方式】 下面结合附图及具体实施例对本专利技术作进一步详细的说明。 参阅图1所示,是本专利技术机器学习方法较佳实施例的作业流程图。 步骤S401,对来自不同数据源的数据进行预处理。其中,所述数据包括:文本数据、视频数据及图数据。所述预处理包括:数据清洗、数据集成、数据规约。具体而言: 所述数据清洗指:剔除严重不完整的数据,比如文本数据中包含不完整的字段项,则直接删除该条记录。 所述数据规约指:将来自不同数据源的数据的格式进行统一:将每个文本数据转化为一行进行表达;将每条视频数据转换为一个文件进行存储;将图数据转化为通用的EdgeList格式,也即每行包含两个顶点、一条边以及该边的权值。 所述数据集成指:将规约后的来自不同数据源的数据集成到相同的数据文件中。 步骤S402,对上述预处理后的数据进行特征提取以得到特征量。具体而言: 对于所述文本数据、所述视频数据每行为一条记录,对于所述图数据则每行为一条边,以行为单位进行特征提取,最终将文本数据、视频数据、图数据都转化为数字形式表述。进一步地,对所述文本数据、所述视频数据及所述图数据处理如下: 文本数据特征提取:采用向量空间模型(Vector Space Model, VSM)提取出用于表达每条文本数据的数学量。 视频数据特征提取:通过灰度共生矩阵方法,将每条视频数据压缩为一个矩阵以表达该视频具有的数学本质。 图数据特征提取:将不同含义的图数据抽象为图的顶点和边,从而得到数学意义上的抽象图。比如将人抽象为顶点,将人与人之间的关系抽象为边,从而得到人际关系的数学抽象。 步骤S403,将上述特征提取的特征量转换为二进制文件格式进行存储。这是由于海量数据的读写在大规模数据分析中往往是性能瓶颈之一,高效的压缩文件格式能够节约读与时间,提闻运行效率和性能。 步骤S404,信息提示以及用户交互。所述信息提示指向用户展示当前系统的运行状态、运行进度,并提示用户进行相关的变量设置:选择想要使用的算法和平台。所述用户交互包括:标准输入和配置文件输入两种方式。所述标准输入指通过键盘输入,所述配置文件输入指通过编辑XML格式的配置文件来控制变量信息。 步骤S405,根据用户交互时的输入或选择,对上述以字符格式存储的数据,也即二进制文件,进行计算处理。 通过步骤S404的用户交互,确定需要使用的算法和参数,然后通过统一的接口将计算任务交互给Hadoop系统或者GraphLab系统进行计算。如图2所示Dolphin部件提供任务分发、参数转换、接口转换、任务管理、多线程加速等功能。当任务到来时,它根据用户选定的平台和算法,决定将任务分发给哪个底层系统进行处理;然后从用户设定的变量中解析参数,并且将参数转化为一个统一的字符串格式;并且将任务记录在数据库中,以备能够查询其进度和必要时停止;当有多个任务同时开启时,可以开启多本文档来自技高网...
【技术保护点】
一种机器学习方法,其特征在于,该方法包括如下步骤:对来自不同数据源的数据进行预处理;对上述预处理后的数据进行特征提取以得到特征量;将上述特征提取的特征量转换为二进制文件格式进行存储;根据用户输入或选择的算法和参数,通过统一的接口将上述存储的二进制文件交给Hadoop系统或者GraphLab系统进行计算处理。
【技术特征摘要】
【专利技术属性】
技术研发人员:涂继业,张涌,宁立,
申请(专利权)人:深圳先进技术研究院,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。