机器学习管道骨架实例化制造技术

技术编号:34764837 阅读:17 留言:0更新日期:2022-08-31 19:12
本公开涉及机器学习管道骨架实例化。操作包括获得机器学习ML管道骨架模型,其被配置成生成ML管道骨架,该管道骨架指示用来处理新ML项目的新数据集的一组第一功能块。对于所述一组第一功能块中的每个相应第一功能块,所述操作包括识别由ML管道骨架模型使用的训练数据以确定管道骨架的相应第一功能块。所述操作还包括识别现有ML管道的与训练数据相关联的代码片段。此外,所述操作包括基于与用来确定第一功能块的训练数据相关联的代码片段来选择用于相应第一功能块的实例化的代码片段。用于相应第一功能块的实例化的代码片段。用于相应第一功能块的实例化的代码片段。

【技术实现步骤摘要】
机器学习管道骨架实例化


[0001]本公开内容中讨论的实施方式涉及机器学习管道骨架的实例化。

技术介绍

[0002]机器学习(ML)通常采用利用训练数据训练的ML模型来做出预测,所述预测随着持续的训练而自动变得更加准确。ML可以用于多种应用,包括但不限于流量预测、网络搜索、在线欺诈检测、医疗诊断、语音识别、电子邮件过滤、图像识别、虚拟个人助理和自动翻译。
[0003]本公开内容中要求保护的主题不限于解决任何缺点或仅在诸如上面所描述的那些环境的环境中操作的实施方式。更确切地说,提供该
技术介绍
仅是为了示出可以实践本公开内容中描述的一些实施方式的一个示例


技术实现思路

[0004]根据实施方式的方面,操作可以包括获得机器学习(ML)管道骨架模型,该ML管道骨架模型被配置成生成用于新ML项目的ML管道骨架,该管道骨架指示用来处理新ML项目的新数据集的一组第一功能块,所述一组第一功能块中的每个第一功能块具有相应功能。对于所述一组第一功能块中的每个相应第一功能块,所述操作包括识别由ML管道骨架模型使用的训练数据以确定管道骨架的相应第一功能块。训练数据指示用于训练ML管道骨架模型的现有ML管道的第二功能块。所述操作还包括识别现有ML管道的与训练数据相关联的代码片段,其中,代码片段对由训练数据指示的第二功能块进行实例化。此外,所述操作包括基于与用来确定第一功能块的训练数据相关联的代码片段来选择用于相应第一功能块的实例化的代码片段。
[0005]实施方式的目的和优点将至少通过权利要求书中特别指出的元素、特征和组合来实现和达到。
[0006]前面的总体描述和下面的详细描述两者均作为示例给出,并且是说明性的,而不是对所要求保护的本专利技术的限制。
附图说明
[0007]将通过使用附图以附加的特征和细节来描述和说明示例实施方式,在附图中:
[0008]图1是表示与基于现有机器学习项目自动生成新机器学习项目有关的示例环境的图;
[0009]图2示出了可以执行以修改新机器学习项目的管道骨架以生成改进的管道骨架的示例操作组;
[0010]图3A是确定功能块的依赖性的示例方法的流程图;
[0011]图3B示出了可以指示三个不同功能块关于数据集的不同列的使用的示例表;
[0012]图4是确定功能块与数据集特征之间的关系映射的示例方法的流程图;
[0013]图5是确定管道骨架的块实例化的示例方法的流程图;
[0014]图6是将管道骨架改进为改进骨架的示例方法的流程图;
[0015]图7示出了可以执行以将管道骨架实例化为具体管道骨架的示例操作组;
[0016]图8是获得用于管道骨架的实例化的代码片段的示例方法的流程图;
[0017]图9是获得用于管道骨架的实例化的代码片段的另一示例方法的流程图;
[0018]图10是确定用于实现的代码片段关于管道骨架的适应性的示例方法的流程图;
[0019]图11是生成候选管道组的示例方法的流程图;以及
[0020]图12示出了示例计算系统的框图。
具体实施方式
[0021]本公开内容中描述的一些实施方式涉及将现有机器学习(ML)项目自动适应新ML项目的方法和系统。
[0022]随着ML变得越来越普遍,常常缺乏可用于实现新ML项目的ML专家(例如,熟练的数据科学家)。尽管已经提出了各种AutoML解决方案(例如Auto

Sklearn、AutoPandas等)来解决在缺乏ML专家的情况下实现新ML项目所面临的日益严峻的挑战,但当前的AutoML解决方案仅提供了简单的和部分的解决方案,所述简单的和部分的解决方案不足以使非专家能够全面实现新机器学习项目。此外,尽管现有ML项目的开源软件(OSS)数据库(例如,Kaggle、GitHub等)也被提议作为用于应对由非专家实现新ML项目的挑战的另一种解决方案,但对于非专家在这些数据库中找到潜在有用的现有ML项目可能是困难的或不可能的。此外,即使非专家可能成功地在这些数据库中找到潜在有用的现有ML项目,对于非专家而言,修改潜在有用的现有ML项目以满足新ML项目的新需求也是困难的或不可能的。
[0023]在本公开内容中,术语“ML项目”可以指代包括数据集、在数据集上定义的ML任务以及ML管道(例如,脚本或程序代码)的项目,所述ML管道被配置成实现用于在数据集上针对ML任务训练ML模型并使用ML模型以进行新预测的一系列操作。在本公开内容中,术语“计算笔记本”可以指代用来开发和/或表示ML管道的计算结构,尤其是在开发阶段期间的计算结构(例如,Jupyter笔记本)。尽管本文公开的实施方式利用Python编程语言的ML管道和被构造为Jupyter笔记本的计算笔记本来示出,但应当理解,其他实施方式可以包括以不同语言编写的ML管道和在其他平台中构造的计算笔记本。
[0024]根据本公开内容的一个或更多个实施方式,可以执行操作以将现有ML项目自动适应新ML项目。例如,在一些实施方式中,计算机系统可以通过构建“搜索和适应”风格的工作流来有组织地支持数据科学家的自然工作流,在“搜索和适应”风格的工作流中数据科学家将首先搜索可以用作用于构建新ML项目的良好起点的现有ML项目,并且然后适当地调整现有ML项目来针对新ML项目的新数据集和新ML任务构建ML管道。
[0025]例如,在一些实施方式中,计算机系统可以从现有ML项目的OSS数据库中自动挖掘原始ML项目,并且可以在将原始ML项目存储在现有ML项目的语料库中之前自动管理原始ML项目。在一些实施方式中,对来自大型存储库的现有ML项目的这种挖掘和管理可能产生可以用于搜索和适应工作流中的各种高质量现有ML项目的语料库。此外,这种管理可能涉及清理现有ML项目的ML管道(例如,使用动态程序切片),并且可能涉及计算一组特征以捕获每个ML项目的质量和多样性并选择与这些目标一致的现有ML项目的最佳数目。
[0026]此外,在一些实施方式中,该管理可能需要执行以自动识别和索引现有ML项目的
ML管道中的功能块的操作。与传统的软件程序不同,ML项目的ML管道通常遵循基于数据集属性的明确定义的工作流,并且可以被视为一系列功能块。因此,一些实施方式可以涉及如下技术:自动提取和标记ML管道中的功能块以在语料库中正确索引功能块,从而可以有效地搜索功能块以合成用于新ML任务的新ML管道。更具体地,该技术可以在适当的级别处使ML管道抽象化,并且可以采用基于图表的序列挖掘算法来提取自定义的功能块和惯用的功能块两者。最后,可以对每个功能块进行语义标记。
[0027]在本公开内容中,对“功能块”的提及可以指代可以由ML管道执行的操作,在ML管道中特定功能块可以对应于特定类型的功能。语义标记可以指示对应功能块的功能。此外,每个功能块可以在其对应的ML管道中被实例化,其中特定的代码片段被配置成致使对应功能块的功能的执行。在许多情况下,跨不同ML管道的相同功能块可以在每个不本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种方法,包括:获得机器学习ML管道骨架模型,所述ML管道骨架模型被配置成生成用于新ML项目的ML管道骨架,所述管道骨架指示用来处理所述新ML项目的新数据集的一组第一功能块,所述一组第一功能块中的每个第一功能块具有相应功能;对于所述一组第一功能块中的每个相应第一功能块,所述方法包括:识别由所述ML管道骨架模型使用的训练数据以确定所述管道骨架的所述相应第一功能块,所述训练数据指示用于训练所述ML管道骨架模型的现有ML管道的第二功能块;识别所述现有ML管道的与所述训练数据相关联的代码片段,其中,所述代码片段对由所述训练数据指示的所述第二功能块进行实例化;以及基于与用来确定所述第一功能块的所述训练数据相关联的所述代码片段来选择用于所述相应第一功能块的实例化的所述代码片段。2.根据权利要求1所述的方法,其中,识别所述代码片段包括:识别曾用于选择所述相应第一功能块的所述新数据集的一个或更多个特征;作为所述训练数据的一部分并基于所述一个或更多个特征,识别用来训练所述ML管道骨架模型的现有数据集;以及响应于所述代码片段针对所述现有数据集对所述第二功能块进行实例化而识别所述代码片段。3.根据权利要求2所述的方法,其中,识别所述现有数据集基于关于所述一个或更多个特征在所述新数据集与所述现有数据集之间的最接近点分析。4.根据权利要求1所述的方法,其中,获得所述ML管道骨架模型包括生成所述ML管道骨架模型。5.根据权利要求4所述的方法,其中,生成所述ML管道骨架模型包括训练所述ML管道骨架模型以识别用于包括在管道骨架中的功能块。6.根据权利要求1所述的方法,其中,选择所述代码片段还基于与被识别为所述相应第一功能块的潜在实例化的其他代码片段相比较的所述代码片段的排位。7.根据权利要求1所述的方法,其中,识别所述训练数据基于所述新ML项目的一个或更多个特征。8.一种或更多种非暂态计算机可读存储介质,被配置成存储指令,所述指令响应于被执行而使系统执行操作,所述操作包括:获得机器学习ML管道骨架模型,所述ML管道骨架模型被配置成生成用于新ML项目的ML管道骨架,所述管道骨架指示用来处理所述新ML项目的新数据集的一组第一功能块,所述一组第一功能块中的每个第一功能块具有相应功能;对于所述一组第一功能块中的每个相应第一功能块,所述操作包括:识别由所述ML管道骨架模型使用的训练数据以确定所述管道骨架的所述相应第一功能块,所述训练数据指示用于训练所述ML管道骨架模型的现有ML管道的第二功能块;识别所述现有ML管道的与所述训练数据相关联的代码片段,其中,所述代码片段对由所述训练数据指示的所述第二功能块进行实例化;以及基于与用来确定所述第一功能块的所述训练数据相关联的所述代码片段来选择用于所述相应第一功能块的实例化的所述代码片段。
9.根据权利要求8所述的一种或更多种非暂态计算机可读存储介质,其中,识别所述代码片段包括:识别曾用于选择所述相应第一功能块的所述新数据集的一个或更多个特征;作为所述训练数据的一部分并基于所述一个或更多个特征,识...

【专利技术属性】
技术研发人员:吉田浩章穆库尔
申请(专利权)人:富士通株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1