创建用于数据分析功能的运行时可执行程序的方法技术

技术编号:24964795 阅读:31 留言:0更新日期:2020-07-21 15:07
本公开涉及一种用于创建用于数据分析功能的运行时可执行程序的方法。该方法包括:响应于从用户接收到数据分析请求,从数据分析功能的储存库中选择数据分析功能集合,以在托管环境中或在用户的场所中执行。可以确定用户对数据分析功能集合的使用条件。可以创建用于应用所确定的使用条件的附加代码。可以编译所选择的数据分析功能和附加代码,从而生成可执行代码。可以认证可执行代码。可以部署或提供经认证的可执行代码以供下载到用于经认证的可执行代码的运行时环境。

Methods for creating runtime executable programs for data analysis functions

【技术实现步骤摘要】
创建用于数据分析功能的运行时可执行程序的方法
本专利技术涉及数字计算机系统领域,更具体而言涉及创建用于数据分析功能的运行时可执行程序的方法。
技术介绍
随着云计算的兴起,工作载荷可以被转移到云计算基础设施,诸如IBM云。但是,由于数据严重性(datagravity)问题,将数据转移到云基础设施可能会出现问题。数据严重性表明将数据资产转移到云解决方案的难易程度。数据严重性程度越高,越难以将数据转移到云中。
技术实现思路
各种实施例提供了如独立权利要求的主题所描述的用于创建用于数据分析功能的运行时可执行程序的方法、计算机系统和计算机程序产品。在从属权利要求中描述了有利的实施例。如果本专利技术的实施例不相互排斥,那么它们可以彼此自由地组合。一方面,本专利技术涉及一种用于创建用于数据分析功能的运行时可执行程序的计算机实现的方法。该方法包括提供数据分析功能的储存库,并且响应于从用户接收到数据分析请求,从储存库中选择用于在主机环境中或用户的场所(premises)执行的数据分析功能集合。此外,该方法包括为用户确定该数据分析功能集合的许可证,以执行该数据分析功能集合,并创建用于实现所确定的许可证的附加代码。此外,该方法包括编译所选择的数据分析功能和附加代码,从而生成可执行代码,以及认证该可执行代码。此外,该方法包括部署经认证的可执行代码或提供经认证的可执行代码以供下载到用于经认证的可执行代码的运行时环境。根据一个实施例,该方法还包括对可执行代码进行测量(instrumenting)或配置,以使得能够在可执行代码的执行期间收集所选择的数据分析功能的使用情况统计信息。例如,这可以使得能够比较相似的功能在资源消耗方面是否表现出很大不同。这可以使得能够基于使用情况统计信息来建议数据分析功能,以供同一用户或其它用户进一步使用。根据一个实施例,如果根据许可证,用户无权使用所选择的数据功能的全部功能,则创建附加代码,使得数据分析功能集合具有受限的功能。例如,数据分析功能集合可以在采样模式下使用。在采样模式下,用户可以例如仅对小部分数据运行数据分析功能。在另一个示例中,用户可以仅在有限的时间内运行数据分析功能集合。根据一个实施例,该方法还包括接收关于数据分析功能集合的用户反馈,以及使用用户反馈来更新储存库。这可以启用协作式方法,其中具有不同环境的不同用户提供关于功能的反馈。这可以使得能够建立健壮且可靠的功能储存库。根据一个实施例,所选择的数据分析功能集合是储存库的更新后的数据分析功能和/或向储存库新添加的数据分析功能和/或储存库的现有数据分析功能。新添加的分析功能可以是在预定义的时间段中添加到储存库的功能,例如,上个月添加的功能。现有数据分析功能是在该预定义的时间段之前存在的功能(例如,它在上个月之前存在)。更新后的功能是被更新的现有功能。例如,用户可以指示这三种类型的功能中的哪种类型要用于分析。这可以提高计算机系统对用户请求的响应准确度。根据一个实施例,接收到的请求指示从数据源导入的元数据。元数据指示要对数据源的数据执行的一项或多项分析。该方法还包括将元数据作为输入提供给至少一个预定义的机器学习(ML)模型,其中所选择的数据分析功能集合是使用元数据和储存库的数据分析功能作为输入的至少一个机器学习模型的输出。根据一个实施例,该方法还包括:在接收到请求后,自动运行分析以生成另外的元数据,其中输入还包括另外的元数据。这可以进一步提高本方法的准确性,从而提供可靠的结果。元数据还可以包括如由例如其它用户的测量的可执行代码生成的使用情况统计信息。该实施例还可以由于以下原因是有利的。由于诸如数据集成、主数据管理和分析之类的信息管理领域中自助服务能力的兴起,因此迫切需要提供对各种数据资产在语义上的理解。这就需要将技术概要分析(profiling)能力(例如,列分析、PK发现、PK-FK分析)扩展到需要按领域开发的语义概要分析能力。因此,由于没有单个软件提供者将能够开发包含所有可能的数据域的库或概要分析框架以进行语义概要分析,因此概要分析框架需要针对社区贡献可扩展以具有奖励贡献的能力。但是,对于一个人(例如一个分析人员)可能很难知道特定语义概要分析库是否可用,从而增加了必须在合适的市场中搜索和推荐功能的手段的需求。同样可能的是,不同的人员为特定的数据域语义分类功能并行实现相似但不相同的范围。用于选择数据分析功能的该实施例可以解决这个问题,因为它可以使用机器学习能力提供用户所需的分析功能。此外,使用机器学习模型可以提供对用户请求的准确响应。例如,可以提供对目标系统元数据的基于启用机器学习的评估的关于将使用哪些分析功能的智能推荐。例如,元数据可以包括数据集的名称、描述、位置和所有者;数据集的所有数据字段的名称、描述和数据类型;用户在数据集上做出的最终标签、术语或注释;对数据集做出的自动数据概要分析(例如,基数、数据格式、频繁值和其它数据属性)的结果;以及对数据集的数据自动分类的结果。ML模型(或预测模型)可以被配置为根据以下提供建议:给定数据集及其数据的性质,对于用户在数据集的某个数据字段上使用特定功能可能是有益的,这将验证某个数据字段的值,例如,比如验证美国电话号码的格式。此外或替代地,ML模型可以推荐针对同一数据集的其它列运行标准化规则,诸如美国邮政地址中规定的规则。此外或替代地,给定数据集的一些列的基数,ML模型可以建议对数据集的记录运行重复项删除(deduplication)以消除数据集的重复条目可能是有益的。机器学习模型可以例如在使用预定义的训练集训练机器学习算法后生成。训练集可以例如相关联地包括数据分析功能与过去已经由这些功能成功分析的数据的元数据。至少一个机器学习模型可以是由计算机系统启用的用于处理用户资产的认知能力的一部分。例如,认知能力可以用于执行可以用于分析用户资产的分析功能集合的选择。例如,认知能力可以启用以下:所选择的功能集合中的所选择的功能可以例如是一个或多个分类器,例如,用于检测特定域的数据。这样的分类器的建议或选择可以基于用户资产上的ML模式(例如,使用指示用户资产的元数据和/或值)。例如,ML模型(诸如朴素贝叶斯分类(NBC)模型)可以预测和选择对用户资产可能具有肯定发现的分类器(域),尽管用户最初并不打算使用该分类器。在定义或选择功能集合中的一个或多个给定功能(例如诸如分类器)之后,其它功能可以被标识或导出为执行给定的一个或多个功能所必需的,例如,其它功能可以作为预处理步骤的一部分执行。为此,可以提供用户资产所需的基于ML的预处理建议。例如,为了应用某个分类器(例如,由NBC建议的分类器),可能需要在用户资产的预处理(字符串到日期等)步骤中进行适当的变换。为此,例如可以使用决策树,使得它可以帮助评估对所需的预处理或后处理做出正确决策的可能性。可以基于用户请求或用户资产的预期用途来建议其它功能。例如,如果用户打算检测用户资产中的美国电话号码和美国地址,则系统可以建议用于检测美国信用卡号的其它分类器或用于标准化美国地址的功能,因为通常这些功能经常被其它用户与本文档来自技高网...

【技术保护点】
1.一种用于创建用于数据分析功能的运行时可执行程序的计算机实现的方法,所述方法包括:/n提供数据分析功能的储存库;/n响应于从用户接收到数据分析请求,从所述储存库中选择数据分析功能集合以在托管环境中或用户的场所中执行;/n为用户确定所述数据分析功能集合的许可证,以执行所述数据分析功能集合;/n创建用于实现所确定的许可证的附加代码;/n编译所选择的数据分析功能和所述附加代码,从而生成可执行代码;/n认证所述可执行代码;以及/n部署经认证的可执行代码或提供经认证的可执行代码以供下载到用于所述经认证的可执行代码的运行时环境。/n

【技术特征摘要】
20190115 US 16/247,7341.一种用于创建用于数据分析功能的运行时可执行程序的计算机实现的方法,所述方法包括:
提供数据分析功能的储存库;
响应于从用户接收到数据分析请求,从所述储存库中选择数据分析功能集合以在托管环境中或用户的场所中执行;
为用户确定所述数据分析功能集合的许可证,以执行所述数据分析功能集合;
创建用于实现所确定的许可证的附加代码;
编译所选择的数据分析功能和所述附加代码,从而生成可执行代码;
认证所述可执行代码;以及
部署经认证的可执行代码或提供经认证的可执行代码以供下载到用于所述经认证的可执行代码的运行时环境。


2.如权利要求1所述的方法,还包括配置所述可执行代码以使得能够在所述可执行代码的执行期间收集所选择的数据分析功能的使用情况统计信息。


3.如权利要求1所述的方法,如果根据所述许可证所述用户无权使用所选择的数据功能的全部功能,则创建所述附加代码,使得所述数据分析功能集合在具有受限功能的情况下使用。


4.如权利要求1所述的方法,还包括:接收关于所述数据分析功能集合的用户反馈以及使用所述用户反馈来更新所述储存库。


5.如权利要求1所述的方法,其中所选择的数据分析功能集合是所述储存库的更新后的数据分析功能、向所述储存库新添加的数据分析功能以及所述储存库的现有数据分析功能中的至少一个,并且其中所述新添加的分析功能是在预定义的时间段中添加到所述储存库的功能,所述现有数据分析功能是在所述预定义的时间段之前存在的功能;并且所述更新后的分析功能是被更新的现有功能。


6.如权利要求1所述的方法,其中接收到的请求指示从数据源导入的元数据,并且其中所述元数据指示要对所述数据源的数据执行的一项或多项分析,并且将所述元数据作为输入提供给至少一个预定义的机器学习模型,其中所选择的数据分析功能集合是...

【专利技术属性】
技术研发人员:M·奥伯霍菲尔M·W·格拉斯尔特Y·赛勒特J·P·瑟夫尔特
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1