【技术实现步骤摘要】
预测建模优化相关申请的交叉引用本申请要求美国临时专利申请序列号第62/307,971号、标题为“预测建模优化”和美国临时专利申请序列号第62/307,671号、标题为“用于分布式处理平台的统一客户端”的优先权,它们两者均提交于2016年3月14日。在此通过引用将两个临时申请的全部内容并入本申请。本申请与提交于_的美国专利申请第_号、标题为“用于分布式处理平台的统一客户端”有关,在此通过引用将其全部内容并入本申请。
本说明书涉及优化预测建模。
技术介绍
预测建模是利用统计和数学方法分析数据、找到模式(pattern)并且产生可以帮助预测具体结果的模型的过程。出于商业目的,预测模型一般被建立在历史数据的样本上并且之后可被应用到通常具有当前数据或事件的不同数据集。
技术实现思路
本说明书中所述主题的创新方面可在包括以下动作的方法中被具体化:识别存储在底层数据平台内的输入训练数据集;并且向数据平台发送指令,所述指令可由数据平台运行,以通过将一个或多个数据处理操作委托给数据平台上的多个节点,基于输入训练数据集来训练预测模型。这些方面的其它实施例包括相应系统、装置和计算机程序,被配置为执行编码在计算机存储设备上的方法的动作。这些和其它实施例可以每个可选地包括以下特征中的一个或多个。例如,对业务数据集应用预测模型来识别一个或多个结果,每个结果与出现概率关联。数据平台包括开源集群计算框架。开源集群计算框架包括ApacheSpark。该方法独立于来自数据平台的输入训练数据集的数据传输。一个或多个处理操作包括计算与输入训练数据集关联的一个或多个统计量以减少用于生成预测模型的变量的 ...
【技术保护点】
一种由至少一个处理器执行的计算机实现的方法,所述方法包含:由所述至少一个处理器识别存储在包括多个子系统的分布式处理平台内的输入训练数据集;由所述至少一个处理器将指令从客户端应用发送到所述分布式处理平台以请求所述多个子系统中的至少一个被运行以执行至少一个数据处理操作,来基于所述输入训练数据集确定预测模型;以及由所述至少一个处理器提供所述预测模型以确定一个或多个结果,每个结果与数据集中值的出现概率关联。
【技术特征摘要】
2016.03.14 US 62/307,971;2016.09.09 US 15/261,2151.一种由至少一个处理器执行的计算机实现的方法,所述方法包含:由所述至少一个处理器识别存储在包括多个子系统的分布式处理平台内的输入训练数据集;由所述至少一个处理器将指令从客户端应用发送到所述分布式处理平台以请求所述多个子系统中的至少一个被运行以执行至少一个数据处理操作,来基于所述输入训练数据集确定预测模型;以及由所述至少一个处理器提供所述预测模型以确定一个或多个结果,每个结果与数据集中值的出现概率关联。2.如权利要求1所述的计算机实现的方法,其中所述指令被经包括多个子客户端的统一客户端从所述客户端应用发送到所述分布式处理平台,每个子客户端被配置为与所述分布式处理平台的相应子系统接口。3.如权利要求1所述的计算机实现的方法,进一步包含:由所述至少一个处理器在所述客户端应用上运行至少一个本地数据处理操作以确定所述预测模型;其中所述至少一个本地数据处理操作接受包括从在所述分布式处理平台上执行的至少一个数据处理操作得到的结果集的输入。4.如权利要求1所述的计算机实现的方法,其中所述分布式处理平台是Hadoop平台。5.如权利要求1所述的计算机实现的方法,其中所述至少一个数据处理操作包括由所述多个子系统中的Spark子系统执行的数据处理操作。6.如权利要求1所述的计算机实现的方法,其中所述方法独立于来自所述分布式处理平台的所述输入训练数据集的数据传输。7.如权利要求1所述的计算机实现的方法,其中所述至少一个数据处理操作包括计算与所述输入训练数据集关联的一个或多个统计量以减少用于生成所述预测模型的变量的数目。8.如权利要求7所述的计算机实现的方法,其中所述至少一个数据处理操作进一步包括基于所述一个或多个结果重计算所述一个或多个统计量。9.如权利要求1所述的计算机实现的方法,其中所述至少一个数据处理操作包括编码所述输入训练数据集的数据,其包括将字母数字数据转变为数字数据。10.如权利要求1所述的计算机实现的方法,其中所述至少一个数据处理操作包括执行关于所述输入训练数据集的协方差矩阵计算和矩阵求逆计算。11.如权利要求1所述的计算机实现的方法,其中所述至少一个数据处理操作包括将所述输入训练数据集分片以确定一个或多个...
【专利技术属性】
技术研发人员:A麦克沙恩,J多恩胡,B拉米,A卡米,N杜利安,A阿卜杜勒拉赫曼,L奥洛格姆,F马利,M凯雷斯,E马凯德,
申请(专利权)人:商业对象软件有限公司,
类型:发明
国别省市:爱尔兰,IE
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。