时序数据分析方法、系统和计算机程序技术方案

技术编号:10219730 阅读:171 留言:0更新日期:2014-07-16 19:06
本发明专利技术涉及在多维时序预测问题中可靠地和有效地获得时滞和时窗,时滞和时窗根据每个解释变量而不同。对于每一次确定时滞和时窗,在不执行原始条件中的解释变量时序的正则化和最优化的情况下,通过变换到累积时序并执行正则化和最优化,确定最优的时滞和时窗。通过引进正则项到累积时序来调整获得模型的复杂度。而且,通过获得两个估计的累积值(其极性相互反相)的权重(通过正则到该点来简化),能够从这些权重中找到时滞和时窗。

【技术实现步骤摘要】
【国外来华专利技术】【专利摘要】本专利技术涉及在多维时序预测问题中可靠地和有效地获得时滞和时窗,时滞和时窗根据每个解释变量而不同。对于每一次确定时滞和时窗,在不执行原始条件中的解释变量时序的正则化和最优化的情况下,通过变换到累积时序并执行正则化和最优化,确定最优的时滞和时窗。通过引进正则项到累积时序来调整获得模型的复杂度。而且,通过获得两个估计的累积值(其极性相互反相)的权重(通过正则到该点来简化),能够从这些权重中找到时滞和时窗。【专利说明】时序数据分析方法、系统和计算机程序
本专利技术涉及时序数据的分析技术,并且具体地涉及在时序预测问题中为每个变量选择最优时滞和时窗的技术。
技术介绍
通常,多维时序预测问题(包括恢复问题和类识别问题)是从时序中的D型解释变量预测目标变量时序中的下一时序值的问题。作为具体的例子,提供了从各种经济指数中预测股价的例子,从各种气象学数据中预测气候和天气的例子以及从各种传感器数据中预测机械系统的故障的例子。当求解这样的多维时序预测问题时,必须对该时序中的每一个解释变量设置最优时滞和时窗。在这一方面,时滞L指的是直到某个原始解释变量在目标变量上施加影响的时间延迟。并且,时窗W指的是某个原始解释变量在目标变量上施加影响的时间段长度。在实际的目标系统中,解释变量和目标变量之间存在复杂的因果关系。具体地,并且存在根据解释变量而不同的影响宽度(时窗)、时间延迟(时滞)和影响大小。例如,对于日经指数平均值,纽约道琼斯指数具有直接的(短时滞)和尖锐的(短时窗)影响,但是国内消费信心指数的降低具有延迟的(长时滞)和延长的(长时窗)影响。关于这样的时序预测问题,已常规地测试了统计方法。在统计学领域,一维情况的AR(自回归)模型的研究和多维情况的VAR(矢量自回归)模型的研究已有很长的历史。然而,在多维情况下,主要是模型长度检验方法,并且当超过若干维度时,存在方法的可靠性显著下降的问题。还测试了机器学习方法。在机器学习领域,对考虑时滞和时窗主要趋势是滑窗方法。在许多情况中,所有的解释变量由相同的时滞和时窗处理。在存在施加不同影响的解释变量的情况中(当对于每一个解释变量的时滞和时窗不同时),结果是不适宜的。另外,调整迟滞或窗口中的一个来减少计算量,并且这使得发现最优组合变得复杂化。提供下列专利文献作为本主题的文献。专利申请2007-18216专利申请2007-199862
技术实现思路
技术问题统计方法和机器学习方法对于多维时序预测问题的可靠和有效处理仍存在问题。本专利技术已经考虑了该问题,并且其目的在于提供时序数据分析方法、系统和计算机程序,该时序数据分析方法、系统和计算机程序能够通过可靠地和有效地找到对于多维时序预测问题中的每个解释变量不同的时滞和时窗来构造更加精确的预测模型。解决问题提供以下内容来理解该专利技术的方法。具体地,该专利技术是选择时滞和选择时窗的方法,时滞是直到解释变量时序在目标变量时序上施加影响为止的时间延迟,时窗是解释变量时序在目标变量时序上施加影响为止的时间段,并且该专利技术提供步骤用于基于解释变量时序改变到累积值时序,累积值时序由变量从对应于有限时间的每个时间点的累积值构成;以及提供步骤用于作为引入正则项的优化问题求解累积时序,以从解得的权重获得时滞的值和时窗的值。当本专利技术也被理解为计算机程序或者计算机系统时,其变得清楚并且能够提供与理解本专利技术为方法时相同的技术特征。专利技术优点通过使用本专利技术,能够可靠地和有效地找到在多维时序预测问题中根据每个解释变量而不同的时滞和时窗。【专利附图】【附图说明】在附图中:图1是示出计算机I功能的方块图。图2是示出计算机I运行的流程图。图3是解释原始解释变量时序和累积值序列的图。图4是将真实模型系数与所提供方法的模型的系数比较的图。图5是将所提出方法模型的系数与现有方法模型的系数比较的图。图6是将所提出方法模型的系数与现有方法模型的系数比较的图。图7是解释所提出模型和现有模型的预测误差及模型构建时间的图。【具体实施方式】图1是根据该实现方式模型示出计算机I的硬件配置的功能方块图。计算机I的硬件结构提供总线10 (低速和高速)、与总线10连接的CPU (中央处理单元)11、RAM(随机存取存储器,存储设备)12、R0M(只读存储器,存储设备)13、HDD (硬盘驱动器,存储设备)14、通信接口 15和输入输出接口 16。此外,与输入输出接口 16连接的有鼠标(指点设备)17、平板显示器(显示设备)18和键盘19。而且,计算机I被解释为采用普通个人计算机结构的设备,但是例如可以执行有CPUll和HDD14的复用来实现更高的数据处理能力和有效性。除了这些台式型计算机,还可以采用任何各种类型的计算机系统,例如笔记本或平板型的个人计算机。计算机I内的软件配置提供操作系统(OS)来提供基本功能、使用OS功能的应用软件和用于输入-输出设备的驱动软件。把这些软件应用的每一个连同各个类型的数据加载到RAM12内,并且由CUPll执行,并且计算机I作为完整的单元执行图2所示的处理过程。图2是解释由计算机I执行的处理过程的流程图。该处理被广泛的分为两步来构造。而且,图3是代表性地示出了该处理的各阶段的图。继续,通过引入正则同时地选择了最优迟滞和最优窗口(S2)。首先,由D(N+M)个累积值序列解释变量和单一目标函数构成的预测问题被返回到用于目标函数的优化问题,并且引入正则项到目标函数内(S21)。此时,该结果使正则项中解释变量的权重趋近于零(间距),并稳定模型结构。在该实现方式模式下,引入了用于使不需要的变量的权重为零的具有较大影响的正则项LI。具体地,当x_i是解释变量矢量时,y_i是目标变量值,并且beta是模型,模型的输出是f(x_i,beta),寻找beta用于最小化下面的目标函数,导致返回到最优化模型。这意味着寻找最小化预测误差的模型。Sigma (y_i_f (x—i,beta)) "2然后,通过引入正则项(例如,LI正则项)以避免模型的复杂化(在该例子中,增加非零分量),产生了如下的目标函数。而且,beta是beta的每一个元素的绝对值的和。Sigma(y_i~f (x_i, beta)) '2+lambda | beta其后,通过调整正则参数来调整获得的模型的复杂度(S22)。此时,期望仅对于需要预测的原始解释变量的若干个累积值序列解释变量的权重变成非零,并且相对地,期望不需要预测的原始解释变量的所有权重变成零。具体的,在上面的等式中,lambda是正则参数,并且通过调整值(lambda〉= O)的大小,能够最小化与lambda*(beta的非零元素的和)结合的总的预测误差。通常已知,当lambda变得更大时,预测误差增大而beta的非零元素的和变小(非零元素的数量和大小都减小)。然后,调整模型的复杂度直到权重是非零的累积值序列解释变量变成两项(S23),并且通过使权重是非零的累积值序列解释变量变成两项,能够解释同时选择最优的L和W的这种情况(S24)。而且,此时为了方便,提出了对所有解释变量都存在最优时窗和时滞的假设,以及假设它们可以由两个或更多个非零累积序列解释变量的权重来表达。另一方面,还假设在实际模型的时窗和时滞内存在对预测没有意义的噪声变量,其权重都是零。在本文档来自技高网
...

【技术保护点】
一种用于使用计算机选择时滞和时窗的方法,时滞是直到解释变量时序在目标变量时序上施加影响为止的时间延迟,时窗是解释变量时序在目标变量时序上施加影响的时间段,所述方法包括如下步骤:基于解释变量时序变换到累积时序,所述累积时序由每个变量从对应于特定有限时间的每个时间点的累积值构成;以及作为引入正则项的优化问题求解累积时序,以从解得的权重获得时滞的值和时窗的值。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:比户将平
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1