当前位置: 首页 > 专利查询>北京大学专利>正文

一种基于关联度对齐的时序数据概念漂移适配方法组成比例

技术编号:34768389 阅读:22 留言:0更新日期:2022-08-31 19:24
本发明专利技术提供一种基于关联度对齐的时序数据概念漂移适配方法,对分布不同的时序数据进行分析并快速建立量化模型,从数据分布对齐角度构建基于关联度匹配的时序预测,从损失函数可微分角度设计蒙特卡洛求解参数,可对不同工况下的不确定时序信号精准地预测。本发明专利技术复杂度低,计算周期短以及可移植性高。且利用全面分析时序信号所含信息,为不确定环境下存在概念漂移下系统的安全和维护提供科学分析依据,提高网络对未来复杂时刻的预测能力。通过动态参数寻优网络,弥补专家经验的缺失,鲁棒性强,短时间内实现未来数据的预测,降低概念漂移造成的社会危害。成的社会危害。成的社会危害。

【技术实现步骤摘要】
一种基于关联度对齐的时序数据概念漂移适配方法


[0001]本专利技术属于时序数据处理
,涉及概念漂移学习技术,具体涉及一种基于关联度对齐的时序数据概念漂移适配方法。

技术介绍

[0002]随着信息和传感技术的发展,现实世界中充满了各种各样的时序数据。因此,基于数据驱动的人工智能时序数据预测方法蓬勃发展。这些技术的成功取决于一个基本假设,训练数据与测试数据服从相同的分布。不幸的是,数据的统计特性在充满不确定和非平稳环境中随时间动态变化。例如COVID

19之后的消费模式数据、复杂工作条件下的机器退化数据、垃圾邮件和金融欺诈检测数据、气候预测和客户对在线购物的偏好数据等。训练样本与测试样本分布存在差异情况下模型的泛化能力无法保证。这种情况导致了时序数据的概念漂移问题,即目标变量的统计特性随着时间以不可预见的方式变化,这是大数据时代的普遍问题,其本质是数据数据分布与统计特征的不确定性。
[0003]当前一种解决策略是通过探索变量之间的相关性和未来数据分布差距的不确定性来学习自适应数据预测与决策系统。概念漂移下的这种策略研究可以分为三个部分:漂移检测、漂移理解和漂移适应。具体来说,漂移检测可以通过识别变化点或变化时间区间的技术和机制来对概念漂移进行表征和量化,漂移理解是描述漂移的严重程度,漂移适应是根据漂移对现有的学习模型进行更新。尽管概念漂移的解决上取得了明显的成功,但现有的大多数研究很少关注存在虚假相关性的概念漂移场景,这实际上在时序数据中更为常见。例如背景噪音的干扰,风场数据中障碍物对采集数据的影响,多数情况下数据中存在潜在的背景变量伪相关性,当其对模型影响度越高,模型性能的稳定性越低。因此,对于时序数据通过建模不确定性来缓解虚假相关性所造成的偏差,以应对概念漂移,尚没有形成快速稳定的预测方法,因此亟待将智能化技术与时序数据分析有效结合一起,针对概念漂移问题,形成完备的序列预测方法。

技术实现思路

[0004]针对上述现有技术的不足,本专利技术提供一种基于关联度对齐的时序数据概念漂移预测方法,对分布不同的时序数据进行分析并快速建立量化模型,从数据分布对齐角度构建基于关联度匹配的时序预测,从损失函数可微分角度设计蒙特卡洛求解参数。本专利技术可对不同工况下的不确定时序信号精准地预测,算法复杂度低,计算周期短以及可移植性高。
[0005]本专利技术的技术方案是:
[0006]一种基于关联度对齐的时序数据概念漂移适配方法,包括如下步骤:
[0007]步骤1:对原始时序数据按照维度进行预处理为T
x
为维度,t为时刻,即第m维,x
m
={x
m,1
,

,x
m,t
}。与X对应的待预测的目标序列T
y
为维度,即第n维,y
n
={y
n,1
,...,y
n,u
}。
[0008]步骤1.1:将原始时序数据进行归一化处理得到进行归一化处理得到进行归一化处理得到是按维度取最小值,是按维度取最大值;
[0009]步骤1.2:将进行标准化处理得到X,其中为按维度的平均值,为按维度计算的标准差。
[0010]步骤2:对于X与Y构成的历史数据按固定滑窗大小m服从概率参数Θ采样,得到包含N个样本的训练样本集到包含N个样本的训练样本集其中为训练样本集的网络输入样本,为训练标签。相应的,把接下来的n个采样值,即t到t+n,作为测试样本集接下来的n个采样值,即t到t+n,作为测试样本集接下来的n个采样值,即t到t+n,作为测试样本集为测试样本集的网络输入样本,为测试标签。
[0011]步骤3:构造网络损失函数,包含两个部分,一部分是训练样本集上的有监督损失l1,一部分是衡量训练样本集和测试样本集的分布差异l2。
[0012]步骤3.1:构造网络损失函数中训练样本集上的有监督损失为,即计算测试集上网络的预测值与标签y
t
的偏差。
[0013]步骤3.2:构造网络损失函数中训练样本集与测试样本集的分布差异,用wasserstein距离来度量,表示为式子计算了训练集样本与测试集样本之间的分布差异,其中代表概率分布。然后l2损失被分解为考虑训练集和测试集的耦合关系和不考虑训练集和测试集的耦合关系两部分组成。具体求解如下:
[0014]步骤3.2.1:对于的估计:
[0015](1)定义训练样本集与测试样本集的参数Θ

coup
下条件分布等于参数Θ
coup
下的联合分布,下角标“a”,“e”代表“train”,“test”。
[0016][0017](2)假设测试样本集服从的分布为,
[0018][0019]依赖于上一时刻的训练数据与上一时刻的测试数据即为耦合项,∈
n
是随机扰动项,其中为均值为0,方差为的正态分布。因此条件分布可以更新为:
[0020][0021](3)对于的求解,建立隐式方程求解,即对其条件分布建立对数最大似然函数进行参数估计,通过最大化下面的式子,找到对应于的最优参数
[0022][0023]步骤3.2.2:对于的估计,通过一个特征提取器提前训练数据集的映射,建模训练样本集映射后的条件分布为然后建模测试样本集映射后的条件分布为其中为均值,为相应的方差,和都是扰动项,服从标准正态分布。可以得到的一个闭式解:
[0024][0025]步骤4:将步骤1到步骤3记为对于任务时刻t的一次任务Task
t
,在时刻t∈[1,...,T]上循环记录T个任务,总的损失为各个任务损失的累加,即网络总最优参数Θ
*
可以通过求得。
[0026]步骤5:由于原损失函数积分很难求解,采用蒙特卡洛积分获得损失函数近似估计,具体的,重复K次随机采样,则最优参数表达为:
[0027][0028]步骤6:采用梯度下降方法迭代更新参数,
τ
为迭代次数,其中表示第t次任务的损失函数,为求导数操作,当迭代参数Θ
τ

Θ
τ+1
小于一个阈值后,停止迭代,此时参数为最优参数,网络输出为最优预测结果。
[0029]与现有技术相比,本专利技术的有益效果是:
[0030]1全面分析时序信号所含信息,为不确定环境下存在概念漂移下系统的安全和维护提供科学分析依据,提高网络对未来复杂时刻的预测能力。
[0031]2通过动态参数寻优网络,弥补专家经验的缺失,鲁棒性强,短时间内实现未来数据的预测,降低概念漂移造成的社会危害。
[0032]3采用蒙特卡洛可微方式,通过损失函数步进反馈确定网络结构,实现对不同样本
集的自适应性,使网络在时序领域具有普适性和可移植性。
附图说明
[0033]图1为本专利技术实施例基于关联度对齐的时序数据概念漂移适配方法的流程框图。
[003本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于关联度对齐的时序数据概念漂移适配方法,其特征在于,步骤包括:步骤1:对原始时序数据按照维度进行预处理为T
x
为维度,t为时刻,即第m维,x
m
={x
m,1
,

,x
m,t
}。与X对应的待预测的目标序列T
y
为维度,即第n维,y
n
={y
n,1
,...,y
n,u
};步骤2:对于X与Y构成的历史数据按固定滑窗大小m服从概率参数Θ采样,得到包含N个样本的训练样本集其中为训练样本集的网络输入样本,为训练标签。相应的,把接下来的n个采样值,即t到t+n,作为测试样本集接下来的n个采样值,即t到t+n,作为测试样本集为测试样本集的网络输入样本,为测试标签;步骤3:构造网络损失函数,包含两个部分,一部分是训练样本集上的有监督损失l1,一部分是衡量训练样本集和测试样本集的分布差异l2;步骤3.1:构造网络损失函数中训练样本集上的有监督损失为,即计算测试集上网络的预测值与标签y
t
的偏差;步骤3.2:构造网络损失函数中训练样本集与测试样本集的分布差异,用wasserstein距离来度量,表示为式子计算了训练集样本与测试集样本之间的分布差异,其中代表概率分布。然后l2损失被分解为考虑训练集和测试集的耦合关系和不考虑训练集和测试集的耦合关系两部分组成;步骤4:将步骤1到步骤3记为对于任务时刻t的一次任务Task
t
,在时刻t∈[1,...,T]上循环记录T个任务,总的损失为各个任务损失的累加,即网络总最优参数Θ
*
可以通过求得;步骤5:由于原损失函数积分很难求解,采用蒙特卡洛积分获得损失函数近似估计,具体的,重复K次随机采样,则最优参数表达为:步骤...

【专利技术属性】
技术研发人员:于歌张玺
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1