基于聚类与LSTM网络的增强指数跟踪方法技术

技术编号:23854685 阅读:32 留言:0更新日期:2020-04-18 10:27
本发明专利技术公开的一种基于聚类与LSTM网络的增强指数跟踪方法,实现的步骤为:(1)数据预处理,其中包括获取数据、数据清洗、归一化、降维等步骤;(2)生成长短时记忆LSTM网络的训练样本集;(3)构建长短时记忆LSTM网络模型;(4)训练长短时记忆LSTM网络模型;(5)计算测试集中股票的权重。本发明专利技术克服了现有技术在增强指数跟踪中所采用的模型过于复杂,跟踪误差较大的缺点,使得本发明专利技术用于增强指数跟踪时所采用的模型简单,且可以动态调整权重值,具有跟踪误差较小的优点。

Enhanced index tracking method based on clustering and LSTM network

【技术实现步骤摘要】
基于聚类与LSTM网络的增强指数跟踪方法
本专利技术属于计算机
,更进一步涉及数据处理
中的一种基于聚类与长短期记忆网络LSTM(LongShortTermMemory)的增强指数跟踪方法。本专利技术可用于对增强指数跟踪。
技术介绍
指数增强是在被动跟踪指数的基础上,加入增强型的积极投资手段,对投资组合进行适当调整,力求在控制风险的同时,获取积极的市场收益。指数增强策略不会对跟踪指数的成份股进行完全复制,而是会对部分看好的股票增加权重,不看好的股票则减少权重,甚至完全去掉。综合来看,就是既做到超额收益,又控制主动风险,其投资目标就是在紧密跟踪基准指数的同时获得高于基准的收益。目前常用的增强指数跟踪方法有三种:第一种基于规则的增强指数跟踪方法,该方法利用专业知识及各种数学模型,对问题进行求解,要求精确的数据和大量计算,而且受制于矩阵的非正定等因素;第二种基于启发式算法的增强指数跟踪方法,该方法是在空间内寻找最优解,其在高维空间搜索中易陷入局部最优使得其性能受到一定影响;第三种基于学习的增强指数跟踪方法,该方法利用各种网络模型、强化学习模型等机器学习模型对问题进行求解。北京航空航天大学在其申请的专利文献“基于深度注意力网络和强化学习的投资组合选择方法”(申请号:201910390018X,申请日期:2019.05.10,申请公布号:CN110223180A)中公开了一种基于深度注意力网络和强化学习的增强指数跟踪方法。该方法将融合注意力机制的神经网络模型引入到金融领域中,以夏普比率作为奖励函数,使用强化学习框架训练模型在生成投资组合选择时平衡收益和风险。同时,还提出了通过全新的跨资产注意力机制来建模不同资产之间的相关性,并在模型可解释性方面进行了深入的探索。该方法存在的不足之处是,由于该方法以夏普比率作为奖励函数而夏普比率为负时其实不利于强化学习模型的学习,导致了强化学习模型不稳定,模型输出的权重,根据权重构造出的投资组合与基准指数之间的误差过大。南京大学在其申请的专利文献“一种基于社会网络聚类的股票指数跟踪预测方法及系统”(申请号:2017101004662,申请日期:2017.02.23,申请公布号:CN106897797A)中公开了一种基于社会网络聚类的股票增强指数跟踪方法,首先从第三方数据库中采集上月和当月的指数以及成份股数据,并对数据进行清洗,得到能用于研究的样本内数据和样本外数据;然后,用成份股间的相关系数计算度量距离,构建成份股间的社会网络,用自适应仿射传播聚类算法对网络进行聚类,提取每簇的聚类中心形成股票池,并用指数跟踪优化模型实现股票池股票对标的指数的最优跟踪,确定指数跟踪的最优权重;最后,将样本内训练得到的股票池和最优权重运用于样本外数据的指数跟踪,得到预测的指数。本专利技术还提出一种股票指数跟踪预测系统,构建的股票池相关性低、跟踪误差较小、复制结果稳定性好,实现了对指数的精确跟踪。该方法存在的不足之处是,在样本内数据获得的权重直接用于样本外数据,没有进行动态调整,导致对基准指数的跟踪误差过大。
技术实现思路
本专利技术的目的在于针对上述现有技术的不足,提出一种基于聚类与LSTM网络的增强指数跟踪方法,用于解决模型复杂,计算量大,跟踪误差过大的问题。实现本专利技术目的的思路是,先使用预处理手段对数据进行预处理,使用聚类方法进行数据的筛选,再使用滑动窗口构建长短时记忆LSTM网络的训练数据集,使用训练数据集对长短时记忆LSTM网络进行训练,最后将测试数据集输入训练好的长短时记忆LSTM网络中进行计算,得到各股票的权重。本专利技术的技术方案包括如下:(1)数据预处理:(1a)从第三方数据库中采集10年中每个交易日的指数点位数据及指数包含的原始成份股数据,时间跨度为(1,...,T,T+1,...,T+L),其中(1,...,T)之间为样本内数据,(T+1,...,T+L)为样本外数据,指数点位数据维度为(1,T+L),原始成份股的数据维度为(N,P,T+L),其中,N为指数包含的成份股总数,P为每支成份股的特征总数,P>3,T+L为10年中所有交易日的总数,为向下取整操作;(1b)遍历原始成份股数据中所有成份股,剔除其中不满足T+L的时间长度的成份股,将剩余成份股组成(M,P,T+L)维度的成份股数据,其中M为成份股数据中包含的成份股总数;(1c)对成份股数据中所有的特征进行归一化;(1d)使用主成分分析PCA法,对归一化后的成份股数据中的所有特征进行降维,得到(M,3,T+L)维度的降维后的数据;(2)生成长短时记忆LSTM网络的训练样本集:(2a)将降维后的样本内数据组成初始训练样本集,降维后的样本外数据组成测试样本集;(2b)从降维后的初始训练样本集中取出最后120天的数据,对每天的数据进行K-means聚类,得到(Q,3,T+L)维度的成份股数据,Q为120天中出现次数最多的股票的数量;(2c)对(Q,3,T)维度的训练数据集中的数据以长度R在时间维上进行滑动,每次得到(Q,3,R)维度的数据,共有T-R+1组数据,获得网络训练需要的(Q,3,R,T-R+1)维度的训练样本集Dtrain,其中2<R<T;(3)构建长短时记忆LSTM网络模型:(3a)搭建一个三层的长短时记忆LSTM网络,其结构依次为:输入层、隐藏层、输出层;(3b)设置长短时记忆LSTM网络的批处理大小为1,长短时记忆LSTM网络的输入层的节点数为Y,Y=Q*3*S+S,其中,*表示相乘操作,S为长短时记忆LSTM网络的延时间步前向传播的步数,1<S<R,长短时记忆LSTM网络的输出维度等于Q;(3c)设置长短时记忆LSTM网络的激活函数为双曲正切激活函数;(3d)设置长短时记忆LSTM网络模型中的损失函数如下:其中,f为损失函数,∑为求和操作,ln为以自然常数e为底的对数操作,a为步骤(2c)中对(Q,3,T)维度的训练数据集中的数据以长度R在时间维上滑动一次得到的所有天数中的序号,b为步骤(2b)中得到的成份股数据中所有股票的序号,为第a天步骤(2b)中得到的成份股数据中第b支股票的价格,为第a天步骤(2b)中得到的成份股数据中第b支股票的权重,la为第a天的指数点位,为第a-1天步骤(2b)中得到的成份股数据中第b支股票的价格,为第a-1天步骤(2b)中得到的成份股数据中第b支股票的权重,la-1为第a-1天的指数点位,为第a+1天步骤(2b)中得到的成份股数据中第b支股票的价格,la+1为第a+1天的指数点位;(3e)将长短时记忆LSTM网络的优化算法设置为基于自适应矩阵估计优化算法Adam;(4)训练长短时记忆LSTM网络模型:将训练样本集Dtrain输入到长短时记忆LSTM网络中,使用步骤(3b)的参数和步骤(3c)的激活函数进行长短时记忆LSTM网络的前向传播,使用步骤(3d)中的损失函数和步骤(3e)中的优化算法对长短时记忆LSTM网络的误差进行反向传播,直到损失函数本文档来自技高网
...

【技术保护点】
1.一种基于聚类与LSTM网络的增强指数跟踪方法,其特征在于,生成训练样本集,构建长短时记忆LSTM网络模型,该方法步骤包括如下:/n(1)数据预处理:/n(1a)从第三方数据库中采集10年中每个交易日的指数点位数据及指数包含的原始成份股数据,时间跨度为(1,...,T,T+1,...,T+L),其中(1,...,T)之间为样本内数据,(T+1,...,T+L)为样本外数据,指数点位数据维度为(1,T+L),原始成份股的数据维度为(N,P,T+L),其中,N为指数包含的成份股总数,P为每支成份股的特征总数,P>3,

【技术特征摘要】
1.一种基于聚类与LSTM网络的增强指数跟踪方法,其特征在于,生成训练样本集,构建长短时记忆LSTM网络模型,该方法步骤包括如下:
(1)数据预处理:
(1a)从第三方数据库中采集10年中每个交易日的指数点位数据及指数包含的原始成份股数据,时间跨度为(1,...,T,T+1,...,T+L),其中(1,...,T)之间为样本内数据,(T+1,...,T+L)为样本外数据,指数点位数据维度为(1,T+L),原始成份股的数据维度为(N,P,T+L),其中,N为指数包含的成份股总数,P为每支成份股的特征总数,P>3,为向下取整操作,T+L为10年中所有交易日的总数;
(1b)遍历原始成份股数据中所有成份股,剔除其中不满足T+L的时间长度的成份股,将剩余成份股组成(M,P,T+L)维度的成份股数据,其中M为成份股数据中包含的成份股总数;
(1c)对成份股数据中所有的特征进行归一化;
(1d)使用主成分分析PCA法,对归一化后的成份股数据中的所有特征进行降维,得到(M,3,T+L)维度的降维后的数据;
(2)生成长短时记忆LSTM网络的训练样本集:
(2a)将降维后的样本内数据组成初始训练样本集,降维后的样本外数据组成测试样本集;
(2b)从降维后的初始训练样本集中取出最后120天的数据,对每天的数据进行K-means聚类,得到(Q,3,T+L)维度的成份股数据,Q为120天中出现次数最多的股票的数量;
(2c)对(Q,3,T)维度的训练数据集中的数据以长度R在时间维上进行滑动,每次得到(Q,3,R)维度的数据,共有T-R+1组数据,获得网络训练需要的(Q,3,R,T-R+1)维度的训练样本集Dtrain,其中2<R<T;
(3)构建长短时记忆LSTM网络模型:
(3a)搭建一个三层的长短时记忆LSTM网络,其结构依次为:输入层、隐藏层、输出层;
(3b)设置长短时记忆LSTM网络的批处理大小为1,长短时记忆LSTM网络的输入层的节点数为Y,Y=Q*3*S+S,其中,*表示相乘操作,S为长短时记忆LSTM网络的延时间步前向传播的步数,1<S<R,长短时记忆LSTM网络的输出维度等于Q;
(3c)设置长短时记忆LSTM网络的激活函数为双曲正切激活函数;
(3d)设置长短时记忆LSTM网络模型中的损失函数如下:



其中,f为损失函数,∑为求和操作,ln为以自然常数e为底的对数操作,a为步骤(2c)中对(Q,3...

【专利技术属性】
技术研发人员:鲍亮张晶宋金秋任笑
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1