基于聚类与LSTM网络的增强指数跟踪方法技术

技术编号：23854685 阅读：32 留言：0更新日期：2020-04-18 10:27

本发明专利技术公开的一种基于聚类与LSTM网络的增强指数跟踪方法，实现的步骤为：(1)数据预处理，其中包括获取数据、数据清洗、归一化、降维等步骤；(2)生成长短时记忆LSTM网络的训练样本集；(3)构建长短时记忆LSTM网络模型；(4)训练长短时记忆LSTM网络模型；(5)计算测试集中股票的权重。本发明专利技术克服了现有技术在增强指数跟踪中所采用的模型过于复杂，跟踪误差较大的缺点，使得本发明专利技术用于增强指数跟踪时所采用的模型简单，且可以动态调整权重值，具有跟踪误差较小的优点。

Enhanced index tracking method based on clustering and LSTM network

全部详细技术资料下载

【技术实现步骤摘要】
基于聚类与LSTM网络的增强指数跟踪方法
本专利技术属于计算机
，更进一步涉及数据处理
中的一种基于聚类与长短期记忆网络LSTM(LongShortTermMemory)的增强指数跟踪方法。本专利技术可用于对增强指数跟踪。
技术介绍
指数增强是在被动跟踪指数的基础上，加入增强型的积极投资手段，对投资组合进行适当调整，力求在控制风险的同时，获取积极的市场收益。指数增强策略不会对跟踪指数的成份股进行完全复制，而是会对部分看好的股票增加权重，不看好的股票则减少权重，甚至完全去掉。综合来看，就是既做到超额收益，又控制主动风险，其投资目标就是在紧密跟踪基准指数的同时获得高于基准的收益。目前常用的增强指数跟踪方法有三种：第一种基于规则的增强指数跟踪方法，该方法利用专业知识及各种数学模型，对问题进行求解，要求精确的数据和大量计算，而且受制于矩阵的非正定等因素；第二种基于启发式算法的增强指数跟踪方法，该方法是在空间内寻找最优解，其在高维空间搜索中易陷入局部最优使得其性能受到一定影响；第三种基于学习的增强指数跟踪方法，该方法利用各种网络模型、强化学习模型等机器学习模型对问题进行求解。北京航空航天大学在其申请的专利文献“基于深度注意力网络和强化学习的投资组合选择方法”(申请号：201910390018X，申请日期：2019.05.10，申请公布号：CN110223180A)中公开了一种基于深度注意力网络和强化学习的增强指数跟踪方法。该方法将融合注意力机制的神经网络模型引入到金融领域中，以夏普比率作为奖励函数，使用强化...

【技术保护点】
1.一种基于聚类与LSTM网络的增强指数跟踪方法，其特征在于，生成训练样本集，构建长短时记忆LSTM网络模型，该方法步骤包括如下：/n(1)数据预处理：/n(1a)从第三方数据库中采集10年中每个交易日的指数点位数据及指数包含的原始成份股数据，时间跨度为(1,...,T,T+1,...，T+L)，其中(1，...，T)之间为样本内数据，(T+1,...,T+L)为样本外数据，指数点位数据维度为(1,T+L)，原始成份股的数据维度为(N,P,T+L)，其中，N为指数包含的成份股总数，P为每支成份股的特征总数,P＞3，

【技术特征摘要】
1.一种基于聚类与LSTM网络的增强指数跟踪方法，其特征在于，生成训练样本集，构建长短时记忆LSTM网络模型，该方法步骤包括如下：
(1)数据预处理：
(1a)从第三方数据库中采集10年中每个交易日的指数点位数据及指数包含的原始成份股数据，时间跨度为(1,...,T,T+1,...，T+L)，其中(1，...，T)之间为样本内数据，(T+1,...,T+L)为样本外数据，指数点位数据维度为(1,T+L)，原始成份股的数据维度为(N,P,T+L)，其中，N为指数包含的成份股总数，P为每支成份股的特征总数,P＞3，为向下取整操作，T+L为10年中所有交易日的总数；
(1b)遍历原始成份股数据中所有成份股，剔除其中不满足T+L的时间长度的成份股，将剩余成份股组成(M,P,T+L)维度的成份股数据，其中M为成份股数据中包含的成份股总数；
(1c)对成份股数据中所有的特征进行归一化；
(1d)使用主成分分析PCA法，对归一化后的成份股数据中的所有特征进行降维，得到(M,3,T+L)维度的降维后的数据；
(2)生成长短时记忆LSTM网络的训练样本集：
(2a)将降维后的样本内数据组成初始训练样本集，降维后的样本外数据组成测试样本集；
(2b)从降维后的初始训练样本集中取出最后120天的数据，对每天的数据进行K-means聚类，得到(Q,3,T+L)维度的成份股数据，Q为120天中出现次数最多的股票的数量；
(2c)对(Q,3,T)维度的训练数据集中的数据以长度R在时间维上进行滑动，每次得到(Q,3,R)维度的数据，共有T-R+1组数据，获得网络训练需要的(Q,3,R,T-R+1)维度的训练样本集Dtrain，其中2＜R＜T；
(3)构建长短时记忆LSTM网络模型：
(3a)搭建一个三层的长短时记忆LSTM网络，其结构依次为：输入层、隐藏层、输出层；
(3b)设置长短时记忆LSTM网络的批处理大小为1，长短时记忆LSTM网络的输入层的节点数为Y，Y＝Q*3*S+S，其中，*表示相乘操作，S为长短时记忆LSTM网络的延时间步前向传播的步数，1＜S＜R，长短时记忆LSTM网络的输出维度等于Q；
(3c)设置长短时记忆LSTM网络的激活函数为双曲正切激活函数；
(3d)设置长短时记忆LSTM网络模型中的损失函数如下：

其中,f为损失函数，∑为求和操作，ln为以自然常数e为底的对数操作，a为步骤(2c)中对(Q,3...

【专利技术属性】
技术研发人员：鲍亮，张晶，宋金秋，任笑，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人