当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于稀疏非负线性回归的金融多因子预测方法技术

技术编号:25551728 阅读:90 留言:0更新日期:2020-09-08 18:51
本发明专利技术公开了一种基于稀疏非负线性回归的金融多因子预测方法。本发明专利技术包括以下步骤:确定预测股票池和训练股票池,并选取对股票未来收益率的预测可能有效的多种因子;获取股票的历史交易数据以及因子计算所需的其他数据,计算各因子及标签值,并进行正相关处理和归一化处理;构建稀疏非负线性回归的金融多因子预测模型;采用基于稀疏非负线性回归的金融多因子预测模型对股票进行评分,根据评分高低可以预测各股票未来收益率的相对大小。本发明专利技术符合投资逻辑,模型具有鲁棒性,可以对大量因子与股票未来收益率之间的关系进行回归,而不产生过于复杂的结果;可以较为理想的对股票未来收益率进行评分,据此选股的长期表现优于市场。

【技术实现步骤摘要】
一种基于稀疏非负线性回归的金融多因子预测方法
本专利技术属于统计信号处理技术、机器学习以及金融领域,特别是涉及一种基于稀疏非负线性回归的金融多因子预测方法。
技术介绍
因子投资理论在当今的量化金融领域有重要的地位。一般来说,因子描述了一揽子股票所共同承担的某种(可以是未知的)系统性风险。相应的,因子收益率是这些股票的共性收益(即系统性风险溢价)。综合来看,可以将因子分为以下四个主要类别。首先是宏观经济因子,包括消费增长、通胀等。其次是基本面因子,包括估值、经营效率、盈利能力、财务风险等。再次是技术类因子,往往也称作量价类因子,主要围绕股票价格和交易量等相关数据,包括动量、反转、波动率等。最后是另类因子,比如文本情绪因子等。多因子模型认为资产价格取决于一系列因素。通过有效配置各个因子,投资者能够对冲投资风险,提升整体收益。经典的多因子模型,如FF3三因子模型、FF5五因子模型是人为设计的,能够考虑的因子数量少,因子之间的关系依据经验简单设计,模型受主观意识影响严重,无法全面深刻地利用所有数据,效率低下。当然,目前也有很多以机器学习算法为基础的选股策略,但由于机器学习方法对数据的挖掘能力往往非常强大,同时股市又是一个十分复杂且充满噪声的系统,使用某些样本对一般模型进行训练很可能得到与投资逻辑相违背的结论,样本外表现迅速下降。
技术实现思路
本专利技术的目的在于针对现有方法的不足,结合因子投资的逻辑,提出一种基于稀疏非负线性回归的金融多因子预测方法。非负约束保证了类似“公司营业收入越低,其股票价格未来上涨越多”这样有违逻辑的结论不会出现。稀疏约束则在一定程度上保证模型不会过于复杂,这在因子数量巨大的情况下尤为重要。本专利技术解决其技术问题所采用的技术方案如下:一种基于稀疏非负线性回归的金融多因子预测方法,包括如下步骤:(1)确定预测股票池和训练股票池,并选取对股票未来收益率的预测可能有效的多种因子;(2)获取股票的历史交易数据以及因子计算所需的其他数据(如上市公司财务报表数据),计算各因子及标签值(股票未来收益率),并进行正相关处理和归一化处理,确保股票未来收益率表现好的股票,其因子数值也相对更大;(3)构建稀疏非负线性回归的金融多因子预测模型;(4)采用基于稀疏非负线性回归的金融多因子预测模型对股票进行评分,根据评分高低可以预测各股票未来收益率的相对大小。上述技术方案中,进一步地,所述步骤(1)中,预测股票池和训练股票池根据投资偏好确定。训练股票池用于步骤(3)所述稀疏非负线性回归模型的训练,预测股票池则对应了步骤(4)所述未来收益率评分的预测范围,不做区分时统称股票池。训练股票池和预测股票池可以一致也可以不一致。当训练股票池和预测股票池不一致时,训练股票池中的股票应该能够充分代表预测股票池内的所有股票,具有预测股票池的全部特征。进一步地,所述步骤(1)中,因子的选取应该有相应的理论依据或有实证表明该因子对预测股价有一定作用,可以同时结合市场情况、股票池特点进行选取。为保证本专利技术的鲁棒性,所选因子的数量不应过少,并且因子的类型应尽量丰富。进一步地,所述步骤(2)中,股票的历史交易数据以及因子计算所需的其他数据可通过各大财经网站或相应数据商提供的数据接口获得。进一步地,所述步骤(2)中,各因子的计算依据对应因子的定义;标签值,即股票未来收益率的计算方法定义如下:其中,yo为某股票第o天的未来收益率,po和po+T分别是该股票在第o天和第o+T天的收盘价,T则是选股周期。进一步地,所述步骤(2)中的正相关处理和归一化处理的具体实施包括:首先进行正相关处理,将与股票未来收益率成负相关的因子的数值进行适当的映射操作,以确保股票未来收益率表现好的股票,其因子数值也相对更大。然后进行归一化处理,分别对每一个因子及标签值进行归一化处理,使各因子及标签值在股票池所有股票上的数值都在[0,1]的范围内,这个过程中包含了对极端值的处理,即数值中最大的一部分数值(占比rmax%)视为极端大的值,它们之间不做大小区分,统一映射到1;同理,最小的一部分数值(占比rmin%)视为极端小的值,统一映射到0。两个比例rmax%和rmin%根据数值分布进行调整。进一步地,所述步骤(3)中,稀疏非负线性回归的金融多因子预测模型采用以下方式构建:(3.1)本专利技术以线性回归模型为基础构建多因子与股票未来收益率的关系。线性回归模型的输入为n个因子的数值,x=[x1,x2,…,xn]T;输出为股票未来收益率的预测H(x)=α1x1+α2x2+…+αnxn+b=αTx+β。根据训练集D={(x1,y1),(x2,y2),…(xd,yd)},其中xs=[xs1,xs2,…,xsn]T为因子数值输入,(为实数集)为股票实际未来收益率,对模型进行训练并确定参数α和β,其中,α=[α1,α2,…,αn]T,从而使得输出H(xs)尽可能准确地预测实值标记(即实际股票实际未来收益率ys)。(3.2)本专利技术中稀疏非负线性回归模型的目标函数以最小化均方误差为基础,加入稀疏约束和非负约束。该稀疏非负线性回归问题可以转化为求解以下约束凸优化问题:其中,是模型的均方误差;γ||α||1是稀疏约束,是α的l1范数,γ为稀疏约束权衡系数,γ>0用于对稀疏约束和模型误差进行权衡。需要注意的是,为使问题简化,式(2)中xs=[xs1,xs2,…,xsn,1]T,α=[α1,α2,…,αn,β]T。(3.3)设根据拉格朗日方程法,引入非负拉格朗日乘子λ,可以将式(2)中非负约束归入方程,得到:最优解αo和λo满足Karush-Kuhn-Tucker(KKT)条件,即:式(4)中,表示关于α的梯度算子。综合式(4)和式(5),可得:其中的负号代表了梯度下降的方向。基于定点迭代算法,可以得到如下逐分量参数迭代更新式:其中,ηi(t)是学习率,fi(α(t))是任意关于α(t)的正函数。假设αi(t)≥0,为了保证αi(t+1)≥0,必须有:当时,式(8)成立;当统一的学习率η(t)应满足:i=1,…,n。其中,Rx是xs的自相关矩阵,而rxy则是xs和ys之间的相关向量,sgn(·)定义方程:设e(t)=ys-α(t)Txs,参数迭代更新式(7)的向量形式可以写作:其中Dx(t)是以xs为主对角线元素的对角矩阵。(3.4)式(11)更新项η(t)e(t)Dx(t)α(t)中α(t)乘子可能会带来的权重收敛率不平衡问题,尤其是权重非常小时,权重的更新会非常缓慢。此外,更新项无差别地将所有权值向0吸引,而那些比较大的权重意味着对应的因子对股票未来收益率有更显著的预测作用,并不应该因稀疏约束而向0靠近。为解决上述问题,需要对参数迭代更新式重赋权。调整参数γ调整为并令式(11)可以写作:本文档来自技高网...

【技术保护点】
1.一种基于稀疏非负线性回归的金融多因子预测方法,其特征在于,包括如下步骤:/n(1)确定预测股票池和训练股票池,并选取对股票未来收益率的预测可能有效的多种因子;/n(2)获取股票的历史交易数据以及因子计算所需的其他数据,计算各因子及股票未来收益率,并对其进行正相关处理和和归一化处理;/n(3)构建稀疏非负线性回归的金融多因子预测模型;/n(4)采用基于稀疏非负线性回归的金融多因子预测模型对股票进行评分,根据评分高低可以预测各股票未来收益率的相对大小。/n

【技术特征摘要】
1.一种基于稀疏非负线性回归的金融多因子预测方法,其特征在于,包括如下步骤:
(1)确定预测股票池和训练股票池,并选取对股票未来收益率的预测可能有效的多种因子;
(2)获取股票的历史交易数据以及因子计算所需的其他数据,计算各因子及股票未来收益率,并对其进行正相关处理和和归一化处理;
(3)构建稀疏非负线性回归的金融多因子预测模型;
(4)采用基于稀疏非负线性回归的金融多因子预测模型对股票进行评分,根据评分高低可以预测各股票未来收益率的相对大小。


2.根据权利要求1所述的一种基于稀疏非负线性回归的金融多因子预测方法,其特征在于,所述的步骤(1)中,预测股票池和训练股票池根据投资偏好确定,所述的训练股票池用于步骤(3)所述稀疏非负线性回归的金融多因子预测模型的训练,所述的预测股票池则对应步骤(4)所述股票未来收益率的预测范围;所述的训练股票池中的股票应该能够充分代表预测股票池内的所有股票,具有预测股票池的全部特征。


3.根据权利要求1所述的一种基于稀疏非负线性回归的金融多因子预测方法,其特征在于,所述的步骤(1)中,在进行因子的选取时,需要有相应的理论依据或有实证表明该因子对预测股价有一定作用,可以同时结合市场情况、股票池特点进行选取。


4.根据权利要求1所述的一种基于稀疏非负线性回归的金融多因子预测方法,其特征在于,所述步骤(2)中,所述的股票的历史交易数据以及因子计算所需的其他数据可通过各大财经网站或相应数据商提供的数据接口获得。


5.根据权利要求1所述的一种基于稀疏非负线性回归的金融多因子预测方法,其特征在于,所述步骤(2)中,各因子的计算依据对应因子的定义;股票未来收益率的计算方法如下:



其中,yo为某股票第o天的未来收益率,po和po+T分别是该股票在第o天和第o+T天的收盘价,T则是选股周期。


6.根据权利要求1所述的一种基于稀疏非负线性回归的金融多因子预测方法,其特征在于,所述步骤(2)中对各因子及股票未来收益率进行正相关处理和归一化处理的方法为:首先进行正相关处理,将与股票未来收益率成负相关的因子的数值进行映射操作,以确保股票未来收益率表现好的股票,其因子数值也相对更大;然后进行归一化处理,分别对每一个因子及股票未来收益率进行归一化处理,使各因子及股票未来收益率在股票池所有股票上的数值都在[0,1]的范围内。


7.根据权利要求1所述的一种基于稀疏非负线性回归的金融多因子预测方法,其特征在于,所述步骤(3)中,稀疏非负线性回归的金融多因子预测模型的构建方法如下:
(3.1)以线性回归模型为基础构建多因子与股票未来收益率的关系,线性回归模型的输入为n个因子的数值x,x=[x1,x2,…,xn]T;输出为股票未来收益率的预测H(x),H(x)=α1x1+α2x2+…+αnxn+b=αTx+β,其中,α=[α1,α2,…,αn]T;参数α和β经训练确定,训练集为D={(x1,y1),(x2,y2),…(xd,yd)},因子数值输入xs=[xs1,xs2,…,x...

【专利技术属性】
技术研发人员:陈积嘉李春光
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1