数据处理方法、装置和计算机可读存储介质制造方法及图纸

技术编号:23893376 阅读:24 留言:0更新日期:2020-04-22 07:24
本公开涉及一种数据处理方法、装置和计算机可读存储介质,涉及数据处理技术领域。该方法包括:选取影响企业的收益的多项相关数据;获取各相关数据对于收益的相关系数;判断是否存在大于第一阈值的相关系数;在存在大于第一阈值的相关系数的情况下,根据集成学习模型来估计企业的未来收益;在不存在大于第一阈值的相关系数的情况下,根据时间序列模型来估计未来收益。本公开的技术方案能够提高估计准确性。

Data processing method, device and computer readable storage medium

【技术实现步骤摘要】
数据处理方法、装置和计算机可读存储介质
本公开涉及数据处理
,特别涉及一种数据处理方法、数据处理装置和计算机可读存储介质。
技术介绍
在价值投资成为股票市场主流的背景下,准确预测公司营业收入成为投资制胜的重要法宝。营业收入是企业在生产经营活动中,因销售产品或提供劳务而取得的各项收入。营业收入关系到企业的生存和发展,对企业有重要的意义。买入盈利超预期的公司,避开盈利能力差的公司,就能获得超额收益。在相关技术中,根据财务报表数据,利用计量经济学中的时间序列模型对进行营业收入预测。
技术实现思路
本公开的专利技术人发现上述相关技术中存在如下问题:预测收益的相关数据和预测模型无法适应不同企业的实际情况,导致估计准确性低。鉴于此,本公开提出了一种数据处理技术方案,能够提高估计准确性。根据本公开的一些实施例,提供了一种数据处理方法,包括:选取影响企业的收益的多项相关数据;获取各相关数据对于所述收益的相关系数;判断是否存在大于第一阈值的相关系数;在存在大于第一阈值的相关系数的情况下,根据集成学习模型来估计所述企业的未来收益;在不存在大于第一阈值的相关系数的情况下,根据时间序列模型来估计所述未来收益。在一些实施例中,所述数据处理方法还包括:在不存在大于第一阈值的相关系数的情况下,判断所述企业的历史收益是否为平稳时间序列;在历史收益为平稳时间序列的情况下,根据时间序列模型来估计所述未来收益;在历史收益不为平稳时间序列的情况下,采用所述历史收益的均值来估计所述未来收益。在一些实施例中,进行平稳性检验和白噪声检验中的至少一项,以判断所述历史收益是否为平稳时间序列。在一些实施例中,根据各相关数据之间的相关程度和所述各相关数据对所述收益的重要程度中的至少一项选取输入数据;利用所述输入数据训练所述集成学习模型和估计所述企业的未来收益。在一些实施例中,获取所述各相关数据之间的相关系数;在两个相关数据之间的相关系数大于第二阈值的情况下,选取所述两个相关数据中的一个作为所述输入数据;在两个相关数据之间的相关系数不大于所述第二阈值的情况下,选取所述两个相关数据作为所述输入数据。在一些实施例中,对所述集成学习模型进行预训练,以获取所述各相关数据对于所述未来收益的权值;选取所述权值大于第三阈值的相关数据作为所述输入数据。在一些实施例中,所述数据处理方法还包括:按照收益规模将各企业划分到相应的企业组;根据划分情况,训练各企业组相应的所述时间序列模型或所述集成学习模型;根据企业所在的企业组,选取相应的所述时间序列模型或所述集成学习模型估计该企业的所述未来收益。在一些实施例中,所述相关数据包括当前时间数据、所述企业的历史财务数据、所述企业的行业态势数据、所述企业的股票行情数据、所述企业的经营数据、宏观数据中的多项。根据本公开的另一些实施例,提供一种数据处理装置,包括:选取单元,用于选取影响企业的收益的多项相关数据;获取单元,用于获取各相关数据对于所述收益的相关系数;判断单元,用于判断是否存在大于第一阈值的相关系数;估计单元,用于在存在大于第一阈值的相关系数的情况下,根据集成学习模型来估计所述企业的未来收益,在不存在大于第一阈值的相关系数的情况下,根据时间序列模型来估计所述未来收益。在一些实施例中,所述判断单元在不存在大于第一阈值的相关系数的情况下,判断所述企业的历史收益是否为平稳时间序列;所述估计单元在历史收益为平稳时间序列的情况下,根据时间序列模型来估计所述未来收益,在历史收益不为平稳时间序列的情况下,采用所述历史收益的均值来估计所述未来收益。在一些实施例中,所述判断单元进行平稳性检验和白噪声检验中的至少一项,以判断所述历史收益是否为平稳时间序列。在一些实施例中,所述选取单元根据各相关数据之间的相关程度和所述各相关数据对所述收益的重要程度中的至少一项选取输入数据,所述输入数据用于估计所述企业的未来收益;所述数据处理装置还包括训练单元,用于利用所述输入数据训练所述集成学习模型。在一些实施例中,所述获取单元获取所述各相关数据之间的相关系数;所述选取单元在两个相关数据之间的相关系数大于第二阈值的情况下,选取所述两个相关数据中的一个作为所述输入数据,在两个相关数据之间的相关系数不大于所述第二阈值的情况下,选取所述两个相关数据作为所述输入数据。在一些实施例中,所述获取单元对所述集成学习模型进行预训练,以获取所述各相关数据对于所述未来收益的权值;所述选取单元选取所述权值大于第三阈值的相关数据作为所述输入数据。在一些实施例中,所述数据处理装置还包括:划分单元,用于按照收益规模将各企业划分到相应的企业组;训练单元,用于根据划分情况训练各企业组相应的所述时间序列模型或所述集成学习模型;其中,所述选取单元根据企业所在的企业组,选取相应的所述时间序列模型或所述集成学习模型以便估计该企业的所述未来收益。在一些实施例中,所述相关数据包括当前时间数据、所述企业的历史财务数据、所述企业的行业态势数据、所述企业的股票行情数据、所述企业的经营数据、宏观数据中的多项。根据本公开的又一些实施例,提供一种数据处理装置,包括:存储器;和耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器装置中的指令,执行上述任一个实施例中的数据处理方法。根据本公开的再一些实施例,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一个实施例中的数据处理方法。在上述实施例中,根据相关数据与收益的相关程度决定使用哪种模型来预测未来收益。这样,可以自适应地选择合适的模型来应对不同的企业,从而提高了估计准确性。附图说明构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:图1示出本公开的数据处理方法的一些实施例的流程图;图2示出本公开的集成学习模型训练方法的一些实施例的流程图;图3示出图1的步骤210的一些实施例的流程图;图4示出图1的步骤210的另一些实施例的流程图;图5示出本公开的数据处理方法的另一些实施例的流程图;图6示出本公开的数据处理方法的又一些实施例的流程图;图7示出本公开的数据处理装置的一些实施例的框图;图8示出本公开的数据处理装置的另一些实施例的框图;图9示出本公开的数据处理装置的又一些实施例的框图。具体实施方式现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。对于相关领域普通技术人本文档来自技高网...

【技术保护点】
1.一种数据处理方法,包括:/n选取影响企业的收益的多项相关数据;/n获取各相关数据对于所述收益的相关系数;/n判断是否存在大于第一阈值的相关系数;/n在存在大于第一阈值的相关系数的情况下,根据集成学习模型来估计所述企业的未来收益;/n在不存在大于第一阈值的相关系数的情况下,根据时间序列模型来估计所述未来收益。/n

【技术特征摘要】
1.一种数据处理方法,包括:
选取影响企业的收益的多项相关数据;
获取各相关数据对于所述收益的相关系数;
判断是否存在大于第一阈值的相关系数;
在存在大于第一阈值的相关系数的情况下,根据集成学习模型来估计所述企业的未来收益;
在不存在大于第一阈值的相关系数的情况下,根据时间序列模型来估计所述未来收益。


2.根据权利要求1所述的数据处理方法,还包括:
在不存在大于第一阈值的相关系数的情况下,判断所述企业的历史收益是否为平稳时间序列;
在历史收益为平稳时间序列的情况下,根据时间序列模型来估计所述未来收益;
在历史收益不为平稳时间序列的情况下,采用所述历史收益的均值来估计所述未来收益。


3.根据权利要求2所述的数据处理方法,其中,所述判断所述企业的历史收益是否为平稳时间序列包括:
进行平稳性检验和白噪声检验中的至少一项,以判断所述历史收益是否为平稳时间序列。


4.根据权利要求1-3任一项所述的数据处理方法,还包括:
根据各相关数据之间的相关程度和所述各相关数据对所述收益的重要程度中的至少一项选取输入数据;
利用所述输入数据训练所述集成学习模型和估计所述企业的未来收益。


5.根据权利要求4所述的数据处理方法,其中,根据各相关数据之间的相关程度选取输入数据包括:
获取所述各相关数据之间的相关系数;
在两个相关数据之间的相关系数大于第二阈值的情况下,选取所述两个相关数据中的一个作为所述输入数据;
在两个相关数据之间的相关系数不大于所述第二阈值的情况下,选取所述两个相关数据作为所述输入数据。


6.根据权利要求4所述的数据处理方法,其中,根据各相关数据对所述收益的重要程度选取输入数据包括:
对所述集成学习模型进行预训练,以获取所述各相关数据对于所述未来收益的权值;
选取所述权值大于第三阈值的相关数据作为所述输入数据。


7.根据权利要求1-3任一项所述的数据处理方法,还包括:
按照收益规模将各企业划分到相应的企业组;
根据划分情况,训练各企业组相应的所述时间序列模型或所述集成学习模型;
根据企业所在的企业组,选取相应的所述时间序列模型或所述集成学习模型估计该企业的所述未来收益。


8.根据权利要求1-3任一项所述的数据处理方法,其中,
所述相关数据包括当前时间数据、所述企业的历史财务数据、所述企业的行业态势数据、所述企业的股票行情数据、所述企业的经营数据、宏观数据中的多项。


9.一种数据处理装置,包括:
选取单元,用于选取影响企业的收益的多项相关数据;
获取单元,用于获取各相关数据对于所述收益的相关系数;
判断单元,用于判断是否存在大于第一阈值的相关系数;
...

【专利技术属性】
技术研发人员:徐啸天龚杰于建明
申请(专利权)人:京东数字科技控股有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1