一种基于税务数据进行经营预测的方法及装置制造方法及图纸

技术编号:17879699 阅读:36 留言:0更新日期:2018-05-06 01:18
本发明专利技术涉及数据处理领域,公开了一种基于税务数据进行经营预测的方法及装置,所述方法包括:从目标企业的历史税务数据中提取出指定时间段内的税务记录,生成历史税务记录序列;以及采用长短期记忆LSTM模型训练所述历史税务记录序列,预测出目标企业的未来营业数据。本发明专利技术有效利用了预测企业未来时间段内的运营趋势的LSTM模型,基于模型参数,只需要简单步骤即可对不同企业未来的营业进行预测,从而为各组织机构提供投资决策或投资依据。

A method and device for business forecasting based on tax data

The invention relates to the field of data processing, and discloses a method and device for operating prediction based on tax data. The method includes: extracting tax records within specified time period from the historical tax data of the target enterprise, generating a historical tax record sequence, and training the calendar with long short term memory LSTM model. The historical tax records sequence predicts the future business data of the target enterprise. The invention effectively uses the LSTM model to predict the business trend in the future period of the enterprise. Based on the model parameters, it only needs simple steps to predict the future business of different enterprises, thus providing investment decision or investment basis for various organizations.

【技术实现步骤摘要】
一种基于税务数据进行经营预测的方法及装置
本专利技术涉及数据处理领域,具体地,涉及一种基于税务数据进行经营预测的方法及装置。
技术介绍
随着税务数据的不断增长和互联网大数据技术的兴起,税务大数据也应运而生。税务机构基于传统的系统平台难以对税务大数据进行有效处理和信息挖掘,不能充分利用大量的税务数据进行信息获取、数据挖掘和数据分析等有价值的操作。而实际中,税务数据包含了所有企业的营业情况,能够真实的反应企业的收入和增长趋势。因此,税务机构对税务数据的大数据处理技术日渐重视,快速有效地利用税务数据挖掘出有价值的信息越来越重要。目前,随着大数据技术的发展和数据计算能力的增强,基于海量数据利用机器学习的智能化处理已成为主流的数据处理方案。但是,现有的机器学习的应用主要集中在有监督学习和无监督学习两种(具体为分类和聚类),对时间序列则无法准确预测,从而不适用于基于时间序列的税务数据处理。
技术实现思路
本专利技术的目的是提供一种基于税务数据进行经营预测的方法及装置,用于实现税务大数据的有效处理和信息挖掘。本专利技术提供了一种基于税务数据进行经营预测的方法,该方法包括:从目标企业的历史税务数据中提取出指定时间段内的税务记录,生成历史税务记录序列;以及采用长短期记忆LSTM模型训练所述历史税务记录序列,预测出目标企业的未来营业数据。可选地,所述生成历史税务记录序列包括:以预设周期为时间单位对提取出的指定时间段内的税务记录按时间顺序进行排序;根据排序结果,生成历史税务记录序列;以及对所述历史税务记录序列中的每个元素进行归一化处理。可选地,所述历史税务记录序列中的每个元素包括进项总额、销项总额、总税额和平均企业人数。可选地,该方法还包括:训练并测试LSTM模型。可选地,所述训练并测试LSTM模型包括:从目标企业的历史税务数据中获取预定数量的历史税务记录序列样本;将所述预定数量的历史税务记录序列样本分别输入LSTM模型,得到预定数量的预测结果;以及采用预先选定的损失函数处理所述预测结果与企业的实际营业数据;其中,若所述损失函数在训练过程中收敛,则LSTM的模型训练结束。本专利技术还提供了一种基于税务数据进行经营预测的装置,该装置包括:数据预处理模块,用于从目标企业的历史税务数据中提取出指定时间段内的税务记录,生成历史税务记录序列;以及预测模块,用于采用长短期记忆LSTM模型训练所述历史税务记录序列,预测出目标企业的未来营业数据。可选地,所述数据预处理模块包括:提取子模块,用于从目标企业的历史税务数据中提取出指定时间段内的税务记录;排序子模块,用于以预设周期为时间单位对提取出的指定时间段内的税务记录按时间顺序进行排序;生成子模块,用于根据排序结果,生成历史税务记录序列;以及处理子模块,用于对所述历史税务记录序列中的每个元素进行归一化处理。可选地,所述历史税务记录序列中的每个元素包括进项总额、销项总额、总税额和平均企业人数。可选地,该装置还包括:模型训练及测试模块,用于训练并测试LSTM模型。可选地,所述模型训练及测试模块包括:样本获取子模块,用于从目标企业的历史税务数据中获取预定数量的历史税务记录序列样本;样本训练子模块,用于将所述预定数量的历史税务记录序列样本分别输入LSTM模型,得到预定数量的预测结果;以及损失计算子模块,用于采用预先选定的损失函数处理所述预测结果与企业的实际营业数据;其中,若通过所述损失计算子模块获取的所述损失函数在训练过程中收敛,则LSTM的模型训练结束。本专利技术的有益效果是:本专利技术的基于税务数据进行经营预测的方法及装置有效利用了预测企业未来时间段内的运营趋势的LSTM模型,基于模型参数,只需要简单步骤即可对不同企业未来的营业进行预测,从而为各组织机构提供投资决策或投资依据。本专利技术的其它特征和优点将在随后的具体实施方式部分予以详细说明。附图说明附图是用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本专利技术,但并不构成对本专利技术的限制。在附图中:图1是本专利技术实施例所述的基于税务数据进行经营预测的方法的流程示意图;图2是本专利技术实施例中生成历史税务记录序列的方法的流程示意图;图3是本专利技术实施例中训练并测试LSTM模型的流程示意图;图4(a)是本专利技术实施例中的LSTM模型的单元结构的示意图;图4(b)是本专利技术实施例中计算LSTM模型的忘记门的逻辑示意图;图4(c)是本专利技术实施例中计算LSTM模型的输入门和中间细胞状态的逻辑示意图;图4(d)是本专利技术实施例中计算LSTM模型的细胞状态的逻辑示意图;图4(e)是本专利技术实施例中计算LSTM模型的输出门的逻辑示意图;图4(f)是本专利技术实施例中计算LSTM模型的更新隐层向量的逻辑示意图,且同时示出了本专利技术实施例最终形成的LSTM模型的结构;图5是本专利技术实施例所述的基于税务数据进行经营预测的装置的结构示意图;图6是本专利技术实施例中的数据预处理模块的结构示意图;图7是本专利技术实施例中的模型训练及测试模块的结构示意图。附图标记说明51数据预处理模块52预测模块53模型训练及测试模块511提取子模块512排序子模块513生成子模块514处理子模块531样本获取子模块532样本训练子模块533损失计算子模块具体实施方式以下结合附图对本专利技术的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本专利技术,并不用于限制本专利技术。长短期记忆(Long-ShortTermMemory,LSTM)模型是回流神经网络(RecursiveNeuroNetwork,RNN)的一种,其可以记住较长时间的行为,即可以很好地处理历史数据,并输出预测结果。而税务数据中记载了企业的进项、销项等信息,通过这些信息可以分析出企业的营业情况。因此,本专利技术实施例根据税务数据和LSTM模型的特点,提出了一种利用LSTM模型来处理税务数据以实现目标企业的经营预测的方案,以为企业制定发展规划提供决策依据。如图1所示,本专利技术实施例的基于税务数据进行经营预测的方法主要包括以下步骤:步骤S1,从目标企业的历史税务数据中提取出指定时间段内的税务记录,生成历史税务记录序列。其中,历史税务数据的记录依赖于发票内容中开票时间,因此可根据开票时间,从历史税务大数据中提取指定时间段(如2014年、2015年、2016年三年)内的税务记录。另外,本专利技术实施例中的每条税务记录中主要包括进项总额、销项总额、总税额和平均企业人数等能直接或间接反映出企业经营情况的信息。具体地,如图2所示,本专利技术实施例中生成历史税务记录序列的方法可以包括以下步骤:步骤S11,以预设周期为时间单位对提取出的指定时间段内的税务记录按时间顺序进行排序。步骤S12,根据排序结果,生成历史税务记录序列。其中,所述预设周期可以任意设定为一年、一季度、一月、一周(一星期)或一天等,本实施例中优选设定为一周,即通过步骤S11及步骤S12,能得到关于税务记录的一个历史税务记录序列,如(t1,t2,……,ti,……,tn),其中n为指定时间段包括的周数(n通常要大于48,即相当于至少一年的数据),也即是历史税务记录序列的长度,而ti表示第i周对应的税务记录(如t12,表示按顺序排列的第12周的税务记录),而每组税务记录,即历史税务记录序列本文档来自技高网...
一种基于税务数据进行经营预测的方法及装置

【技术保护点】
一种基于税务数据进行经营预测的方法,其特征在于,该方法包括:从目标企业的历史税务数据中提取出指定时间段内的税务记录,生成历史税务记录序列;以及采用长短期记忆LSTM模型训练所述历史税务记录序列,预测出目标企业的未来营业数据。

【技术特征摘要】
1.一种基于税务数据进行经营预测的方法,其特征在于,该方法包括:从目标企业的历史税务数据中提取出指定时间段内的税务记录,生成历史税务记录序列;以及采用长短期记忆LSTM模型训练所述历史税务记录序列,预测出目标企业的未来营业数据。2.根据权利要求1所述的方法,其特征在于,所述生成历史税务记录序列包括:以预设周期为时间单位对提取出的指定时间段内的税务记录按时间顺序进行排序;根据排序结果,生成历史税务记录序列;以及对所述历史税务记录序列中的每个元素进行归一化处理。3.根据权利要求2所述的方法,其特征在于,所述历史税务记录序列中的每个元素包括进项总额、销项总额、总税额和平均企业人数。4.根据权利要求1至3中任意一项所述的方法,其特征在于,该方法还包括:训练并测试LSTM模型。5.根据权利要求1所述的方法,其特征在于,所述训练并测试LSTM模型包括:从目标企业的历史税务数据中获取预定数量的历史税务记录序列样本;将所述预定数量的历史税务记录序列样本分别输入LSTM模型,得到预定数量的预测结果;以及采用预先选定的损失函数处理所述预测结果与企业的实际营业数据;其中,若所述损失函数在训练过程中收敛,则LSTM的模型训练结束。6.一种基于税务数据进行经营预测的装置,其特征在于,该装置包括:数据预处理模块,用于从目标企业的历史税务数据中提取出指定时间段内...

【专利技术属性】
技术研发人员:齐超林文辉
申请(专利权)人:航天信息股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1