基于关联分析FP-Tree算法的企业风险预警方法技术

技术编号:27588264 阅读:34 留言:0更新日期:2021-03-10 10:04
本发明专利技术涉及一种基于关联分析FP

【技术实现步骤摘要】
基于关联分析FP

Tree算法的企业风险预警方法


[0001]本专利技术属于企业风险预警领域,具体涉及一种基于关联分析FP

Tree算法的企业风险预警方法。

技术介绍

[0002]企业活动作为集合经济、技术、管理、组织等各方面的综合性社会活动,在各个方面都存在着不确定性。企业风险预警就是通过建立风险评估体系,进而进行风险预控,化解风险的发生,并将风险造成的损失降至最低程度的有效手段。开展企业活动的风险分析与管理,预防和化解风险的发生,将风险造成的损失控制在最低限度,已成为保证企业经营活动并创造最大效益的重要措施之一。企业风险预警指标体系是衡量企业金融风险状况的标尺和重要依据。构建符合企业特点的风险预警指标体系要遵循以下基本原则:(1)全面性原则;(2)科学性原则;(3)目的性原则;(4)典型性原则;(5)可操作性原则;(6)公正性原则。
[0003]现有技术中,将企业风险分为内部风险和外部风险,包含四大风险综合指标:财务类、技术类、经营类和战略类。
[0004](1)财务风险因子:包括流动性、筹资、投资、清偿、盈利、资产利用、成长等方面。
[0005](2)技术风险因子:包括商标、专利、软件著作权、作品、关键技术等。
[0006](3)经营风险因子:包括司法、经营异常、行政处罚等。
[0007](4)战略风险因子:包括竞品、企业关联、发展历史等。
[0008]当前,企业风险预警多采用以下方法:在外部环境风险方面,借鉴六力分析模型,分析企业所处的竞争环境;在内部环境风险方面,结合国内外研究文献和数据的可得性,建立以财务风险因子、技术风险因子、经营风险因子、战略风险因子为主的指标体系,而常用的评级的方法有判别分析法、综合评判法、模糊分析法等,最后,依据评判结果设置预警区间,并采取相应对策。
[0009]现有技术的预警是从单指标数据分析或整体指标数据进行分析,且由于企业基本专业知识欠缺、企业数据维度高以及企业数据量大的现状,以及目前企业风险预警在信息获取、更新、处理和分析上都需要较长的时间,且无法实现动态处理,严重影响了风险预警的时效性,这在很大程度上使得企业风险预警存在严重的时间误差。

技术实现思路

[0010]本专利技术的目的在于提供一种基于关联分析FP

Tree算法的企业风险预警方法,不仅能够从单指标数据分析企业风险,也可以综合两个及以上指标数据挖掘企业风险,更全面挖掘企业存在的风险。
[0011]为实现上述目的,本专利技术的技术方案是:一种基于关联分析FP

Tree算法的企业风险预警方法,包括如下步骤:
[0012]步骤S1、根据历史企业相关行为数据,分析衡量企业风险状况的标尺和重要依据,设计风险指标体系X={x1,x2,

,x
i
},x
i
表示风险指标体系的第i个指标的名称;
[0013]步骤S2、根据风险指标体系,运用大数据分析形成风险规则,即由一个或多个指标的值等于一预定值或预定区间值,认为企业可能存在相应风险,得到风险规则集B:
[0014][0015]其中,X
k
为指标体系X的子集;risk
k
为由X
k
分析推理得到的相对应的风险文字描述;
[0016]步骤S3、采集企业相关行为数据,并构建企业风险预警模型的训练指标数据集及待预警企业指标数据集,训练指标数据集中训练集:测试集=4:1;
[0017]步骤S4、基于训练指标数据集,通过企业信用维度数据计算获得企业对应的风险等级,计算公式如下:
[0018][0019][0020]其中,creditScore
new
表示最新信用风险分值归一化后数值,100
·
creditScore
new
作为风险得分的基础分值;creditScore
i
表示前i年信用风险分值,代表信用分数的稳定性情况;riskListCount表示近5年来列入黑名单或失信名单次数,4
·
riskListCount代表被列入黑名单或失信名单风险;
[0021]步骤S5、运用互熵

区间套法进行分箱、卡方检验相关性筛选指标,根据分箱结果进行指标的字符化,并保存分箱规则以及筛选后剩余的指标列表;
[0022]步骤S6、获取关联规则集:运用关联分析FP

Tree算法挖掘企业各风险等级的企业行为的关联规则,遍历关联规则并将其整合为由指标集、风险等级及置信度组成的关联规则集,关联规则集由以“(指标集):(风险等级,置信度)”形式且置信度大于0.5的元素构成;
[0023][0024]其中,A表示某一指标集;B表示某一风险等级;表示由指标集A推理出风险等级B的置信度;count(A∩B)、count(A)分别表示指标集A中的元素和风险等级B同时存在同一样本的样本数量、指标集A中的元素存在同一样本的样本数量;
[0025]步骤S7、根据步骤S6得到的关联规则集以及步骤S2得到的风险规则集,基于待预警企业指标数据集对待预警企业进行预警,预警企业命中的关联规则,预测企业风险等级及可能存在的风险点,输出预警结果。
[0026]在本专利技术一实施例中,步骤S5中,运用互熵

区间套法进行分箱、卡方检验相关性筛选指标的具体实现方式如下:
[0027]对于值种类超过5个的离散变量属性的指标及连续变量的指标,运用有监督的互熵

区间套法对指标变量进行分箱并根据分箱结果字符化连续变量,降低模型过拟合的风险;
[0028]互熵

区间套法进行分箱步骤如下:
[0029]第0步,预先设定一个阈值threshold以及最大分箱数n;
[0030]对待分箱指标I,有初始分箱边界值集为Boundary={a,b},对指标I进行分箱:
[0031]第1步,取将[a,b]划分为两个区间[a,a0]、(a0,b],结合互信息和信息熵,提出一种新的类别不确定评价函数MiEntropy:
[0032][0033]其中,t为区间;C为类别集合,C={c1,c2,

,c
m
},m为类别个数;p(c
i
)、p(t)、p(t,c
i
)分别是训练集中c
i
类的样本数、指标值在区间t的样本数、指标值在区间t且属于c
i
类的样本数与训练集样本总数的比例,p(c
i
|t)指标值在区间t且属于c
i
的样本数与指标值在区间t的样本数的比例,η为超参数,且满足η∈[0,1];
[0034]应用MiEntropy对[a,a0]、(a0,b]进行评价,转第2步;
[0035]第2本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于关联分析FP

Tree算法的企业风险预警方法,其特征在于,包括如下步骤:步骤S1、根据历史企业相关行为数据,分析衡量企业风险状况的标尺和重要依据,设计风险指标体系X={x1,x2,

,x
i
},x
i
表示风险指标体系的第i个指标的名称;步骤S2、根据风险指标体系,运用大数据分析形成风险规则,即由一个或多个指标的值等于一预定值或预定区间值,认为企业可能存在相应风险,得到风险规则集B:B={X1:risk1,X2:risk2,

,X
b
:risk
b
,},其中,X
k
为指标体系X的子集;risk
k
为由X
k
分析推理得到的相对应的风险文字描述;步骤S3、采集企业相关行为数据,并构建企业风险预警模型的训练指标数据集及待预警企业指标数据集,训练指标数据集中训练集:测试集=4:1;步骤S4、基于训练指标数据集,通过企业信用维度数据计算获得企业对应的风险等级,计算公式如下:计算公式如下:其中,creditScore
new
表示最新信用风险分值归一化后数值,100
·
creditScore
new
作为风险得分的基础分值;creditScore
i
表示前i年信用风险分值,代表信用分数的稳定性情况;riskListCount表示近5年来列入黑名单或失信名单次数,4
·
riskListCount代表被列入黑名单或失信名单风险;步骤S5、运用互熵

区间套法进行分箱、卡方检验相关性筛选指标,根据分箱结果进行指标的字符化,并保存分箱规则以及筛选后剩余的指标列表;步骤S6、获取关联规则集:运用关联分析FP

Tree算法挖掘企业各风险等级的企业行为的关联规则,遍历关联规则并将其整合为由指标集、风险等级及置信度组成的关联规则集,关联规则集由以“(指标集):(风险等级,置信度)”形式且置信度大于0.5的元素构成;其中,A表示其中一指标集;B表示其中一风险等级;表示由指标集A推理出风险等级B的置信度;count(A∩B)、count(A)分别表示指标集A中的元素和风险等级B同时存在同一样本的样本数量、指标集A中的元素同时存在同一样本的样本数量;步骤S7、根据步骤S6得到的关联规则集以及步骤S2得到的风险规则集,基于待预警企业指标数据集对待预警企业进行预警,预警企业命中的关联规则,预测企业风险等级及可能存在的风险点,输出预警结果。2.根据权利要求1所述的基于关联分析FP

Tree算法的企业风险预警方法,其特征在于,步骤S5中,运用互熵

区间套法进行分箱、卡方检验相关性筛选指标的具体实现方式如下:对于值种类超过5个的离散变量属性的指标及连续变量的指标,运用有监督的互熵


间套法对指标变量进行分箱并根据分箱结果字符化连续变量,降低模型过拟合的风险;互熵

区间套法进行分箱步骤如下:第0步,预先设定一个阈值threshold以及最大分箱数n;对待分箱指标I,有初始分箱边界值集为Boundary={a,b},对指标I进行分箱:第1步,取将[a,b]划分为两个区间[a,a0]、(a0,b],结合互信息和信息熵,提出一种新的类别不确定评价函数MiEntropy:其中,t为区间;C为类别集合,C={c1,c2,

,c
m
},m为类别个数;p(c
i
)、p(t)、p(t,c
i
)分别是训练集中c
i
类的样本数、指标值在区间t的样本数、指标值在区间t且属于c
i
类的样本数与训练集样本总数的比例,p(c
i
|t)指标值在区间t且属于c
i
的样本数与指标值在区间t的...

【专利技术属性】
技术研发人员:吴志雄甘建武李晓琼黄鼎
申请(专利权)人:福建南威软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1