本发明专利技术公开了基于多维全息特征和逻辑回归的公司识别方法和装置。包括以下步骤:S1:对企业数据集进行风险标注和预处理;S2:从企业数据集提取建模所需特征;S3:使用已提取特征和标注结果训练逻辑回归模型LR;S4:使用已训练逻辑回归模型LR判断企业是否是空壳公司。有益效果为:本发明专利技术采集覆盖企业各个方面的多维度全息特征,能够充分反映企业的全貌,克服传统方法采用单一特征建模的偏向性和不公平性,适用范围广;采用具有自学习能力、鲁棒性和稳定性的逻辑回归方法,克服规则模型的局限性和专家经验的主观性,从而建立更加科学、全面、可信度高、实用性好的空壳公司识别模型。实用性好的空壳公司识别模型。实用性好的空壳公司识别模型。
【技术实现步骤摘要】
基于多维全息特征和逻辑回归的公司识别方法和装置
[0001]本专利技术涉及数据预处理
,具体为基于多维全息特征和逻辑回归的公司识别方法和装置。
技术介绍
[0002]现有技术中,当前识别空壳公司主要依赖传统的规则模型,根据企业账户基本信息和交易情况进行分析,例如不同公司的管理人员交叉任职、注册地址和联系方式重复使用、账户短期交易频繁且资金量与注册资本规模不匹配、社保公积金缴纳金额与员工数量不匹配等。这些规则大多源于专家经验,具有主观性和局限性,缺乏学习功能,只能识别已有模式下的空壳公司,不能发现新模式下的空壳公司。近年来,出现基于统计分析和机器学习的空壳公司识别方法,但是所用特征维度比较单一,例如:交叉任职、注册资金、用电耗能等,这些方法没有考虑实际企业的多样性,有失公平。
[0003][0004]此外,中国专利“CN112990712A基于用电耗能监测的企业生产经营分析方法及系统”根据用电耗能判定企业是否空壳公司;不同类型的企业的耗电需求差异明显,生产型企业用电需求大,而科技型、文创型企业用电需求小,有些企业人员办公地点不在公司驻地,疫情期间尤其明显,所以电量消耗很小;因此,单独采用该指标判断企业是否空壳存在偏颇,需要结合其它特征建立企业全貌后进行空壳公司识别。
技术实现思路
[0005]本专利技术提供基于多维全息特征和逻辑回归的公司识别方法和装置,用于解决当前空壳公司识别方法存在的下述问题:规则模型无法发现新模式下的空壳公司、采用单一维度建模有失公平。。
[0006]为实现上述目的,本专利技术提供如下技术方案:基于多维度全息特征和逻辑回归的公司识别方法,所述识别方法包括以下步骤:
[0007]S1:对企业数据集进行风险标注和预处理;
[0008]S2:从企业数据集提取建模所需特征;
[0009]S3:使用已提取特征和标注结果训练逻辑回归模型LR;
[0010]S4:使用已训练逻辑回归模型LR判断企业是否存在风险。
[0011]优选的,所述步骤S1标记每个企业的风险状态,并进行预处理,具体包括:
[0012]S11:标注企业为空壳公司或非空壳公司;
[0013]S12:对企业数据集进行预处理;
[0014]S13:返回风险标注和预处理后的结果。
[0015]优选的,所述步骤S12处理特征中的异常值、缺失值和重复记录,具体包括:
[0016]S121:检测特征中存在的异常值,删除对应的记录;
[0017]S122:预测特征中存在的缺失值;
[0018]S123:合并重复的企业信息记录;
[0019]S124:返回预处理结果。
[0020]优选的,所述步骤S2从企业数据集提取下述特征:企业人数、股东数量、注册资本、实缴资本、企业类别、企业状态、公积金缴纳总额、公积金缴纳次数、社保缴纳总额、社保缴纳次数、纳税总额、纳税次数、共同联系电话、共同注册时间、共同法人代表、共同联系人、共同联系电话且相近地址、共同成员且创建时间同一天。
[0021]优选的,所述步骤S3将已提取特征视为自变量,标注结果视为因变量,采用K折交叉验证法训练逻辑回归模型。用S表示由已提取特征和标注结果构成的数据集,n表示可供选择逻辑回归模型的超参数个数,c
r
是第r组逻辑回归模型的超参数,F1
r
是采用c
r
构建逻辑回归模型时的F1值,1≤r≤n;具体包括:
[0022]S31:将数据集S等分为K个互不相交的子集S
i
,1≤i≤K;
[0023]S32:初始化r=1;
[0024]S33:计算采用c
r
构建逻辑回归模型时的F1值F1
r
;
[0025]S34:如果r≤n,那么转S35,否则转S36;
[0026]S35:r=r+1,转S33;
[0027]S36:计算F1
r
最大时对应的下标r
m
;
[0028]S37:使用数据集S和超参数c
rm
训练逻辑回归模型LR;
[0029]S38:返回逻辑回归模型LR。
[0030]优选的,所述步骤S33训练K个逻辑回归模型,计算这些模型的平均F1值,具体包括:
[0031]S331:以S
‑
S
i
为训练集,S
i
为验证集,训练K个逻辑回归模型,1≤i≤K;
[0032]S332:计算这些模型的F1值的平均值F1
r
;
[0033]S333:返回F1
r
。
[0034]优选的,所述步骤S4使用已经训练的逻辑回归模型LR处理未知的企业数据,根据输出结果判断是否是空壳公司,用x表示从未知企业数据中提取的特征,用y表示逻辑回归模型LR的输出结果,用t表示风险阈值;具体包括:
[0035]S41:将x输入逻辑回归模型LR;
[0036]S42:运行逻辑回归模型LR;
[0037]S43:获取输出结果y=LR(x);
[0038]S44:如果y>t,那么转S45,否则转S46;
[0039]S45:标记该企业是空壳公司,转S47;
[0040]S46:标记该企业不是空壳公司;
[0041]S47:结束预测。
[0042]一种基于多维度全息特征和逻辑回归的公司识别装置,所述识别装置包括:
[0043]企业数据集风险标注和预处理部件M1,用于标记企业风险状态和预处理;
[0044]企业数据集建模特征提取部件M2,用于从企业数据集中提取建模所需特征;
[0045]逻辑回归模型训练部件M3,用于训练适用于空壳公司识别的逻辑回归模型;所述逻辑回归模型训练部件M3包括:
[0046]互不相交子集等分部件M31,用于将数据集等分为多个互不相交的子集;
[0047]候选逻辑回归模型训练部件M32,用于根据多组参数训练多个逻辑回归模型;
[0048]最佳逻辑回归模型选择部件M33,用于根据F1值最大化原则选择用于空壳公司识别的逻辑回归模型;
[0049]未知企业风险判定部件M4,用于使用逻辑回归模型判断未知企业是否属于空壳公司。
[0050]与现有技术相比,本专利技术的有益效果是:
[0051]本专利技术提出的基于多维全息特征和逻辑回归的公司识别方法和装置采集覆盖企业各个方面的多维度全息特征,包括:人员、组织、地址、资金、社保、纳税等,能够充分反映企业的全貌,克服传统方法采用单一特征建模的偏向性和不公平性,适用范围广;采用具有自学习能力、鲁棒性和稳定性的逻辑回归方法,克服规则模型的局限性和专家经验的主观性,从而建立更加科学、全面、可信度高、实用性好的空壳公司识别模型。
附图说明
[0052]图1为本专利技术的识别方法的步骤流程图;
本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.基于多维度全息特征和逻辑回归的公司识别方法,其特征在于,所述识别方法包括以下步骤:S1:对企业数据集进行风险标注和预处理;S2:从企业数据集提取建模所需特征;S3:使用已提取特征和标注结果训练逻辑回归模型LR;S4:使用已训练逻辑回归模型LR判断企业是否是空壳公司。2.根据权利要求1所述的基于多维度全息特征和逻辑回归的公司识别方法,其特征在于:所述步骤S1中,标记每个企业的风险状态,并进行预处理;具体包括以下步骤:S11:标注企业为空壳公司或非空壳公司;S12:对企业数据集进行预处理;S13:返回风险标注和预处理后的结果。3.根据权利要求2所述的基于多维度全息特征和逻辑回归的公司识别方法,其特征在于:所述步骤S12中,处理特征中的异常值、缺失值和重复记录;具体包括以下步骤:S121:检测特征中存在的异常值,删除对应的记录;S122:预测特征中存在的缺失值;S123:合并重复的企业信息记录;S124:返回预处理结果。4.根据权利要求1所述的基于多维度全息特征和逻辑回归的公司识别方法,其特征在于:所述步骤S2中,从企业数据集提取下述特征:企业人数、股东数量、注册资本、实缴资本、企业类别、企业状态、公积金缴纳总额、公积金缴纳次数、社保缴纳总额、社保缴纳次数、纳税总额、纳税次数、共同联系电话、共同注册时间、共同法人代表、共同联系人、共同联系电话且相近地址、共同成员且创建时间同一天。5.根据权利要求1所述的基于多维度全息特征和逻辑回归的公司识别方法,其特征在于:所述步骤S3中,将已提取特征视为自变量,标注结果视为因变量,采用K折交叉验证法训练逻辑回归模型,用S表示由已提取特征和标注结果构成的数据集,n表示可供选择逻辑回归模型的超参数个数,c
r
是第r组逻辑回归模型的超参数,F1
r
是采用c
r
构建逻辑回归模型时的F1值,1≤r≤n;具体包括以下步骤:S31:将数据集S等分为K个互不相交的子集S
i
,1≤i≤K;S32:初始化r=1;S33:计算采用c
r
构建逻辑回归模型时的F1值F1
r
;S34:如果r≤n,那么转S35,否则转S36;S3...
【专利技术属性】
技术研发人员:王功明,荣广胜,赵志航,魏金雷,潘心冰,
申请(专利权)人:浪潮云信息技术股份公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。