一种空壳企业识别方法及系统技术方案

技术编号:37975201 阅读:11 留言:0更新日期:2023-06-30 09:50
本发明专利技术公开了一种空壳企业识别方法及系统,方法包括以下步骤:通过Web数据采集获取企业公开信息及当地空壳企业名单;根据预设规则对企业公开信息进行清洗和整理,创建对应指标,根据空壳企业名单对企业打标签,并将所述指标和标签储存于数据库中;将数据库中的指标和标签作为入参导入决策树模型进行训练,建立空壳企业识别模型,获得空壳企业概率结果;利用空壳企业概率分布的期望与标准差关系,结合当地空壳企业在企业中的比例,判断企业是否为空壳企业。本方法利用企业多方面的公开数据通过机器学习对企业进行评价,降低了数据获取的难度,评估面广,可根据不同情况设置不同的评价指标,实现了客观实时的识别空壳企业。实现了客观实时的识别空壳企业。实现了客观实时的识别空壳企业。

【技术实现步骤摘要】
一种空壳企业识别方法及系统


[0001]本专利技术涉及一种空壳企业识别方法及系统,属于网络信息


技术介绍

[0002]空壳企业是指没有实际资产,也没有实际开展业务经营的企业,往往存在虚假出资等违法行为,与其合作存在较大风险,利用企业公开数据和数据挖掘技术,识别空壳企业,为与该企业合作或发生信贷联系的相关方进行预警,可以避免相关方受到直接损失或伤害。
[0003]现有识别空壳企业数据分析方式基本分为两大类,第一类为基于专门的非公开数据分析,如银行流水、电力使用量等数据进行评价,识别准确率较高,但非公开数据难以获取,第二类为利用公开数据进行判断。针对第二类利用公开数据判断的方式,存在四种缺点:(1)局限于对企业自身要素评估,而非针对生产环节中发生的痕迹评估,如地址或公司名称是否包含生僻字,现实中极易规避,该评估项造成评价结果不够准确;(2)关联其他方面数据时,利用数据类型过少,大多以对于企业经营活动特征进行评价,存在评估面过窄、遗漏要素问题;(3)使用公开数据难以获取数据,如利用法定代表人或最终受益人的年龄信息进行评估,但相关人员的年龄信息并非企业报送公开信息,给数据获取、分析造成困难;(4)对于识别规则的指标重要度,不同地域、不同时期会有变化,随着时间推移以及有经济特色的地区,如一以贯之对评价精度会有较大影响。因此,如何方便准确的识别空壳企业,是本领域技术人员急需解决的问题。

技术实现思路

[0004]为了解决上述问题,本专利技术提出了一种空壳企业识别方法及系统。评估面广,覆盖面全,实现了实时客观的识别空壳企业。
[0005]本专利技术解决其技术问题采取的技术方案是:
[0006]一方面,本专利技术实施例提供的一种空壳企业识别方法,包括以下步骤:
[0007]通过Web数据采集获取企业公开信息及当地空壳企业名单;
[0008]根据预设规则对企业公开信息进行清洗和整理,创建对应指标,根据空壳企业名单对企业打标签,并将所述指标和标签储存于数据库中;
[0009]将数据库中的指标和标签作为入参导入决策树模型进行训练,建立空壳企业识别模型,获得空壳企业概率结果;
[0010]利用空壳企业概率分布的期望与标准差关系,结合当地空壳企业在企业中的比例,判断企业是否为空壳企业。
[0011]作为本实施例一种可能的实现方式,所述通过Web数据采集获取企业公开信息及当地空壳企业名单,包括:
[0012]获取需要抓取数据的网站的URL信息;
[0013]抓取与所述URL信息对应的网页内容;
[0014]提取网页内容中的数据获取企业公开信息及当地空壳企业名单;
[0015]所述企业公开信息为与企业相关的工商信息和公开的裁判文书中与企业相关的涉诉信息。
[0016]作为本实施例一种可能的实现方式,所述根据预设规则对企业公开信息进行清洗和整理,创建对应指标,根据空壳企业名单对企业打标签,包括:
[0017]对企业的工商信息进行整理,分析得出资产形态、经营场所、企业人员、经营活动、经营资质和工商风险信息六类数据;
[0018]分析得出裁判文书中的案由信息,获取涉诉风险信息数据;
[0019]根据所述六类数据和风险信息数据创建对应指标并赋值;
[0020]根据空壳企业名单对企业打标签,是空壳企业打标为1,非空壳企业打标为0。
[0021]作为本实施例一种可能的实现方式,所述将数据库中的指标和标签作为入参导入决策树模型进行训练,建立空壳企业识别模型,获得空壳企业概率结果,包括:
[0022]将数据库中的指标作为入参x,标签作为入参y,导入决策树模型进行训练;
[0023]调节模型参数,获得最优训练模型作为空壳企业识别模型,输出空壳企业概率结果。
[0024]作为本实施例一种可能的实现方式,所述利用空壳企业概率分布的期望与标准差关系,结合当地空壳企业在企业中的比例,判断企业是否为空壳企业,包括:
[0025]对所述空壳企业概率结果从大到小进行排序;
[0026]根据当地空壳企业在企业中的比例,确定所得结果中大概率空壳企业排名概率;
[0027]利用空壳企业概率分布的期望与标准差关系和大概率空壳企业排名概率,确定分级阈值,判断企业是否为空壳企业。
[0028]另一方面,本专利技术实施例提供的一种基于数据汇聚过程的风险评估系统,包括:
[0029]信息采集模块,用于通过Web数据采集获取企业公开信息及当地空壳企业名单;
[0030]数据处理模块,用于根据预设规则对企业公开信息进行清洗和整理,创建对应指标,根据空壳企业名单对企业打标签,并将所述指标和标签储存于数据库中;
[0031]模型建立模块,用于将数据库中的指标和标签作为入参导入决策树模型进行训练,建立空壳企业识别模型,获得空壳企业概率结果;
[0032]空壳企业识别模块,用于利用空壳企业概率分布的期望与标准差关系,结合当地空壳企业在企业中的比例,判断企业是否为空壳企业。
[0033]作为本实施例一种可能的实现方式,所述模型建立模块,包括:
[0034]模型训练模块,用于将数据库中的指标作为入参x,标签作为入参y,导入决策树模型进行训练;
[0035]参数调节模块,用于调节模型参数,获得最优训练模型作为空壳企业识别模型,输出空壳企业概率结果。
[0036]作为本实施例一种可能的实现方式,所述空壳企业识别模块,包括:
[0037]结果排序模块,用于对所述空壳企业概率结果从大到小进行排序;
[0038]概率确定模块,用于根据当地空壳企业在企业中的比例,确定所得结果中大概率空壳企业排名概率;
[0039]阈值分级模块,用于利用空壳企业概率分布的期望与标准差关系和大概率空壳企
业排名概率,确定分级阈值,判断企业是否为空壳企业。
[0040]第三方面,本专利技术实施例提供的一种计算机设备,包括处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当所述AGV仿真装置运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述机器可读指令,以执行如上述任意一种空壳企业识别方法的步骤。
[0041]第四方面,本专利技术实施例提供的一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述任意一种空壳企业识别方法的步骤。
[0042]本专利技术实施例的技术方案可以具有的有益效果如下:
[0043](1)本专利技术采用企业的公开数据进行分析,降低了数据获取的难度,便于采集和日常模型的更新;
[0044](2)本专利技术不只局限于企业自身要素的评估,也包括针对生产环节的评估,并关联了多方面数据,评估面广、覆盖面全;
[0045](3)本专利技术利用样本训练,机器学习的方式对目标企业进行评价,可以客观实时的反映空壳企业特点,避免了专家评价、经验判断的不客观性,缺乏实时性的缺陷;
[004本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种空壳企业识别方法,其特征在于,包括以下步骤:通过Web数据采集获取企业公开信息及当地空壳企业名单;根据预设规则对企业公开信息进行清洗和整理,创建对应指标,根据空壳企业名单对企业打标签,并将所述指标和标签储存于数据库中;将数据库中的指标和标签作为入参导入决策树模型进行训练,建立空壳企业识别模型,获得空壳企业概率结果;利用空壳企业概率分布的期望与标准差关系,结合当地空壳企业在企业中的比例,判断企业是否为空壳企业。2.根据权利要求1所述的一种空壳企业识别方法,其特征在于,所述通过Web数据采集获取企业公开信息及当地空壳企业名单,包括:获取需要抓取数据的网站的URL信息;抓取与所述URL信息对应的网页内容;提取网页内容中的数据获取企业公开信息及当地空壳企业名单;所述企业公开信息为与企业相关的工商信息和公开的裁判文书中与企业相关的涉诉信息。3.根据权利要求2所述的一种空壳企业识别方法,其特征在于,所述根据预设规则对企业公开信息进行清洗和整理,创建对应指标,根据空壳企业名单对企业打标签,包括:对企业的工商信息进行整理,分析得出资产形态、经营场所、企业人员、经营活动、经营资质和工商风险信息六类数据;分析得出裁判文书中的案由信息,获取涉诉风险信息数据;根据所述六类数据和风险信息数据创建对应指标并赋值;根据空壳企业名单对企业打标签,是空壳企业打标为1,非空壳企业打标为0。4.根据权利要求1所述的一种空壳企业识别方法,其特征在于,所述将数据库中的指标和标签作为入参导入决策树模型进行训练,建立空壳企业识别模型,获得空壳企业概率结果,包括:将数据库中的指标作为入参x,标签作为入参y,导入决策树模型进行训练;调节模型参数,获得最优训练模型作为空壳企业识别模型,输出空壳企业概率结果。5.根据权利要求1所述的一种空壳企业识别方法,其特征在于,所述利用空壳企业概率分布的期望与标准差关系,结合当地空壳企业在企业中的比例,判断企业是否为空壳企业,包括:对所述空壳企业概率结果从大到小进行排序;根据当地空壳企业在企业中的比例,确定所得结...

【专利技术属性】
技术研发人员:阎锦韬王继瑞李立红张挚庸张仁田姬广龙
申请(专利权)人:山东省征信有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1