一种基于多维度特征的企业批量聚类方法和系统技术方案

技术编号:36251328 阅读:20 留言:0更新日期:2023-01-07 09:44
本发明专利技术提供一种基于多维度特征的企业批量聚类方法和系统通过采集税务领域多个待聚类目标企业的税务数据,新闻数据和舆情数据,对采集的数据进行解析后生成特征数据,并根据特征数据构建图结构,以及将所述图结构作为最优图神经网络聚类模型的输入,获取待聚类目标企业的聚类结果。所述方法和系统针对企业单一属性特征聚类关联性差的问题,采集目标企业的多种数据,丰富企业目标的特征维度,构建以企业目标为中心,企业和企业之间具有强关联的图结构,保证了聚类簇中目标企业的紧密性;进一步地,利用图卷积神经网络充分捕捉图结构特征,实现对批量输入的目标企业中具有相同图结构企业节点的聚类,提升了企业聚类效果和效率。率。率。

【技术实现步骤摘要】
一种基于多维度特征的企业批量聚类方法和系统


[0001]本专利技术涉及税务
,并且更具体地,涉及一种基于多维度特征的企业批量聚类方法和系统。

技术介绍

[0002]聚类是数据挖掘中的概念,就是按照某个特定标准(如距离)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。也即聚类后同一类的数据尽可能聚集到一起,不同类数据尽量分离。聚类时并不关心某一类是什么,需要实现的目标只是把相似的东西聚到一起,因此聚类算法通常不需要训练样本学习,属于无监督学习。
[0003]企业目标的聚类是指综合分析企业目标彼此之间的关联关系,使用企业属性信息特征化描述该企业,相似类型的企业目标聚集成一个簇,不同簇中的两个企业目标差异性尽可能大,即实现相似企业目标的聚集,差异企业目标的分离。由于聚类成一个簇的企业目标具有一定的相似性,当一个簇中出现风险企业同时也预示着该簇中的其他企业存在风险的可能,等一个簇中出现优质企业同时也预示着该簇中的其他企业是优质企业的可能性更大。企业目标的聚类可为税收安全、企业投资贸易等一系列行为提供参考依据,便于挖掘优质企业以及风险企业。
[0004]现有的相关专利中,仅利用企业目标的税务登记注册地址信息实现企业聚类,聚类后的簇中,企业与企业仅仅因注册地址信息类似而聚集在一起,单个企业的标签无法有效反映整个聚集簇中其他企业的经营状况。因此,需要一种技术,能够通过构建企业与企业之间的强关联关系,提高企业聚类的效果。
专利技术内容
[0005]为了解决现有技术中仅通过单一企业注册数据聚类导致的企业之间弱关联,使企业聚类效果较差的问题,本专利技术提供一种基基于多维度特征的企业批量聚类方法和系统。
[0006]根据本专利技术的一方面,本专利技术提供一种基于多维度特征的企业批量聚类方法,所述方法包括:
[0007]采集多个待聚类目标企业的税务数据,新闻数据和舆情数据;
[0008]对所述税务数据,新闻数据和舆情数据分别进行解析,获取每个待聚类目标企业的税务特征数据,新闻特征数据和舆情特征数据;
[0009]根据每个待聚类目标企业的税务特征数据,新闻特征数据和舆情特征数据,以及待聚类目标企业之间的关联关系构建图结构,其中,所述图结构表示为特征矩阵和邻接矩阵;
[0010]将所述特征矩阵和邻接矩阵作为最优图神经网络聚类模型的输入,根据最优图神经网络聚类模型的输出确定待聚类目标企业的聚类结果,其中,每个待聚类目标企业的聚类结果为预先设置的多个聚类标签中的一个。
[0011]可选地,采集多个待聚类目标企业的税务数据,新闻数据和舆情数据之前还包括建立图神经网络聚类模型,其中:
[0012]步骤1、采集多个历史企业的历史税务数据,历史新闻数据,历史舆情数据和历史企业聚类标签;
[0013]步骤2、对所述历史税务数据,历史新闻数据和历史舆情数据分别进行解析,获取每个历史企业的历史税务特征数据,历史新闻特征数据和历史舆情特征数据;
[0014]步骤3、根据每个历史企业的历史税务特征数据,历史新闻特征数据和历史舆情特征数据为历史企业设置对应的聚类标签;
[0015]步骤4、根据每个历史企业的历史税务特征数据,历史新闻特征数据和历史舆情特征数据,以及历史企业之间的关联关系构建历史图结构,其中,所述历史图结构包括历史特征矩阵和历史邻接矩阵;
[0016]步骤5、采用图卷积神经网络GCN建立初始图神经网络模型;
[0017]步骤6、将所述历史特征矩阵和历史邻接矩阵作为初始图神经网络模型的输入,获取每个历史企业的初始聚类结果;
[0018]步骤7、比较每个历史企业的初始聚类结果和其对应的聚类标签;
[0019]步骤8、当比较结果不满足设置的模型成立条件时,调整GCN的模型参数,生成待验证模型,并将待验证模型作为初始图神经网络模型,转至步骤6;
[0020]步骤9、当比较结果满足设置的模型成立条件时,生成最优图神经网络模型。
[0021]可选地,根据每个历史企业的历史税务特征数据,历史新闻特征数据和历史舆情特征数据,以及历史企业之间的关联关系构建历史图结构包括:
[0022]当历史企业数量为N个,每个历史企业的特征数据的特征维度为D维时,根据历史企业数量N和特征维度D生成历史特征矩阵X
N*D

[0023]根据N个历史企业之间的关联关系生成历史邻接矩阵A
N*N

[0024]可选地,将所述历史特征矩阵和历史邻接矩阵作为初始图神经网络模型的输入,获取每个历史企业的初始聚类结果,其中:
[0025]初始神经网络模型的层与层之间的传播方式的表达式为:
[0026][0027]式中,I是单位矩阵,是的度矩阵,公式为1≤i,j≤N,H
(l)
为第l层的特征,当l=1时为输入层,输入层的值为历史特征矩阵X
N*D
和历史邻接矩阵A
N*N
,σ为激活函数,W
(l)
)为GCN的模型参数。
[0028]可选地,对于初始神经网络模型的H
(l+1)
层,令其激活函数为ReLU和Softmax,则整体的正向传播公式可表达为:
[0029][0030]式中,l≥1,X为历史特征矩阵,A为历史邻接矩阵。
[0031]根据本专利技术的另一方面,本专利技术提供一种基于多维度特征的企业批量聚类系统,所述系统包括:
[0032]数据采集单元,用于采集多个待聚类目标企业的税务数据,新闻数据和舆情数据;
[0033]数据解析单元,用于对所述税务数据,新闻数据和舆情数据分别进行解析,获取每个待聚类目标企业的税务特征数据,新闻特征数据和舆情特征数据;
[0034]图结构单元,用于根据每个待聚类目标企业的税务特征数据,新闻特征数据和舆情特征数据,以及待聚类目标企业之间的关联关系构建图结构,其中,所述图结构表示为特征矩阵和邻接矩阵;
[0035]批量聚类单元,用于将所述特征矩阵和邻接矩阵作为最优图神经网络聚类模型的输入,根据最优图神经网络聚类模型的输出确定待聚类目标企业的聚类结果,其中,每个待聚类目标企业的聚类结果为预先设置的多个聚类标签中的一个。
[0036]可选地,所述系统还包括聚类模型单元,用于建立图神经网络聚类模型,其中:
[0037]步骤1、采集多个历史企业的历史税务数据,历史新闻数据,历史舆情数据和历史企业聚类标签;
[0038]步骤2、对所述历史税务数据,历史新闻数据和历史舆情数据分别进行解析,获取每个历史企业的历史税务特征数据,历史新闻特征数据和历史舆情特征数据;
[0039]步骤3、根据每个历史企业的历史税务特征数据,历史新闻特征数据和历史舆情特征数据为历史企业设置对应的聚类标签;
[0040]步骤4、根据每个历史企业的历史税务特征数据,历史新闻特本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多维度特征的企业批量聚类方法,其特征在于,所述方法包括:采集多个待聚类目标企业的税务数据,新闻数据和舆情数据;对所述税务数据,新闻数据和舆情数据分别进行解析,获取每个待聚类目标企业的税务特征数据,新闻特征数据和舆情特征数据;根据每个待聚类目标企业的税务特征数据,新闻特征数据和舆情特征数据,以及待聚类目标企业之间的关联关系构建图结构,其中,所述图结构表示为特征矩阵和邻接矩阵;将所述特征矩阵和邻接矩阵作为最优图神经网络聚类模型的输入,根据最优图神经网络聚类模型的输出确定待聚类目标企业的聚类结果,其中,每个待聚类目标企业的聚类结果为预先设置的多个聚类标签中的一个。2.根据权利要求1所述的方法,其特征在于,采集多个待聚类目标企业的税务数据,新闻数据和舆情数据之前还包括建立图神经网络聚类模型,其中:步骤1、采集多个历史企业的历史税务数据,历史新闻数据,历史舆情数据和历史企业聚类标签;步骤2、对所述历史税务数据,历史新闻数据和历史舆情数据分别进行解析,获取每个历史企业的历史税务特征数据,历史新闻特征数据和历史舆情特征数据;步骤3、根据每个历史企业的历史税务特征数据,历史新闻特征数据和历史舆情特征数据为历史企业设置对应的聚类标签;步骤4、根据每个历史企业的历史税务特征数据,历史新闻特征数据和历史舆情特征数据,以及历史企业之间的关联关系构建历史图结构,其中,所述历史图结构包括历史特征矩阵和历史邻接矩阵;步骤5、采用图卷积神经网络GCN建立初始图神经网络模型;步骤6、将所述历史特征矩阵和历史邻接矩阵作为初始图神经网络模型的输入,获取每个历史企业的初始聚类结果;步骤7、比较每个历史企业的初始聚类结果和其对应的聚类标签;步骤8、当比较结果不满足设置的模型成立条件时,调整GCN的模型参数,生成待验证模型,并将待验证模型作为初始图神经网络模型,转至步骤6;步骤9、当比较结果满足设置的模型成立条件时,生成最优图神经网络模型。3.根据权利要求2所述的方法,其特征在于,根据每个历史企业的历史税务特征数据,历史新闻特征数据和历史舆情特征数据,以及历史企业之间的关联关系构建历史图结构包括:当历史企业数量为N个,每个历史企业的特征数据的特征维度为D维时,根据历史企业数量N和特征维度D生成历史特征矩阵X
N*D
;根据N个历史企业之间的关联关系生成历史邻接矩阵A
N*N
。4.根据权利要求3所述的方法,其特征在于,将所述历史特征矩阵和历史邻接矩阵作为初始图神经网络模型的输入,获取每个历史企业的初始聚类结果,其中:初始神经网络模型的层与层之间的传播方式的表达式为:
式中,I是单位矩阵,是的度矩阵,公式为1≤i,j≤N,H
(l)
为第l层的特征,当l=1时为输入层,输入层的值为历史特征矩阵X
N*D
和历史邻接矩阵A
N*N
,σ为激活函数,W
(l)
)为GCN的模型参数。5.根据权利要求4所述的方法,其特征在于,对于初始神经网络模型的H
(l+1)
层,令其激活函数为ReLU和Softmax,则整体的正向传播公式可表达为:式中,l≥1,X为历史特征矩阵,A为历史邻接矩阵。6.一种基于多维度特征的企业...

【专利技术属性】
技术研发人员:闫凯王泽浩马谊骏林文辉王志刚刘振宇王晶
申请(专利权)人:航天信息股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1