基于层次标签树与神经网络的企业行业识别方法与系统技术方案

技术编号:39736593 阅读:10 留言:0更新日期:2023-12-17 23:38
本发明专利技术公开了一种基于层次标签树与神经网络的企业行业识别方法与系统,所述方法包括:将国民经济行业分类数据,构建为层次标签树;根据层次标签树,构建用于神经网络模型训练的正例数据与反例数据;根据正例数据与反例数据和企业经营范围数据,计算层次标签树的路径得分,对企业进行行业识别

【技术实现步骤摘要】
基于层次标签树与神经网络的企业行业识别方法与系统


[0001]本专利技术涉及数据处理
,特别是一种基于层次标签树与神经网络的企业行业识别方法与系统


技术介绍

[0002]统一社会信用代码库中企业的所属行业存在漏缺的情况以及其“经营范围”信息存在着不规范的问题,为针对行业的分析与统计带来困难

将某企业按照一个所属行业的划分,存在一定的局限性

在进行产业链构建的所需信息统计时,需要尽可能的完善统计信息,所以针对企业的行业划分就需要提出较高的要求;目前市面上识别企业行业的方法有以下几种类型,

一种基于文本相似度的企业行业识别系统及识别方法

提出了基于词袋模型与同义词扩展的方法;

一种企业多种经营范围识别方法与系统

提出利用
word2vec
词嵌入模型结合条件概率的方法;

识别企业所属行业的方法

装置

设备和介质

提出依据与头部企业关系的密切程度结合经营范围的方法;

行业词典的建立方法和装置及行业识别方法和装置

提出依据搜索频率构建行业词典并依据词典识别的方法;

一种行业识别的方法

装置

存储介质及电子设备

提出依据用户信息的特征提取并与特定行业的行业说明进行匹配的方法/>。
[0003]上述专利技术方法并未结合完整的行业层次信息,即并未完整使用一级至四级行业信息的层次关系,故而在行业的识别上存在一定的局限性


技术实现思路

[0004]鉴于此,本专利技术提供一种基于层次标签树与神经网络的企业行业识别方法与系统,依据一级

二级

三级

四级行业间的关系构建层次标签树,结合神经网络,采用层次标签树路径打分的形式,完成企业的行业识别

[0005]本专利技术公开了基于层次标签树与神经网络的企业行业识别方法,其包括:步骤1:将国民经济行业分类数据,构建为层次标签树;步骤2:根据层次标签树,构建用于神经网络模型训练的正例数据与反例数据;步骤3:根据正例数据与反例数据和企业经营范围数据,计算层次标签树的路径得分,对企业进行行业识别

[0006]进一步地,所述步骤3包括:步骤
31
:使用
BERT
中文向量模型作为词嵌入模块,将正例数据与反例数据输入词嵌入模块进行训练,得到神经网络识别模型;步骤
32
:获取所属行业为空值的企业经营范围数据,并对获取的企业经营范围数据进行预处理,获得企业的切分经营数据;步骤
33
:将层次标签树的节点名和预处理后的企业经营范围数据作为神经网络识别模型的输入特征,利用其输出向量与判定阈值,计算层次标签树的路径得分,对企业进行行业识别

[0007]进一步地,所述步骤1包括:生成层次标签树的根节点;生成层次标签树的一级节点,其生成依据为门类中含有数据的项,即不为空的项,一级节点名称为门类对应的类别名称;国民经济行业分类数据包括门类

大类

中类和小类四级;生成层次标签树的二级节点,其生成依据为大类中含有数据的项,二级节点名称为大类对应的类别名称;生成层次标签树的三级节点,其生成依据为中类中含有数据的项,三级节点名称为中类对应的类别名称;生成层次标签树的四级节点,其生成依据为小类中应含有数据,四级节点名称为小类对应的类别名称

[0008]进一步地,所述步骤1还包括:一级节点为二级节点的父节点,二级节点为三级节点的父节点,三级节点为四级节点的父节点,四级节点之间为兄弟节点;层次标签树按照根节点

一级节点

二级节点

三级节点和四级节点的顺序层层递推

[0009]进一步地,所述步骤2包括:层次标签树隔离根节点,即根节点不参与生成正例数据与反例数据;父节点与子节点两两一组,形成正例数据;非父节点与子节点之间,形成反例数据

[0010]进一步地,所述步骤
31
包括:使用
BERT
中文向量模型作为词嵌入模块,将语料转换至向量空间;将正例数据与反例数据输入词嵌入模块,获得一组数据的两个词向量;将
BERT
模型中输出的一组数据的两个词向量连接;将连接后的词向量放入神经网络层进行训练,其中神经网络层由三层构成,其中第一层为全连接层,第二层为
ReLU
层,第三层为全连接层;模型的损失函数选择交叉熵损失函数和学习率

[0011]进一步地,所述步骤
32
包括:读取统一社会信用代码数据库,获取缺失所属行业的企业经营范围数据,并对获取的企业经营范围数据进行预处理,预处理之后的行业范围数据存入数据库中;其中,预处理包括去除企业经营范围数据中的括号以及括号内的数据

[0012]进一步地,所述步骤
33
包括:使用神经网络识别模型计算层次标签树节点分别与每个企业切分经营数据的节点分;基于每个节点分与判定阈值选择最优的层次标签树路径;通过层次标签路径得分方法计算路径得分; 基于层次标签树的路径得分判定所属行业

[0013]进一步地,所述计算路径得分的公式为:其中,
q
表示路径中的节点数,是路径中的第
i
个节点,是对于实例在节点被模型预测为真的概率,是节点的权重,其定义公式如下:其中,表示节点标签在层次标签树的所在层次,即该节点的父节点层
次加1,表示层次标签树中最长路径的长度

[0014]进一步地,通过层次标签树路径得分判定企业所属行业的基准使用
TOP3
原则,即保留得分前三的路径

[0015]本专利技术还公开了一种基于层次标签树与神经网络的企业行业识别系统,其包括:第一构建模块,用于将国民经济行业分类数据,构建为层次标签树;第二构建模块,用于根据层次标签树,构建用于神经网络模型训练的正例数据与反例数据;计算模块,用于根据正例数据与反例数据和企业经营范围数据,计算层次标签树的路径得分,对企业进行行业识别

[0016]由于采用了上述技术方案,本专利技术具有如下的优点:
1.
本专利技术采用层次标签树与神经网络结合,通过对数据进行处理

建模

训练模型与计算,得到企业的行业识别结果

[0017]2.
本专利技术通过
BERT
模型结合神经网络,对下游任务进行进一步的训练,增加识别精度,从而能够提升预测结果
...

【技术保护点】

【技术特征摘要】
1.
一种基于层次标签树与神经网络的企业行业识别方法,其特征在于,包括:步骤1:将国民经济行业分类数据,构建为层次标签树;步骤2:根据层次标签树,构建用于神经网络识别模型训练的正例数据与反例数据;步骤3:根据正例数据与反例数据和企业经营范围数据,计算层次标签树的路径得分,对企业进行行业识别
。2.
根据权利要求1所述的方法,其特征在于,所述步骤3包括:步骤
31
:使用
BERT
中文向量模型作为词嵌入模块,将正例数据与反例数据输入神经网络识别模型进行训练;步骤
32
:获取所属行业为空值的企业经营范围数据,并对获取的企业经营范围数据进行预处理,获得企业的切分经营数据;步骤
33
:将层次标签树的节点名和企业的切分经营数据作为神经网络识别模型的输入特征,利用其输出向量与判定阈值,计算层次标签树的路径得分,对企业进行行业识别
。3.
根据权利要求1所述的方法,其特征在于,所述步骤1包括:生成层次标签树的根节点;生成层次标签树的一级节点,其生成依据为门类中含有数据的项,即不为空的项,一级节点名称为门类对应的类别名称;国民经济行业分类数据包括门类

大类

中类和小类四级;生成层次标签树的二级节点,其生成依据为大类中含有数据的项,二级节点名称为大类对应的类别名称;生成层次标签树的三级节点,其生成依据为中类中含有数据的项,三级节点名称为中类对应的类别名称;生成层次标签树的四级节点,其生成依据为小类中应含有数据,四级节点名称为小类对应的类别名称;一级节点为二级节点的父节点,二级节点为三级节点的父节点,三级节点为四级节点的父节点,四级节点之间为兄弟节点;层次标签树按照根节点

一级节点

二级节点

三级节点和四级节点的顺序层层递推
。4.
根据权利要求1所述的方法,其特征在于,所述步骤2包括:层次标签树隔离根节点,即根节点不参与生成正例数据与反例数据;父节点与子节点两两一组,形成正例数据;非父节点与子节点之间,形成反例数据
。5.
根据权利要求2所述的方法,其...

【专利技术属性】
技术研发人员:张晖冯浩杨弋姚晗丁春利牛颢杨显华龙树全程小帆聂珊刘黎立
申请(专利权)人:四川省标准化研究院四川省计算机研究院
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1