System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于知识图谱增强的企业行业分类方法及系统技术方案_技高网

基于知识图谱增强的企业行业分类方法及系统技术方案

技术编号:41772945 阅读:15 留言:0更新日期:2024-06-21 21:48
本发明专利技术提供了一种基于知识图谱增强的企业行业分类方法及系统,包括:获取待分类企业的行业分类相关数据并进行相应预处理;基于预处理的行业分类相关数据,利用预先训练的基于深度学习的行业分类模型,获得企业所属类别的分类结果;其中,所述行业分类模型具体执行如下过程:对于待分类企业的行业分类相关数据进行文本拆分,获得短句集合;基于短句集合中的句子与预先构建的知识图谱中实体的链接结果,对短句集合中的句子添加标签;利用预训练自然语言模型对添加标签的句子进行特征提取;采用基于注意力机制的知识融合策略对提取的句子特征进行融合;以所述融合特征作为预先训练的分类器的输入,获得企业的分类类别。

【技术实现步骤摘要】

本专利技术属于行业分类,尤其涉及一种基于知识图谱增强的企业行业分类方法及系统


技术介绍

1、本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。

2、在现代工业体系中,两高(高污染和高能耗)行业的准确分类与识别成为了环保和能源管理的关键环节。两高行业通常涉及到高能耗、高排放,其对环境的影响较大,因此,对其进行精准的分类和管理,以便于制定更为合适的政策和措施,对于实现可持续发展具有重要意义。

3、目前的两高行业分类方法主要依赖于手动收集和分析行业的能耗、排放等数据,然后通过一定的标准和阈值进行分类。这些方法通常包括:基于阈值的分类方法:通过设定能耗和排放的阈值,将超过阈值的行业定义为两高行业;基于行业标准的分类方法:依据各个行业的标准和规范,对行业进行分类;基于专家经验的分类方法:依赖于专家的经验和判断进行行业分类;基于数据挖掘的分类方法:通过数据挖掘技术分析行业的能耗、排放等数据,自动进行分类;基于机器学习的分类方法:利用机器学习算法(如决策树、聚类分析等)对行业进行分类。

4、专利技术人发现,现有的分类方法往往主要关注单一的维度,例如,只依赖于能耗或排放数据进行分类,忽略了行业分类可能涉及到的其他重要因素;依赖于阈值和专家经验的分类方法可能导致分类的精度不足;行业的能耗和排放情况可能会随着技术的进步和政策的变化而发生变化。传统的分类方法通常缺乏动态的调整和更新机制,无法及时反映这些变化;基于数据挖掘和机器学习的分类方法,可能受到数据质量的影响,数据的准确性、完整性和时效性是影响分类结果的关键因素。


技术实现思路

1、本专利技术为了解决上述问题,提供了一种基于知识图谱增强的企业行业分类方法及系统,所述方案基于文本处理、实体链接、知识图谱与注意力机制的结合,构建了基于知识图谱增强的分类模型,实现了自动化的企业所属的行业分类,相对于传统的基于阈值或专家经验的方法,所述方案更加客观和准确,减少了主观性和误差,提高了分类的可靠性;同时,所述方案能够动态更新知识图谱和分类模型,以适应行业变化,随着新的数据和信息不断涌现,所述方案中的分类模型可以及时地调整和更新,从而更好地反映当前行业情况。与传统方法中静态的分类标准相比,更具适应性和精确性。

2、根据本专利技术实施例的第一个方面,提供了一种基于知识图谱增强的企业行业分类方法,包括:

3、获取待分类企业的行业分类相关数据并进行相应预处理,其中,所述行业分类相关数据包括企业名称、企业经营范围以及企业经营特点;

4、基于预处理的行业分类相关数据,利用预先训练的基于深度学习的行业分类模型,获得企业所属类别的分类结果;其中,所述行业分类模型具体执行如下过程:对于待分类企业的行业分类相关数据进行文本拆分,获得短句集合;基于短句集合中的句子与预先构建的知识图谱中实体的链接结果,对短句集合中的句子添加标签;利用预训练自然语言模型对添加标签的句子进行特征提取;采用基于注意力机制的知识融合策略对提取的句子特征进行融合;以所述融合特征作为预先训练的分类器的输入,获得企业的分类类别。

5、进一步的,所述行业分类模型包括用于特征提取的预训练自然语言模型bert模型、基于注意力机制的知识融合模块以及分类器,其中,所述bert模型的输出句子特征作为知识融合模块的输入,知识融合模块输出的融合特征作为分类器的输入获得企业的行业分类结果。

6、进一步的,所述bert模型的输出句子特征作为知识融合模块的输入,具体为:将bert模型的输出特征依次经线性层和激活函数,将激活函数的输出结果输入softmax函数进行归一化处理,获得当前句子链接成功的概率;基于短句集合中概率值满足预设要求的句子向量作为知识融合模块的输入。

7、进一步的,所述基于注意力机制的知识融合策略,具体表示如下:

8、

9、

10、

11、其中,vdoc为由短句集合中所有句子特征向量相加求平均后得到的文本向量;voutput为经过知识融合模块后得到的输出向量;vi为此向量集中第i个句向量;w为随机初始化的全连接层,d为词向量维度,为注意力模型计算的缩放因子。

12、进一步的,所述知识图谱的构建,具体为:获取行业分类相关的文本数据,构建数据集;将获取的数据集中的文本数据进行分词和停用词处理后,进行多级实体以及实体之间关系的定义;通过抽取实体之间的关系,实现知识图谱的构建。

13、进一步的,所述知识图谱基于待分类企业的分类数据进行周期性更新,且所述行业分类模型基于增量学习和梯度优化方法进行模型的动态更新。

14、进一步的,所述预训练自然语言模型具体采用bert模型;

15、或,所述分类器包括顺序链接的全连接层和softmax函数。

16、根据本专利技术实施例的第二个方面,提供了一种基于知识图谱增强的企业行业分类系统,包括:

17、数据获取单元,其用于获取待分类企业的行业分类相关数据并进行相应预处理,其中,所述行业分类相关数据包括企业名称、企业经营范围以及企业经营特点;

18、行业分类单元,其用于基于预处理的行业分类相关数据,利用预先训练的基于深度学习的行业分类模型,获得企业所属类别的分类结果;其中,所述行业分类模型具体执行如下过程:对于待分类企业的行业分类相关数据进行文本拆分,获得短句集合;基于短句集合中的句子与预先构建的知识图谱中实体的链接结果,对短句集合中的句子添加标签;利用预训练自然语言模型对添加标签的句子进行特征提取;采用基于注意力机制的知识融合策略对提取的句子特征进行融合;以所述融合特征作为预先训练的分类器的输入,获得企业的分类类别。

19、根据本专利技术实施例的第三个方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上运行的计算机程序,所述处理器执行所述程序时实现所述的一种基于知识图谱增强的企业行业分类方法。

20、根据本专利技术实施例的第四个方面,提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述的一种基于知识图谱增强的企业行业分类方法。

21、与现有技术相比,本专利技术的有益效果是:

22、(1)本专利技术提供了一种基于知识图谱增强的企业行业分类方法及系统,所述方案基于文本处理、实体链接、知识图谱与注意力机制的结合,构建了基于知识图谱增强的分类模型,实现了自动化的企业所属的行业分类,相对于传统的基于阈值或专家经验的方法,所述方案更加客观和准确,减少了主观性和误差,提高了分类的可靠性。

23、(2)所述方案能够动态更新知识图谱和分类模型,以适应行业变化,随着新的数据和信息不断涌现,所述方案中的分类模型可以及时地调整和更新,从而更好地反映当前行业情况。与传统方法中静态的分类标准相比,更具适应性和精确性。

24、(3)所述方案利用知识图谱增强技术,整合了来自多个数据源的信息,包括行业的基本信息、能耗数据本文档来自技高网...

【技术保护点】

1.一种基于知识图谱增强的企业行业分类方法,其特征在于,包括:

2.如权利要求1所述的一种基于知识图谱增强的企业行业分类方法,其特征在于,所述行业分类模型包括用于特征提取的预训练自然语言模型BERT模型、基于注意力机制的知识融合模块以及分类器,其中,所述BERT模型的输出句子特征作为知识融合模块的输入,知识融合模块输出的融合特征作为分类器的输入获得企业的行业分类结果。

3.如权利要求2所述的一种基于知识图谱增强的企业行业分类方法,其特征在于,所述BERT模型的输出句子特征作为知识融合模块的输入,具体为:将BERT模型的输出特征依次经线性层和激活函数,将激活函数的输出结果输入Softmax函数进行归一化处理,获得当前句子链接成功的概率;基于短句集合中概率值满足预设要求的句子向量作为知识融合模块的输入。

4.如权利要求1所述的一种基于知识图谱增强的企业行业分类方法,其特征在于,所述基于注意力机制的知识融合策略,具体表示如下:

5.如权利要求1所述的一种基于知识图谱增强的企业行业分类方法,其特征在于,所述知识图谱的构建,具体为:获取行业分类相关的文本数据,构建数据集;将获取的数据集中的文本数据进行分词和停用词处理后,进行多级实体以及实体之间关系的定义;通过抽取实体之间的关系,实现知识图谱的构建。

6.如权利要求1所述的一种基于知识图谱增强的企业行业分类方法,其特征在于,所述知识图谱基于待分类企业的分类数据进行周期性更新,且所述行业分类模型基于增量学习和梯度优化方法进行模型的动态更新。

7.如权利要求1所述的一种基于知识图谱增强的企业行业分类方法,其特征在于,所述预训练自然语言模型具体采用BERT模型;

8.一种基于知识图谱增强的企业行业分类系统,其特征在于,包括:

9.一种电子设备,包括存储器、处理器及存储在存储器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述的一种基于知识图谱增强的企业行业分类方法。

10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一项所述的一种基于知识图谱增强的企业行业分类方法。

...

【技术特征摘要】

1.一种基于知识图谱增强的企业行业分类方法,其特征在于,包括:

2.如权利要求1所述的一种基于知识图谱增强的企业行业分类方法,其特征在于,所述行业分类模型包括用于特征提取的预训练自然语言模型bert模型、基于注意力机制的知识融合模块以及分类器,其中,所述bert模型的输出句子特征作为知识融合模块的输入,知识融合模块输出的融合特征作为分类器的输入获得企业的行业分类结果。

3.如权利要求2所述的一种基于知识图谱增强的企业行业分类方法,其特征在于,所述bert模型的输出句子特征作为知识融合模块的输入,具体为:将bert模型的输出特征依次经线性层和激活函数,将激活函数的输出结果输入softmax函数进行归一化处理,获得当前句子链接成功的概率;基于短句集合中概率值满足预设要求的句子向量作为知识融合模块的输入。

4.如权利要求1所述的一种基于知识图谱增强的企业行业分类方法,其特征在于,所述基于注意力机制的知识融合策略,具体表示如下:

5.如权利要求1所述的一种基于知识图谱增强的企业行业分类方法,其特征在于,所述知识图谱...

【专利技术属性】
技术研发人员:常英贤樊静雨谭虎荣俊兴王冰洁王振坤陈琛凌霄张发才杨冉昕李佳
申请(专利权)人:国网山东省电力公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1