基于知识图谱的国民经济行业分类方法和系统技术方案

技术编号:30022372 阅读:47 留言:0更新日期:2021-09-11 06:45
本发明专利技术公开了基于知识图谱的国民经济行业分类方法及系统,其中涉及的基于知识图谱的国民经济行业分类方法,包括:S1.获取与各个行业产品相对应的原始数据,并利用识别算法将获取的原始数据转换为文本信息;S2.利用hanLP工具转换后的文本信息分词、标注处理,对分词、标注后的文本信息中的产品进行识别,得到产品的文本信息;S3.利用hanLP工具、TF

【技术实现步骤摘要】
基于知识图谱的国民经济行业分类方法和系统


[0001]本专利技术涉及行业分类的
,尤其涉及基于知识图谱的国民经济行业分类方法和系统。

技术介绍

[0002]最新的中华人民共和国国家标准

国民经济行业分类按照门、大类、中类、小类共分为1381种,但是现实社会中创造的产品,涉及的经济活动,关联的行业有上百千万种,如果想要将一件具体产品,或经济活动划分到某一行业是存在一定的困难。知识图谱这项技术能够将搜索结果进行结构化的展示,旨在提高用户的搜索质量改善用户的搜索体验。领域知识图谱聚焦于某一特定领域,对该领域知识的深度和精度都有很高的要求。
[0003]因此,为了解决社会上具体产品,涉及的经济活动无法与国标行业一一对应问题,结合知识图谱结构化展示知识的特点,在调研行业分类的基础上构建了国民经济行业知识图谱(KG)。国民经济行业知识图谱构建结果显示能够对产品进行较为准确分类,实现了对社会上产品的结构结构化展现。从现实应用的视角看待国民经济行业分类知识图谱可以简单的认为它就是一个多关系图。

技术实现思路

[0004]本专利技术的目的是针对现有技术的缺陷,提供了基于知识图谱的国民经济行业分类方法和系统,可以将一个个具体产品匹配到最合适的行业,然后构建图谱并进行结构化的展示。
[0005]为了实现以上目的,本专利技术采用以下技术方案:
[0006]基于知识图谱的国民经济行业分类方法,包括:
[0007]S1.获取与各个行业产品相对应的原始数据,并利用识别算法将获取的原始数据转换为文本信息;
[0008]S2.利用hanLP工具转换后的文本信息分词、标注处理,对分词、标注后的文本信息中的产品进行识别,得到产品的文本信息;
[0009]S3.利用hanLP工具、TF

IDF工具对产品文本信息中的关键词进行识别提取;
[0010]S4.利用BERT方法将提取的关键词转换为词向量,并采用余弦函数基于预制定行业规则计算词向量与行业的相似度,并将产品与行业进行匹配;
[0011]S5.构建产品与行业匹配后的知识图谱。
[0012]进一步的,所述步骤S3具体为:
[0013]S31.利用hanLP工具对产品文本信息中的关键字进行初步提取;
[0014]S32.利用TF

IDF工具对提取的关键字进行过滤,得到过滤后的关键词。
[0015]进一步的,所述步骤S32中利用TF

IDF对关键字过滤,表示为:
[0016][0017]其中,count(w)表示关键词w出现的次数;|D
i
|表示文档D
i
中所有词的数量;N表示所有文档总数;I(w,D
i
)表示文档D
i
中是否存在关键字。
[0018]进一步的,所述步骤S4具体为:
[0019]S41.制定行业匹配规则,利用Bert方法将提取的关键词转换为词向量,并采用余弦函数计算词向量与行业的相似度;其中,行业匹配规则包括基于行业分类架构的评估、关键字的权重规则;
[0020]S42.对产品与行业进行精准匹配;其中,精准匹配是存在产品与行业完全匹配的情况;
[0021]S43.对产品与行业进行模糊匹配;其中,模糊匹配是不存在产品与行业完全匹配的情况。
[0022]进一步的,所述步骤S41中基于行业分类架构的评估、关键字的权重规则的匹配,表示为:
[0023][0024]其中,INDUSTRY
i
和INDUSTRY
j
分别表示同一关键字匹配到的不同门类的行业;K
i+1
Num表示INDUSTRY
i
行业的次级行业中包含这一关键字的行业的数量;K
j+1
Num代表INDUSTRY
j
行业的次级行业中包含这一关键字的行业的数量;W
i
表示INDUSTRY
i
与INDUSTRY
j
的权重之差。
[0025]进一步的,所述步骤S41中采用余弦函数计算词向量与行业的相似度,表示为:
[0026][0027]其中,cos(θ)表示相似度;A表示产品的关键字的词向量;B表示行业的关键字的词向量;X
i
表示产品关键字词向量的分量;Y
i
表示行业关键字词向量的分量;n表示词向量的维度。
[0028]进一步的,所述步骤S43中的产品包括单关键字类型的产品和双关键字类型的产品,其中双关键字类型的产品进行行业匹配,表示为:
[0029][0030]其中,match(Ki)表示根据关键字Ki进行行业匹配;S
i
表示进行行业匹配后得到的结果集;
[0031]T
i
[match(K
i
),K
j
],i,j=1,2&&i!=j
[0032]其中,T
i
表示将两个行业进行交叉匹配,得到两个行业中包含对方关键字的行业集合;K
j
表示关键字;K
j
表示关键字;i,j=1,2&&i!=j表示约束条件i,j等于1或者2并且i不等于j;
[0033]Target=match(K1+K2,T
i
),i=1,2
[0034]其中,Target表示将两个相关度最高的行业与产品进行匹配后得到的相关度最高
的结果。
[0035]进一步的,所述步骤S43中进行模糊匹配还包括语义理解问题,对语义理解问题的匹配,表示为:
[0036]Target=S1∪S2

T1∪T2
[0037]其中,Target表示将两个相关度最高的行业与产品进行匹配后得到的相关度最高的结果。
[0038]进一步的,所述步骤S5中构建知识图谱具体为:
[0039]S51.构建知识图谱的模式层;
[0040]S52.构建是指图谱的数据层。
[0041]相应的,还提供基于知识图谱的国民经济行业分类系统,包括:
[0042]获取模块,用于获取与各个行业产品相对应的原始数据,并利用识别算法将获取的原始数据转换为文本信息;
[0043]处理模块,用于利用hanLP工具转换后的文本信息分词、标注处理,对分词、标注后的文本信息中的产品进行识别,得到产品的文本信息;
[0044]提取模块,用于利用hanLP工具、TF

IDF工具对产品文本信息中的关键词进行识别提取;
[0045]匹配模块,用于利用BERT方法将提取的关键词转换为词向量,并采用余弦函数基于预制定行业规则计算词向量与行业的相似度,并将产品与行业进行匹配;
[0046]构本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于知识图谱的国民经济行业分类方法,其特征在于,包括:S1.获取与各个行业产品相对应的原始数据,并利用识别算法将获取的原始数据转换为文本信息;S2.利用hanLP工具转换后的文本信息分词、标注处理,对分词、标注后的文本信息中的产品进行识别,得到产品的文本信息;S3.利用hanLP工具、TF

IDF工具对产品文本信息中的关键词进行识别提取;S4.利用BERT方法将提取的关键词转换为词向量,并采用余弦函数基于预制定行业规则计算词向量与行业的相似度,并将产品与行业进行匹配;S5.构建产品与行业匹配后的知识图谱。2.根据权利要求1所述的基于知识图谱的国民经济行业分类方法,其特征在于,所述步骤S3具体为:S31.利用hanLP工具对产品文本信息中的关键字进行初步提取;S32.利用TF

IDF工具对提取的关键字进行过滤,得到过滤后的关键词。3.根据权利要求2所述的基于知识图谱的国民经济行业分类方法,其特征在于,所述步骤S32中利用TF

IDF对关键字过滤,表示为:其中,count(w)表示关键词w出现的次数;|D
i
|表示文档D
i
中所有词的数量;N表示所有文档总数;I(w,D
i
)表示文档D
i
中是否存在关键字。4.根据权利要求1所述的基于知识图谱的国民经济行业分类方法,其特征在于,所述步骤S4具体为:S41.制定行业匹配规则,利用Bert方法将提取的关键词转换为词向量,并采用余弦函数计算词向量与行业的相似度;其中,行业匹配规则包括基于行业分类架构的评估、关键字的权重规则;S42.对产品与行业进行精准匹配;其中,精准匹配是存在产品与行业完全匹配的情况;S43.对产品与行业进行模糊匹配;其中,模糊匹配是不存在产品与行业完全匹配的情况。5.根据权利要求4所述的基于知识图谱的国民经济行业分类方法,其特征在于,所述步骤S41中基于行业分类架构的评估、关键字的权重规则的匹配,表示为:其中,INDUSTRY
i
和INDUSTRY
j
分别表示同一关键字匹配到的不同门类的行业;K
i+1
Num表示INDUSTRY
i
行业的次级行业中包含这一关键字的行业的数量;K
j+1
Num代表INDUSTRY
j
行业的次级行业中包含这一关键字的行业的数量;W
i
表示INDUSTRY
i
与INDUSTRY
j
的权重之差...

【专利技术属性】
技术研发人员:季白杨唐光忍
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1