【技术实现步骤摘要】
基于知识图谱的国民经济行业分类方法和系统
[0001]本专利技术涉及行业分类的
,尤其涉及基于知识图谱的国民经济行业分类方法和系统。
技术介绍
[0002]最新的中华人民共和国国家标准
‑
国民经济行业分类按照门、大类、中类、小类共分为1381种,但是现实社会中创造的产品,涉及的经济活动,关联的行业有上百千万种,如果想要将一件具体产品,或经济活动划分到某一行业是存在一定的困难。知识图谱这项技术能够将搜索结果进行结构化的展示,旨在提高用户的搜索质量改善用户的搜索体验。领域知识图谱聚焦于某一特定领域,对该领域知识的深度和精度都有很高的要求。
[0003]因此,为了解决社会上具体产品,涉及的经济活动无法与国标行业一一对应问题,结合知识图谱结构化展示知识的特点,在调研行业分类的基础上构建了国民经济行业知识图谱(KG)。国民经济行业知识图谱构建结果显示能够对产品进行较为准确分类,实现了对社会上产品的结构结构化展现。从现实应用的视角看待国民经济行业分类知识图谱可以简单的认为它就是一个多关系图。
技术实现思路
[0004]本专利技术的目的是针对现有技术的缺陷,提供了基于知识图谱的国民经济行业分类方法和系统,可以将一个个具体产品匹配到最合适的行业,然后构建图谱并进行结构化的展示。
[0005]为了实现以上目的,本专利技术采用以下技术方案:
[0006]基于知识图谱的国民经济行业分类方法,包括:
[0007]S1.获取与各个行业产品相对应的原始数据,并利用识别算法将 ...
【技术保护点】
【技术特征摘要】
1.基于知识图谱的国民经济行业分类方法,其特征在于,包括:S1.获取与各个行业产品相对应的原始数据,并利用识别算法将获取的原始数据转换为文本信息;S2.利用hanLP工具转换后的文本信息分词、标注处理,对分词、标注后的文本信息中的产品进行识别,得到产品的文本信息;S3.利用hanLP工具、TF
‑
IDF工具对产品文本信息中的关键词进行识别提取;S4.利用BERT方法将提取的关键词转换为词向量,并采用余弦函数基于预制定行业规则计算词向量与行业的相似度,并将产品与行业进行匹配;S5.构建产品与行业匹配后的知识图谱。2.根据权利要求1所述的基于知识图谱的国民经济行业分类方法,其特征在于,所述步骤S3具体为:S31.利用hanLP工具对产品文本信息中的关键字进行初步提取;S32.利用TF
‑
IDF工具对提取的关键字进行过滤,得到过滤后的关键词。3.根据权利要求2所述的基于知识图谱的国民经济行业分类方法,其特征在于,所述步骤S32中利用TF
‑
IDF对关键字过滤,表示为:其中,count(w)表示关键词w出现的次数;|D
i
|表示文档D
i
中所有词的数量;N表示所有文档总数;I(w,D
i
)表示文档D
i
中是否存在关键字。4.根据权利要求1所述的基于知识图谱的国民经济行业分类方法,其特征在于,所述步骤S4具体为:S41.制定行业匹配规则,利用Bert方法将提取的关键词转换为词向量,并采用余弦函数计算词向量与行业的相似度;其中,行业匹配规则包括基于行业分类架构的评估、关键字的权重规则;S42.对产品与行业进行精准匹配;其中,精准匹配是存在产品与行业完全匹配的情况;S43.对产品与行业进行模糊匹配;其中,模糊匹配是不存在产品与行业完全匹配的情况。5.根据权利要求4所述的基于知识图谱的国民经济行业分类方法,其特征在于,所述步骤S41中基于行业分类架构的评估、关键字的权重规则的匹配,表示为:其中,INDUSTRY
i
和INDUSTRY
j
分别表示同一关键字匹配到的不同门类的行业;K
i+1
Num表示INDUSTRY
i
行业的次级行业中包含这一关键字的行业的数量;K
j+1
Num代表INDUSTRY
j
行业的次级行业中包含这一关键字的行业的数量;W
i
表示INDUSTRY
i
与INDUSTRY
j
的权重之差...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。