一种基于专利大数据的行业分类方法技术

技术编号：38757333 阅读：43 留言：0更新日期：2023-09-10 09:42

本发明专利技术涉及行业分类领域，具体来说是一种基于专利大数据的行业分类方法，所述方法具体如下：S1.特征提取：对专利全文进行分词处理，采用TF

全部详细技术资料下载

【技术实现步骤摘要】
一种基于专利大数据的行业分类方法

[0001]本专利技术涉及行业分类领域，具体来说是一种基于专利大数据的行业分类方法。

技术介绍

[0002]在经济高速发展的今天，新兴产业不断涌现，高新技术不断迭代。精准的行业分类，对掌握和预测企业的发展现状和未来走势、分析和研究产业的发展规律，把握和制定国家大政方针等都具有至关重要的作用。
[0003]然而，传统的行业分类方法是通过人工的方式，对有限的数量的企业进行归类和划分。这些传统的分类方法有三点不足，第一是效率低，对一家企业的行业划分是建立在对这家企业和所属行业非常熟悉的基础之上做的判断，且仅中国工商注册企业就已达千万量级，要想通过人工的方式对千万家企业进行分类是一件完全不可能的事情。诚如现阶段应用比较广泛的证监会、申万行业分类，也仅仅只是对3000多家上市公司进行分类；其次是精准度低，现阶段的行业分类，最细不过几百类。但是，现阶段社会分工不断细化，现有的行业分类已完全无法满足社会发展的需求。且许多企业的经营范围往往涉及多个行业，人工分类难上加难；最后是门槛高，每个行业都有自己特点，尤其对于一些新兴的高新行业，存在有较高的技术壁垒，如果有上万个行业，就要有上万个行业专家，这对人工分类提出了更高的要求。

技术实现思路

[0004]本专利技术要解决的技术问题是克服现有技术的不足，提供一种基于专利数据构建数学模型，挖掘企业专利数据与企业行业分类之间存在的潜在关系，打通企业专利数据
‑
>技术方向
‑
&g...

【技术保护点】

【技术特征摘要】
1.一种基于专利大数据的行业分类方法，其特征在于所述方法具体如下：S1.特征提取：对专利全文进行分词处理，采用TF
‑
IDF算法剔除误导词；S2.构建专利特征向量：筛选与目标企业专利相似的其他专利，每篇专利各抽取t个关键词，合并成一个向量，每篇专利对应一个向量，向量中的元素为每篇专利中每个关键词出现的频率，对词汇频率进行归一化，使用目标专利中目标关键词出现的次数与目标专利词汇总数的比例作为目标关键词的归一化值，最终，向量表述为：其中，V
j
：专利j的特征向量；S3.计算专利相似度：筛选与目标企业的所有专利相似的其他专利，每篇专利会对应一个企业，这些企业组成了第一次过滤的集合A；S4.构建企业特征向量，将所有IPC分类的大组作为一个向量，每家企业对应一个向量，向量中的元素为每家企业该IPC分类大组的专利数量占该企业专利总数的比值，最终，向量表述为其中，W
k
：企业k的特征向量，p
l,k
：企业k拥有属于IPC大组l的专利数量，tp
k
：企业k拥有的专利总数；S5.技术相似度计算:对目标集合进行再次筛选,利用步骤S4中构建的企业特征向量，通过计算两个家企业的特征向量的夹角余弦值来评估他们的相似度，匹配集合A中与目标企业具有相同技术布局的企业作为最终的行业分类集合B,计算公式为：S
i,j

【专利技术属性】
技术研发人员：李一鸣，王忠，谢金浩，余勇，费永建，
申请(专利权)人：上交所技术有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人