本发明专利技术涉及行业分类领域,具体来说是一种基于专利大数据的行业分类方法,所述方法具体如下:S1.特征提取:对专利全文进行分词处理,采用TF
【技术实现步骤摘要】
一种基于专利大数据的行业分类方法
[0001]本专利技术涉及行业分类领域,具体来说是一种基于专利大数据的行业分类方法。
技术介绍
[0002]在经济高速发展的今天,新兴产业不断涌现,高新技术不断迭代。精准的行业分类,对掌握和预测企业的发展现状和未来走势、分析和研究产业的发展规律,把握和制定国家大政方针等都具有至关重要的作用。
[0003]然而,传统的行业分类方法是通过人工的方式,对有限的数量的企业进行归类和划分。这些传统的分类方法有三点不足,第一是效率低,对一家企业的行业划分是建立在对这家企业和所属行业非常熟悉的基础之上做的判断,且仅中国工商注册企业就已达千万量级,要想通过人工的方式对千万家企业进行分类是一件完全不可能的事情。诚如现阶段应用比较广泛的证监会、申万行业分类,也仅仅只是对3000多家上市公司进行分类;其次是精准度低,现阶段的行业分类,最细不过几百类。但是,现阶段社会分工不断细化,现有的行业分类已完全无法满足社会发展的需求。且许多企业的经营范围往往涉及多个行业,人工分类难上加难;最后是门槛高,每个行业都有自己特点,尤其对于一些新兴的高新行业,存在有较高的技术壁垒,如果有上万个行业,就要有上万个行业专家,这对人工分类提出了更高的要求。
技术实现思路
[0004]本专利技术要解决的技术问题是克服现有技术的不足,提供一种基于专利数据构建数学模型,挖掘企业专利数据与企业行业分类之间存在的潜在关系,打通企业专利数据
‑
>技术方向
‑
>主营业务
‑
>行业分类的数据通道的行业分类方法,该方法分类效率高、分类精准、分类内容全面。
[0005]为了实现上述目的,设计一种基于专利大数据的行业分类方法,所述方法具体如下:
[0006]S1.特征提取:对专利全文进行分词处理,采用TF
‑
IDF算法剔除误导词;
[0007]S2.构建专利特征向量:筛选与目标企业专利相似的其他专利,每篇专利各抽取t个关键词,合并成一个向量,每篇专利对应一个向量,向量中的元素为每篇专利中每个关键词出现的频率,对词汇频率进行归一化,使用目标专利中目标关键词出现的次数与目标专利词汇总数的比例作为目标关键词的归一化值,最终,向量表述为:
[0008][0009]其中,V
j
:专利j的特征向量;
[0010]S3.计算专利相似度:筛选与目标企业的所有专利相似的其他专利,每篇专利会对应一个企业,这些企业组成了第一次过滤的集合A
[0011]S4.构建企业特征向量,将所有IPC分类的大组作为一个向量,每家企业对应一个
向量,向量中的元素为每家企业该IPC分类大组的专利数量占该企业专利总数的比值,最终,向量表述为
[0012][0013]其中,W
k
:企业k的特征向量,p
l,k
:企业k拥有属于IPC大组l的专利数量,tp
k
:企业k拥有的专利总数;
[0014]S5.技术相似度计算:对目标集合进行再次筛选,利用步骤S4中构建的企业特征向量,通过计算两个家企业的特征向量的夹角余弦值来评估他们的相似度,匹配集合A中与目标企业具有相同技术布局的企业作为最终的行业分类集合B,计算公式为:
[0015][0016]S
i,j
:企业i和企业j技术相似度,筛选S
i,j
大于0.9的企业作为最终的行业分类集合。
[0017]本专利技术还具有如下优选的技术方案:
[0018]1.所述剔除误导词的计算公式如下:
[0019][0020]其中,w
i,j
:词汇i对专利j的影响程度,数值越小,表示该词汇对该专利影响越小,视为误导词;tf
i,j
:词汇i在专利j中出现的频率;n
j
:专利j中所有词汇的总数;N:专利总数;df
i,j
:词汇i在专利库中出现的次
[0021]数,如果一个词汇在一篇专利中出现多次,统一按一次处理。
[0022]2.所述计算专利相似度方法具体如下:相似专利的筛选是通过计算两篇专利的特征向量的夹角余弦值来评估他们的相似度,余弦值范围为[0,1],即向量夹角越趋向于90
°
,则两向量越不相似,计算公式为:
[0023][0024]其中,D
i,j
为专利i和专利j相似度,筛选D
i,j
大于0.9的专利为相似专利。
[0025]3.所述步骤S1之前还包括数据清理步骤,所述数据清理步骤对数据库中专利数据进行清洗,根据工商登记数据,合并所有子企业,所有子企业专利在该方法下都计入母企业所有
[0026]本专利技术同现有技术相比,其优点在于:
[0027]1.高效,计算全程由计算机处理,无需人工参与。
[0028]2.精准,专利是企业自身最希望受到保护的知识产权,是企业赖以生存的根基,能客观反映企业的核心业务,使用专利数据来进行行业划分,能有效的保障行业分类结果的准确性;使用IPC分类大组(6000+)作为分类的原子,在结合原子之间排列组合,使得行业划分的粒度极其的细致。
[0029]3.真实性,专利的获得具有一定难度和技术壁垒,造假的概率更低,这保障了结果的真实可靠,也有效的避免的人为主观判断的影响。
[0030]4.全面,中国5000万工商注册的公司,凡是拥有专利,都能进行行业的划分,而不是如证监会、申万行业分类,只能对上市公司进行行业划分。
附图说明
[0031]图1是本专利技术的计算流程图。
具体实施方式
[0032]下面结合附图对本专利技术作进一步说明,本专利技术的结构和原理对本专业的人来说是非常清楚的。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。
[0033]本专利技术基于专利数据构建数学模型,挖掘企业专利数据与企业行业分类之间存在的潜在关系,打通企业专利数据
‑
>技术方向
‑
>主营业务
‑
>行业分类的数据通道。只需输入为一家企业名称,会输出为与这家企业具有相同定位的同行业竞争企业集合。
[0034]如图1所示,具体的计算流程如下:
[0035]第一步,数据清洗
[0036]对数据库中专利数据进行清洗,根据工商登记数据,合并所有子企业,所有子企业专利在该方法下都计入母企业所有。
[0037]第二步,特征提取
[0038]对专利全文进行分词处理,分词过程中考虑到一些如“根据”、“特征”、“优选”、“的”等一些专利常用词,它们对专利所描述的事务没有实质影响,但出现频率较高,会对特征提取造成一定的误导性影响。为了剔除误导词,采用TF
‑
IDF算法进行处理,计算公式如下:
[0本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于专利大数据的行业分类方法,其特征在于所述方法具体如下:S1.特征提取:对专利全文进行分词处理,采用TF
‑
IDF算法剔除误导词;S2.构建专利特征向量:筛选与目标企业专利相似的其他专利,每篇专利各抽取t个关键词,合并成一个向量,每篇专利对应一个向量,向量中的元素为每篇专利中每个关键词出现的频率,对词汇频率进行归一化,使用目标专利中目标关键词出现的次数与目标专利词汇总数的比例作为目标关键词的归一化值,最终,向量表述为:其中,V
j
:专利j的特征向量;S3.计算专利相似度:筛选与目标企业的所有专利相似的其他专利,每篇专利会对应一个企业,这些企业组成了第一次过滤的集合A;S4.构建企业特征向量,将所有IPC分类的大组作为一个向量,每家企业对应一个向量,向量中的元素为每家企业该IPC分类大组的专利数量占该企业专利总数的比值,最终,向量表述为其中,W
k
:企业k的特征向量,p
l,k
:企业k拥有属于IPC大组l的专利数量,tp
k
:企业k拥有的专利总数;S5.技术相似度计算:对目标集合进行再次筛选,利用步骤S4中构建的企业特征向量,通过计算两个家企业的特征向量的夹角余弦值来评估他们的相似度,匹配集合A中与目标企业具有相同技术布局的企业作为最终的行业分类集合B,计算公式为:S
i,j
【专利技术属性】
技术研发人员:李一鸣,王忠,谢金浩,余勇,费永建,
申请(专利权)人:上交所技术有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。