当前位置: 首页 > 专利查询>同济大学专利>正文

一种基于聚类的专利地图制作与表示方法技术

技术编号:27832464 阅读:30 留言:0更新日期:2021-03-30 11:43
本发明专利技术提出了一种基于聚类的专利地图制作与表示方法,采用文本挖掘技术提取特征并将非结构化的专利文本信息映射到低维空间中,采用CFSFDP算法进行聚类,结合非结构化信息对同一聚类中的专利文本的特征进行分析,从而得到以有向图表示的专利地图,得到的结果能够更为真实准确地反映目标技术领域的技术发展过程。真实准确地反映目标技术领域的技术发展过程。真实准确地反映目标技术领域的技术发展过程。

【技术实现步骤摘要】
一种基于聚类的专利地图制作与表示方法


[0001]本专利技术涉及专利地图制作领域,具体涉及一种基于聚类算法的专利地图制作与表示技术。

技术介绍

[0002]专利地图是一种呈现和总结各种专利相关资讯和信息的形式,即对目标领域的专利信息进行统计分析与剖析整理,将结果制作成具有类似地图指向功能的图表信息。与其他专利管理分析方法相比,专利地图更具综合性,其表现形式也使其更为直观全面,从分析与利用上来说也更为便捷高效。专利地图能够为企业指明技术发展方向,帮助企业分析总结技术的分布态势以及使用情况,从而帮助企业及时进行有效的知识产权管理和进行技术创新。
[0003]专利地图起源于上世纪60年代的日本,在日本得到了广泛而有效的运用。随后这一技术也传入了韩国、美国、新加坡等地,得到了普遍的应用,而我国对其研究与应用均较少,不利于我国专利技术和产业的发展。造成这种情况的原因一方面在于对其重视程度不够,另一方面也是因为专利地图的制作技术难度。
[0004]专利地图涉及到的信息量巨大,整理分析制作异常繁琐,对于普通企业而言这样的任务难以完成。
[0005]本领域,目前的专利地图制作方法主要为,先根据需要进行专利分析的项目领域制定相关搜索策略,通过该策略对专利管理图、专利技术图、专利权限图等资料进行地毯式检索、比对、排查,最终汇总为专利地图,依赖于人工,耗时耗力;此外专利地图的制作过程与表现形式上均未充分利用结构化项目与非结构化项目,只通过其中一种制作专利地图,没有使用另一种或只在完成的专利地图上添注另一种信息。为此,本专利技术提出基于文本挖掘与聚类的方法,智能化地分析专利文本信息,并结合结构化信息构建更准确更丰富地专利地图。

技术实现思路

[0006]鉴于现有的专利地图制作方式对非结构信息的利用依赖于人工分析,缺少智能化、自动化分析手段;专利地图可视化呈现形式局限,无法同时充分利用结构化信息与非结构化信息。本专利技术提出一种基于聚类的专利地图制作与表示方法。本专利技术的目的是提出一种专利地图制作与表现方式,通过文本挖掘的方法利用专利文本信息构建专利向量空间模型,通过CFSFDP聚类算法得到具有相似关键词组成的一系列专利,并通过分析同一聚类内的专利关键词异同,结合非结构化项目构建以有向图表示的专利地图。
[0007]技术方案:
[0008]一种基于聚类的专利地图制作与表示方法,其特征在于,为实现上述过程本专利技术的具体步骤为:
[0009]步骤1,获得目标领域专利文本数据:
[0010]确定目标发展领域,制定相关检索策略,举例而非限定,例如关键词、检索领域范围等进行检索,获得相应的专利文本资料。
[0011]步骤2,专利文本关键词提取:
[0012]根据步骤1中检索得到的专利文本,通过计算TF

IDF(term frequency

inverse document frequency)特征提取关键词,并得到每个关键词对于各专利文本的重要程度。
[0013]步骤3,专利向量空间模型与距离定义:
[0014]根据步骤2中提取得到的专利文本关键词及其与各专利文本间的关系,构建以关键词表示的专利文本向量空间,并定义该空间中的距离度量,以衡量专利文本间的相似程度。
[0015]步骤4,CFSFDP算法聚类:
[0016]通过CFSFDP聚类算法,对步骤3中得到空间模型中的专利文本向量进行聚类中心选取与聚类划分,使具有相似的专利技术、创新方向等的专利文本聚在同一类。
[0017]步骤5,构建以有向图表示的专利地图:
[0018]根据步骤4中得到的同一聚类内各专利文本关键词信息的异同,结合结构化的专利申请时间信息,构建能够表述技术发展与创新方向的专利地图。
[0019]本专利技术的有益效果:
[0020]本专利技术通过文本挖掘方法智能化地从非结构化的专利文本中提取关键词信息,针对专利文本在构建的向量空间中的分布特点,选取了适合的CFSFDP聚类算法进行聚类,制作过程中同时利用了专利文本间的语义关联与结构化信息,在专利地图的表达方式进行了创新,以不同于传统图表的更为自由、包含更多信息的形式呈现。
附图说明
[0021]图1是本专利技术方法的总流程图。
具体实施方式
[0022]下面结合附图和具体实施方式对本专利技术进行详细说明。
[0023]总流程如图1所示。
[0024]以下对各个重要步骤进行详细介绍。
[0025]1.获得目标领域专利文本数据。
[0026]确定目标发展领域,制定相关检索策略,如关键词、检索领域范围等进行检索,获得相应的非结构化专利文本资料作为目标专利文本库,以及对应的专利申请人、申请时间等结构化信息。
[0027]2.专利文本关键词提取:
[0028]记步骤1中得到的目标专利文本库为D={d
i
},其中为文本库中一篇具体的专利文本,由若干词t组成,其中词t
i
在专利文本d
j
中出现的次数记为N
i,j
,据此计算每篇专利文本中每个词的词频(term frequency,TF)与逆文本频率(inverse document frequency,IDF),并得到最终的TF

IDF值:
[0029][0030][0031][0032]词t
k
在专利文本d
j
中出现的次数记为N
k,j
,对于所有的词t
i
,按其对所有文件的TF

IDF最大值,即进行降序排序,取前n个词作为关键词,记为keyword
i
,i=1,2,

,n。这n个词包含了整个专利文本库中的重要关键词,包括专利关键技术、专利创新针对的主体等等,用于步骤3中的模型定义。
[0033]3.专利向量空间模型与距离定义:
[0034]根据步骤2中得到的n个关键词以及对应的TF

IDF值,将各专利文本映射为n维空间中的向量,对于每篇专利文本d
j
,以如下的n维向量表示
[0035]D
j
=(x
j1
,x
j2
,...,x
jn
)
[0036]其中
[0037]x
jk
=TF

IDF
i,j
,i满足keyword
k
=t
i
[0038]定义两篇专利文本间的距离为其向量表示的欧氏距离。在考虑文本间的距离关系时,只考虑文本中各关键词的分布情况,因此需先将其归一化:
[0039][0040]从而专利d
i
与d
j
间的距离定义为:
[0041][0042]该距离定义用于步骤4中的聚类。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于聚类的专利地图制作与表示方法,其特征在于,步骤为:步骤1,获得目标领域专利文本数据:制定检索策略进行检索,获得相应的专利文本资料;步骤2,专利文本关键词提取:根据步骤1中检索得到的专利文本,通过计算TF

IDF(term frequency

inverse document frequency)特征提取关键词,并得到每个关键词对于各专利文本的重要程度;步骤3,专利向量空间模型与距离定义:根据步骤2中提取得到的专利文本关键词及其与各专利文本间的关系,构建以关键词表示的专利文本向量空间,并定义该空间中的距离度量,以衡量专利文本间的相似程度;步骤4,CFSFDP算法聚类:通过CFSFDP聚类算法,对步骤3中得到空间模型中的专利文本向量进行聚类中心选取与聚类划分,使具有相似专利文本聚在同一类;步骤5,构建以有向图表示的专利地图:根据步骤4中得到的同一聚类内各专利文本关键词信息的异同,结合结构化的专利申请时间信息,构建能够表述技术发展与创新方向的专利地图。2.如权利要求1所述的方法,其特征在于,记步骤1中得到的目标专利文本库为D={d
i
},其中为文本库中一篇具体的专利文本,由若干词t组成,其中词t
i
在专利文本d
j
中出现的次数记为N
i,j
,据此计算每篇专利文本中每个词的词频(term frequency,TF)与逆文本频率(inverse document frequency,IDF),并得到最终的TF

IDF值:IDF值:IDF值:词t
k
在专利文本d
j
中出现的次数记为N
k,j
,对于所有的词t
i
,按其对所有文件的TF

IDF最大值,即进行降序排序,取前n个词作为关键词,记为keyword
i
,i=1,2,

,n;这n个词包含了整个专利文本库中的重要关键词,用于步骤3中的模型定义。3.如权利要求1所述的方法,其特征在于,步骤3中专利向量空间模型与距离定义:根据步骤2中得到的n个关键词以及对应的TF

IDF值,将各专利文本映射为n维空间中的向量,对于每篇专利文本d
j
,以如下的n维向量表示D
j
=(x
j1
,x
j2


,x
jn
)其中x
jk
=TF

IDF
i,j
,i满足keyword
k
=t
i
定义两篇专利文本间的距离为其...

【专利技术属性】
技术研发人员:陈宇飞黄柏如柳先辉赵卫东
申请(专利权)人:同济大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1