【技术实现步骤摘要】
一种基于聚类的专利地图制作与表示方法
[0001]本专利技术涉及专利地图制作领域,具体涉及一种基于聚类算法的专利地图制作与表示技术。
技术介绍
[0002]专利地图是一种呈现和总结各种专利相关资讯和信息的形式,即对目标领域的专利信息进行统计分析与剖析整理,将结果制作成具有类似地图指向功能的图表信息。与其他专利管理分析方法相比,专利地图更具综合性,其表现形式也使其更为直观全面,从分析与利用上来说也更为便捷高效。专利地图能够为企业指明技术发展方向,帮助企业分析总结技术的分布态势以及使用情况,从而帮助企业及时进行有效的知识产权管理和进行技术创新。
[0003]专利地图起源于上世纪60年代的日本,在日本得到了广泛而有效的运用。随后这一技术也传入了韩国、美国、新加坡等地,得到了普遍的应用,而我国对其研究与应用均较少,不利于我国专利技术和产业的发展。造成这种情况的原因一方面在于对其重视程度不够,另一方面也是因为专利地图的制作技术难度。
[0004]专利地图涉及到的信息量巨大,整理分析制作异常繁琐,对于普通企业而言这样的任务难以完成。
[0005]本领域,目前的专利地图制作方法主要为,先根据需要进行专利分析的项目领域制定相关搜索策略,通过该策略对专利管理图、专利技术图、专利权限图等资料进行地毯式检索、比对、排查,最终汇总为专利地图,依赖于人工,耗时耗力;此外专利地图的制作过程与表现形式上均未充分利用结构化项目与非结构化项目,只通过其中一种制作专利地图,没有使用另一种或只在完成的专利地图上添注另一种信息。为此 ...
【技术保护点】
【技术特征摘要】
1.一种基于聚类的专利地图制作与表示方法,其特征在于,步骤为:步骤1,获得目标领域专利文本数据:制定检索策略进行检索,获得相应的专利文本资料;步骤2,专利文本关键词提取:根据步骤1中检索得到的专利文本,通过计算TF
‑
IDF(term frequency
‑
inverse document frequency)特征提取关键词,并得到每个关键词对于各专利文本的重要程度;步骤3,专利向量空间模型与距离定义:根据步骤2中提取得到的专利文本关键词及其与各专利文本间的关系,构建以关键词表示的专利文本向量空间,并定义该空间中的距离度量,以衡量专利文本间的相似程度;步骤4,CFSFDP算法聚类:通过CFSFDP聚类算法,对步骤3中得到空间模型中的专利文本向量进行聚类中心选取与聚类划分,使具有相似专利文本聚在同一类;步骤5,构建以有向图表示的专利地图:根据步骤4中得到的同一聚类内各专利文本关键词信息的异同,结合结构化的专利申请时间信息,构建能够表述技术发展与创新方向的专利地图。2.如权利要求1所述的方法,其特征在于,记步骤1中得到的目标专利文本库为D={d
i
},其中为文本库中一篇具体的专利文本,由若干词t组成,其中词t
i
在专利文本d
j
中出现的次数记为N
i,j
,据此计算每篇专利文本中每个词的词频(term frequency,TF)与逆文本频率(inverse document frequency,IDF),并得到最终的TF
‑
IDF值:IDF值:IDF值:词t
k
在专利文本d
j
中出现的次数记为N
k,j
,对于所有的词t
i
,按其对所有文件的TF
‑
IDF最大值,即进行降序排序,取前n个词作为关键词,记为keyword
i
,i=1,2,
…
,n;这n个词包含了整个专利文本库中的重要关键词,用于步骤3中的模型定义。3.如权利要求1所述的方法,其特征在于,步骤3中专利向量空间模型与距离定义:根据步骤2中得到的n个关键词以及对应的TF
‑
IDF值,将各专利文本映射为n维空间中的向量,对于每篇专利文本d
j
,以如下的n维向量表示D
j
=(x
j1
,x
j2
,
…
,x
jn
)其中x
jk
=TF
‑
IDF
i,j
,i满足keyword
k
=t
i
定义两篇专利文本间的距离为其...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。