本专利提出了一种基于引用时间差和社群分类的专利评价方法,该方法首先构建专利引用网络,其次对所有节点进行无监督社群分类,并统计引用与被引专利之间的时间差,然后根据社群分类结果和引用时间差对不同的引用关系赋予不同的权重,最后使用PageRank算法在专利引用网络上迭代获得专利重要性的排序结果。本发明专利技术同现有技术相比,其优点在于:本发明专利技术采用无监督的学习和训练方法,不需要数据标注工作;本发明专利技术建立专利引用网络,从节点图结构特征出发优化PageRank算法;本发明专利技术考虑专利老化对于专利重要性的作用,排除了专利发布时间对于排序结果的影响。序结果的影响。序结果的影响。
【技术实现步骤摘要】
一种基于引用时间差和社群分类的专利评价方法
[0001]本专利技术涉及专利评价领域,具体来说是一种基于引用时间差和社群分类的专利评价方法。
技术介绍
[0002]专利作为科技成果的一种呈现形式,对企业科创能力评价有重要参考作用。一般而言,专利的评价指标包括新颖性和创造性、技术原创性和重要性、专利运用和专利保护、社会效益和行业影响力等,其中,专利被引用情况可以作为专利技术先进性和影响力的重要体现。一篇专利被较多专利引用,或被质量较高的专利引用,能够间接说明该专利的先进性。
[0003]现有的专利定量评价标准多为不同指标或属性的罗列,如专利权利要求数、同族专利数、专利权人数等,对于专利之间的相互作用,也就是专利引用的考量,基本停留在专利被引数。部分研究人员也尝试建立专利引用网络,并使用互联网链接分析领域的PageRank算法进一步分析专利之间的相互作用关系,评价专利的重要性。但是,主流的专利定量评价由于评价指标的选择具有片面性、局限性,使得评价结果不够客观,容易引起争议。PageRank算法的简单迁移,则忽视了不同引用之间重要性差异的问题;同时,专利引用网络的链接关系与网页链接关系的特性也不尽相同,例如一篇专利只能引用发布时间之前公开的专利等。
技术实现思路
[0004]本专利技术要解决的技术问题是克服现有技术的不足,提供一种借助PageRank算法,定量分析专利引用网络,从而获得专利重要性的排序结果,挖掘核心专利的专利评价方法。
[0005]为了实现上述目的,设计一种基于引用时间差和社群分类的专利评价方法,所述方法具体如下:
[0006]S1.构建全量专利引用网络,根据全量专利引用关系数据,以专利作为网络中的节点,在存在引用关系的两个节点之间构建一条从引用专利指向被引专利的有向边,形成有向图,初始状态下所有有向边的都没有权重,记该有向图的节点总数为N,边的总数为E;
[0007]S2.获得有向图的邻接矩阵A={a
ij
,i∈[0,N
‑
1],j∈[0,N
‑
1]},a
ij
=1表示从节点i出发有一条指向节点j的有向边,a
ij
=0则表示没有有向边;
[0008]S3.获得在有向图上随机游走的转移矩阵S3.获得在有向图上随机游走的转移矩阵S3.获得在有向图上随机游走的转移矩阵表示节点i随机游走到节点j的概率,定义为
[0009][0010]其中转移矩阵A
*
的每一行元素和为1;
[0011]S4.遍历有向图的所有节点,根据网络链接关系,即专利引用关系,对节点进行社群分类;S5.根据专利被引用数随引用时间差的变化关系,赋予不同的引用关系不同的权重;S6.使用PageRank算法在有向图上迭代,直至连续两次获得的各节点PageRank值差距小于10
‑
12
,将最终结果按大小降序排列获得专利重要性排名。
[0012]本专利技术还具有如下优选的技术方案:
[0013]1.所述步骤S4具体如下:S4.1使用Node2vec算法无监督地学习网络中所有节点的向量表示,在模型收敛后每个节点获得一个64维的向量作为节点的特征向量;
[0014]S4.2以节点的向量表示作为输入,使用KMeans算法对所有节点进行聚类,将节点聚类为8个社群,记每个社群为G
k
,k=1,2,...,8,每个社群的大小为N
k
,k=1,2,...,8,每个社群中边的数量为E
k
,k=1,2,...,8;
[0015]S4.3计算基于社群分类的链接权重矩阵W
c
=(A+wc)/N,其中=(A+wc)/N,其中=(A+wc)/N,其中为节点i和节点j之间边的权重,定义为
[0016][0017]2.所述步骤S5具体如下:
[0018]S5.1根据各个存在引用关系的专利之间的公开时间差,统计不同引用时间差下专利的累计被引数,除以专利引用网络中存在被引的专利数,获得不同引用时间差下专利的平均被引数;
[0019]S5.2计算基于引用时间差的链接权重矩阵S5.2计算基于引用时间差的链接权重矩阵其中
[0020]t为节点i和节点j所代表专利的公开时间差,如图3所示。该函数的特点是,当t≤36时,权重随着t变大而变大,且考虑到专利的老化因素,增加的速率逐渐变缓;当t>36时,权重为固定值。
[0021]3.所述步骤S6中每一轮迭代时,PageRank值的计算公式为
[0022][0023]其中α为阻尼系数,本专利技术中取0.85;β为节点社群属性的权重,本专利技术中取0.4。
[0024]本专利技术同现有技术相比,其优点在于:
[0025]1.本专利技术采用无监督的学习和训练方法,不需要数据标注工作;
[0026]2.本专利技术建立专利引用网络,从节点图结构特征出发优化PageRank算法;
[0027]3.本专利技术考虑专利老化对于专利重要性的作用,排除了专利发布时间对于排序结果的影响。
附图说明
[0028]图1是本专利技术的结构图;
[0029]图2是本专利技术的专利被引数随引用时间差的变化趋势图;
[0030]图3是本专利技术的链接权重函数曲线。
具体实施方式
[0031]下面结合附图对本专利技术作进一步说明,本专利技术的结构和原理对本专业的人来说是非常清楚的。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。
[0032]本专利技术提出了一种基于引用时间差和社群分类的专利评价方法,整体框架如图1所示。该方法首先构建专利引用网络,其次对所有节点进行无监督社群分类,并统计引用与被引专利之间的时间差,然后根据社群分类结果和引用时间差对不同的引用关系赋予不同的权重,最后使用PageRank算法在专利引用网络上迭代获得专利重要性的排序结果。
[0033]PageRank算法是Google创始人L.Page和S.Brin于1998年构建早期的搜索系统原型时提出的链接分析算法,用来对互联网网页进行排名。对于某个网页A来说,其PageRank值基于两点假设:一是数量假设,在万维网图模型中,一个网页收到的入链数越多,这个网页的质量就越高;二是质量假设,指向A页面的网页的质量参差不齐,质量高的网页会通过链接给其他页面传递更多的权重,因此,指向页面A的网页的质量越高,A页面的质量也就越高。专利引文网络和网页链接网络从图论的角度看均具有相同的拓扑结构,均是由节点和连接节点的边组成,节点代表个体,边代表关系,这两个网络在本质上是相似的,因此,将链接网络中的PageRank算法应用到专利引文网络中是可行的。
[0034]本专利技术的详细步骤如下:
[0035]步骤1:构建全量专利引用网络。根据2022年及之前的全量专利引用关系数据,以专利作为网络中的节点,在存在引用关系的两个节点之间构建一条本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于引用时间差和社群分类的专利评价方法,其特征在于所述方法具体如下:S1.构建全量专利引用网络,根据全量专利引用关系数据,以专利作为网络中的节点,在存在引用关系的两个节点之间构建一条从引用专利指向被引专利的有向边,形成有向图,初始状态下所有有向边的都没有权重,记该有向图的节点总数为N,边的总数为E;S2.获得有向图的邻接矩阵A={a
ij
,i∈[0,N
‑
1],j∈[0,N
‑
1]},a
ij
=1表示从节点i出发有一条指向节点j的有向边,a
ij
=0则表示没有有向边;S3.获得在有向图上随机游走的转移矩阵S3.获得在有向图上随机游走的转移矩阵S3.获得在有向图上随机游走的转移矩阵表示节点i随机游走到节点j的概率,定义为其中转移矩阵A
*
的每一行元素和为1;S4.遍历有向图的所有节点,根据网络链接关系,即专利引用关系,对节点进行社群分类;S5.根据专利被引用数随引用时间差的变化关系,赋予不同的引用关系不同的权重;S6.使用PageRank算法在有向图上迭代,直至连续两次获得的各节点PageRank值差距小于10
‑
12
,将最终结果按大小降序排列获得专利重要性排名。2.如权利要求1所述的一种基于引用时间差和社群分类的专利评价方法,其特征在于所述步骤S4具体如下:S4.1使用Node2vec算法无监督地...
【专利技术属性】
技术研发人员:王忠,李泱璇,朱泽阳,谢金浩,崔俊,黄越,
申请(专利权)人:上交所技术有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。