一种基于Simhash模型的专利相关度判定方法,包括:根据技术主题范围确定专利检索式;用确定的专利检索式从数据库得到相应技术主题范围对应的所有专利检索文本;对得到的每条专利检索文本进行结巴分词,删除停用词、去标点符号、Python同义词归一化处理,提取专利检索文本中n个特征词,建立每条专利检索文本对应的数据特征集;采用Simhash算法对得到的每条专利检索文本的数据特征集进行处理,得到每条专利检索文本相应的签名;根据异或规则,计算每条专利检索文本的签名之间的海明距离,根据海明距离判定专利检索文本之间的相关度。本发明专利技术方法通过数据挖掘技术来获取大量专利数据中原来无法挖掘到的内容和规律,节约人工阅读时间并提高专利相关性判定准确性。时间并提高专利相关性判定准确性。时间并提高专利相关性判定准确性。
【技术实现步骤摘要】
一种基于Simhash模型的专利相关度判定方法
[0001]本专利技术涉及专利信息处理
,特别是涉及一种基于Simhash模型的专利相关度判定方法。
技术介绍
[0002]随着科技的发展,知识产权保护越来越受到企业的关注,专利作为知识产权保护最重要的载体,各个企业为防范知识产权重大风险,提高企业知识产权风险预测预警和防控能力,针对不同的
建设专利预警系统,对于专利预警系统的建设而言,分析已有的专利数据样本是一项很重要的工作,在专利数据样本分析的过程中,要将本企业的专利技术特征与相关领域专利技术特征进行比较,寻找侵权的可能性。目前,并没有专业的软件对专利样本所述的
技术实现思路
进行自动比对,大部分工作由人工完成,工作量大,效率低,易出错。
[0003]基于此,有必要提供一种新的专利相关度判定方法解决上述问题。
技术实现思路
[0004]针对现有技术中存在的不足,本专利技术的目的在于提供一种基于Simhash模型的专利相关度判定方法,采用Simhash模型计算专利之间的相似性,通过计算机实现专利之间的自动比对,提高了工作效率和准确性。
[0005]为了实现上述目的,本专利技术提供的技术方案是:
[0006]一种基于Simhash模型的专利相关度判定方法,包括以下步骤:
[0007]步骤1:根据技术主题范围确定专利检索式;
[0008]步骤2:用确定的专利检索式从数据库得到相应技术主题范围对应的所有专利检索文本;
[0009]步骤3:对得到的每条专利检索文本进行结巴分词(jieba),删除停用词、去标点符号、Python同义词归一化处理,提取专利检索文本中n个特征词,建立每条专利检索文本对应的数据特征集;
[0010]步骤4:采用Simhash算法对得到的每条专利检索文本的数据特征集进行处理,得到每条专利检索文本相应的签名;
[0011]步骤5:根据异或规则,计算每条专利检索文本的签名之间的海明距离,根据海明距离判定专利检索文本之间的相关度。
[0012]在一些实施例中,专利检索式包括关键词、IPC分类号、CPC分类号和申请人。
[0013]在一些实施例中,采用Simhash算法对得到的每条专利检索文本的数据特征集进行处理,得到每条专利检索文本相应的签名,包括:
[0014]根据每条专利检索文本中特征词出现的次数计算每个特征词的权值,运用Simhash算法形成每个特征词对应的签名;将每个特征词对应的签名和相对应的权值相乘,得到特征词的特征向量;然后将所有特征词对应的特征向量相加,得到一个最终向量;通过
01降维,最后得到每条专利检索文本的simhash值。
[0015]在一些实施例中,每个特征词的权值计算公式为:
[0016][0017]其中,W
v
表示特征词v的权值,n
ij
表示特征词v在专利检索文本d
j
中出现的次数,∑
k
n
k,j
表示在专利检索文本d
j
中所有特征词的出现次数之和,A表示相应技术主题范围对应的所有专利检索文本数量,M表示相应技术主题范围对应的所有专利检索文本中包含特征词v的专利检索文本的数量。
[0018]在一些实施例中,01降维是指,采用Simhash算法对得到的每条专利检索文本的数据特征集进行处理的过程中,对最终向量中对应的每一位数,若大于0,则取1,若小于0,则取0,得到每条专利检索文本的simhash值。
[0019]在一些实施例中,根据异或规则,计算每条专利检索文本的签名之间的海明距离,根据海明距离判定专利检索文本之间的相关度,包括:计算每两条专利检索文本的各自simhash值相对位置不相同的个数,根据相对位置不相同的个数判断每两条专利检索文本之间的相关度。
[0020]在一些实施例中,根据相对位置不相同的个数判断每两条专利检索文本之间的相关度包括:如果相对位置不相同的个数大于3,则判定为高相关专利,如果相对位置不相同的个数小于3,则判定为低相关专利。
[0021]在一些实施例中,数据库为智慧芽。
[0022]在一些实施例中,对得到的每条专利检索文本进行结巴分词(jieba),删除停用词、去标点符号、Python同义词归一化处理,步骤为:依次进行结巴分词、删除停用词、去标点符号、Python同义词归一化处理。
[0023]在一些实施例中,特征词是计算机提取出来的,n与专利检索文本有关。
[0024]本专利技术的有益效果为:
[0025]本专利技术的基于Simhash模型的专利相关度判定方法,通过数据挖掘技术来代替现有的传统专利分析方法,用Simhash算法获取大量专利数据中原来无法挖掘到的内容和规律,充分发挥了数据挖掘技术应用在专利分析中的作用;通过对专利数据进行分词、提取特征词并建立特征词权值模型,同时结合Simhash算法对专利进行相关度分析,筛选出高相关专利,在企业知识产权保护工作中节约了大量人工阅读的时间并提高了专利相关性判定的准确性。
附图说明
[0026]图1显示本专利技术的基于Simhash模型的专利相关度判定方法的流程图;
[0027]图2显示本专利技术的基于Simhash模型的专利相关度判定方法的实施例的示意图。
具体实施方式
[0028]为了使本专利技术的目的、技术方案及优点更加清楚明白,下面结合实施例及附图,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不
用于限定本专利技术。
[0029]本专利技术提供的基于Simhash模型的专利相关度判定方法,如图1所示,包括以下步骤:
[0030]步骤1:根据技术主题范围确定专利检索式;
[0031]步骤2:用确定的专利检索式从数据库得到相应技术主题范围对应的所有专利检索文本;
[0032]步骤3:对得到的每条专利检索文本进行结巴分词(jieba),删除停用词、去标点符号、Python同义词归一化处理,提取专利检索文本中n个特征词,建立每条专利检索文本对应的数据特征集;
[0033]步骤4:采用Simhash算法对得到的每条专利检索文本的数据特征集进行处理,得到每条专利检索文本相应的签名;
[0034]步骤5:根据异或规则,计算每条专利检索文本的签名之间的海明距离,根据海明距离判定专利检索文本之间的相关度。
[0035]在一些实施例中,专利检索式包括关键词、IPC(国际专利分类)分类号、CPC(联合专利分类)分类号和申请人。针对技术主题范围,通过关键词、IPC分类号、CPC分类号、申请人确定专利检索式。
[0036]在一些实施例中,用确定的专利检索式从数据库得到相应技术主题范围对应的所有专利检索文本,是利用确定的专利检索式在数据库中进行检索以得到所需要分析的专利检索文本。数据库可以为智慧芽(PatSnap)。
[0037]在一些实施例中,对得到的本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于Simhash模型的专利相关度判定方法,其特征在于,包括以下步骤:步骤1:根据技术主题范围确定专利检索式;步骤2:用确定的专利检索式从数据库得到相应技术主题范围对应的所有专利检索文本;步骤3:对得到的每条专利检索文本进行结巴分词,删除停用词、去标点符号、Python同义词归一化处理,提取所述专利检索文本中n个特征词,建立所述每条专利检索文本对应的数据特征集;步骤4:采用Simhash算法对得到的所述每条专利检索文本的数据特征集进行处理,得到所述每条专利检索文本相应的签名;步骤5:根据异或规则,计算所述每条专利检索文本的签名之间的海明距离,根据海明距离判定所述专利检索文本之间的相关度。2.根据权利要求1所述的基于Simhash模型的专利相关度判定方法,其特征在于,所述专利检索式包括关键词、IPC分类号、CPC分类号和申请人。3.根据权利要求2所述的基于Simhash模型的专利相关度判定方法,其特征在于,所述采用Simhash算法对得到的所述每条专利检索文本的数据特征集进行处理,得到所述每条专利检索文本相应的签名,包括:根据所述每条专利检索文本中特征词出现的次数计算每个特征词的权值,运用所述Simhash算法形成所述每个特征词对应的签名;将所述每个特征词对应的签名和相对应的权值相乘,得到特征词的特征向量;然后将所有特征词对应的特征向量相加,得到一个最终向量;通过01降维,最后得到所述每条专利检索文本的simhash值。4.根据权利要求3所述的基于Simhash模型的专利相关度判定方法,其特征在于,所述每个特征词的权值计算公式为:其中,W
v
表示特征词v的权值,n
ij
表示所述特征词v在专利检索文本d
j
中出现的次数,∑
k
n
k,j
表示在...
【专利技术属性】
技术研发人员:侯腾飞,吴优,李佳,何睿,
申请(专利权)人:攀钢集团攀枝花钢铁研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。