一种基于Simhash模型的专利相关度判定方法技术

技术编号：38126717 阅读：26 留言：0更新日期：2023-07-08 09:31

一种基于Simhash模型的专利相关度判定方法，包括：根据技术主题范围确定专利检索式；用确定的专利检索式从数据库得到相应技术主题范围对应的所有专利检索文本；对得到的每条专利检索文本进行结巴分词，删除停用词、去标点符号、Python同义词归一化处理，提取专利检索文本中n个特征词，建立每条专利检索文本对应的数据特征集；采用Simhash算法对得到的每条专利检索文本的数据特征集进行处理，得到每条专利检索文本相应的签名；根据异或规则，计算每条专利检索文本的签名之间的海明距离，根据海明距离判定专利检索文本之间的相关度。本发明专利技术方法通过数据挖掘技术来获取大量专利数据中原来无法挖掘到的内容和规律，节约人工阅读时间并提高专利相关性判定准确性。时间并提高专利相关性判定准确性。时间并提高专利相关性判定准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Simhash模型的专利相关度判定方法

[0001]本专利技术涉及专利信息处理
，特别是涉及一种基于Simhash模型的专利相关度判定方法。

技术介绍

[0002]随着科技的发展，知识产权保护越来越受到企业的关注，专利作为知识产权保护最重要的载体，各个企业为防范知识产权重大风险，提高企业知识产权风险预测预警和防控能力，针对不同的
建设专利预警系统，对于专利预警系统的建设而言，分析已有的专利数据样本是一项很重要的工作，在专利数据样本分析的过程中，要将本企业的专利技术特征与相关领域专利技术特征进行比较，寻找侵权的可能性。目前，并没有专业的软件对专利样本所述的
技术实现思路
进行自动比对，大部分工作由人工完成，工作量大，效率低，易出错。
[0003]基于此，有必要提供一种新的专利相关度判定方法解决上述问题。

技术实现思路

[0004]针对现有技术中存在的不足，本专利技术的目的在于提供一种基于Simhash模型的专利相关度判定方法，采用Simhash模型计算专利之间的相似性，通过计算机实现专利之间的自动比对，提高了工作效率和准确性。
[0005]为了实现上述目的，本专利技术提供的技术方案是：
[0006]一种基于Simhash模型的专利相关度判定方法，包括以下步骤：
[0007]步骤1：根据技术主题范围确定专利检索式；
[0008]步骤2：用确定的专利检索式从数据库得到相应技术主题范围对应的所有专利检索文本；
[0009]步骤3：对得到的每条专利检索...

【技术保护点】

【技术特征摘要】
1.一种基于Simhash模型的专利相关度判定方法，其特征在于，包括以下步骤：步骤1：根据技术主题范围确定专利检索式；步骤2：用确定的专利检索式从数据库得到相应技术主题范围对应的所有专利检索文本；步骤3：对得到的每条专利检索文本进行结巴分词，删除停用词、去标点符号、Python同义词归一化处理，提取所述专利检索文本中n个特征词，建立所述每条专利检索文本对应的数据特征集；步骤4：采用Simhash算法对得到的所述每条专利检索文本的数据特征集进行处理，得到所述每条专利检索文本相应的签名；步骤5：根据异或规则，计算所述每条专利检索文本的签名之间的海明距离，根据海明距离判定所述专利检索文本之间的相关度。2.根据权利要求1所述的基于Simhash模型的专利相关度判定方法，其特征在于，所述专利检索式包括关键词、IPC分类号、CPC分类号和申请人。3.根据权利要求2所述的基于Simhash模型的专利相关度判定方法，其特征在于，所述采用Simhash算法对得到的所述每条专利检索文本的数据特征集进行处理，得到所述每条专利检索文本相应的签名，包括：根据所述每条专利检索文本中特征词出现的次数计算每个特征词的权值，运用所述Simhash算法形成所述每个特征词对应的签名；将所述每个特征词对应的签名和相对应的权值相乘，得到特征词的特征向量；然后将所有特征词对应的特征向量相加，得到一个最终向量；通过01降维，最后得到所述每条专利检索文本的simhash值。4.根据权利要求3所述的基于Simhash模型的专利相关度判定方法，其特征在于，所述每个特征词的权值计算公式为：其中，W
v
表示特征词v的权值，n
ij
表示所述特征词v在专利检索文本d
j
中出现的次数，∑
k
n
k，j
表示在...

【专利技术属性】
技术研发人员：侯腾飞，吴优，李佳，何睿，
申请(专利权)人：攀钢集团攀枝花钢铁研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人