一种检索相似专利的方法和装置制造方法及图纸

技术编号:29673387 阅读:18 留言:0更新日期:2021-08-13 21:55
本发明专利技术涉及一种检索相似专利的方法和装置,包括根据待检索专利文本中的权利要求文本,生成权利要求树状图和多个词集合,其中,权利要求树状图中的每个节点代表每一项权利要求;将每一个词集合生成对应的检索式,在专利文献库中进行检索,得到检索结果;将每一个检索结果放入权利要求树状图中对应的节点,并根据已建立的权重值模型,计算权利要求树状图中各节点对应的检索结果中的每一个专利文件与所述待检索专利文本之间的相似度值;保留各检索结果中与待检索专利文本相似度值最高的专利文件,得到待检索专利文本的相似专利文件集。本发明专利技术实现了对专利检索中的关键检索信息的检索,提高了专利检索结果的准确度,提升了用户的满意度。

【技术实现步骤摘要】
一种检索相似专利的方法和装置
本专利技术涉及计算机
,尤其涉及一种检索相似专利的方法和装置。
技术介绍
专利检索是具体查找专利说明书的渠道和方法,使企业明晰世界专利的动态、避免重复开发与资金浪费,对企业而言功劳甚大。专利研究和申请切不能存有侥幸心理,据不完全统计,各国因未查阅专利文献、使研究课题失去价值,每年造成的损失数以十亿计,间接损失就更多了。所以,专利检索对于企业的成长,对于全球生产力的节省与提高,具有举足轻重的作用。目前专利检索的常规方式主要为以匹配用户对待检索专利的描述信息进行直接匹配查找,存在检索效率低,也很难达到用户满意的检索效果,以及对用户的检索技能要求较高,容易造成关键检索信息遗漏率高,存在专利检索结果不准确的问题。
技术实现思路
本专利技术所要解决的技术问题是针对现有技术的不足,提供一种检索相似专利的方法和装置。本专利技术解决上述技术问题的技术方案如下:一种检索相似专利的方法,所述方法包括:根据待检索专利文本中的权利要求文本,生成权利要求树状图和多个词集合,其中,所述权利要求树状图中的每个节点代表每一项权利要求;将每一个所述词集合生成对应的检索式,在专利文献库中进行检索,得到检索结果;将每一个所述检索结果放入所述权利要求树状图中对应的节点,并根据已建立的权重值模型,计算所述权利要求树状图中各节点对应的检索结果中的每一个专利文件与所述待检索专利文本之间的相似度值;保留各所述检索结果中与所述待检索专利文本相似度值最高的专利文件,得到所述待检索专利文本的相似专利文件集。在上述技术方案的基础上,本专利技术还可以做如下改进。进一步地,所述根据待检索专利文本中的权利要求文本,生成权利要求树状图和多个词集合,具体包括:基于所述权利要求文本中的各条权利要求的引用关系,生成所述权利要求树状图;获取所述权利要求文本中的各条权利要求中的分词,根据所述分词之间的修饰关系,确定所述分词的级别,并根据所述分词的级别,得到各条所述权利要求对应的词集合。进一步地,所述根据所述分词之间的修饰关系,确定所述分词的级别,并根据所述分词的级别,得到各条所述权利要求对应的词集合,具体包括:获取所述分词之间的修饰关系;当第一分词是第二分词的修饰词时,则设置所述第一分词的级别高于所述第二分词的级别;抽取所述分词中级别大于预设级别的分词作为所述权利要求对应的词集合。进一步地,通过以下方法构建所述权重值模型:为所述权利要求树状图的每一层中每一个节点构建对应的词集合中各分词的权重;根据所述权利要求树状图的形状和所述各分词的权重构建所述权利要求树状图中节点的初级评分模型;利用损失函数优化初级评分模型,得到所述权重值模型。进一步地,所述将每一个所述检索结果放入所述权利要求树状图中对应的节点,并根据已建立的权重值模型,计算所述权利要求树状图中各节点对应的检索结果中的每一个专利文件与所述待检索专利文本之间的相似度值,具体包括:依据各所述节点对应的词集合中的分词,对所述待检索专利文本进行检索,得到所述检索结果,其中所述检索结果中包括至少一个专利文本;根据所述词集合,分别对所述专利文本的全文进行分词,并计算词频,得到所述专利文本的词向量;根据所述权重值模型,计算所述专利文本的词向量和所述待检索专利文本的词向量之间的相似度,得到所述相似度值。本方法专利技术的有益效果是:提出了一种检索相似专利的方法,包括根据待检索专利文本中的权利要求文本,生成权利要求树状图和多个词集合,其中,所述权利要求树状图中的每个节点代表每一项权利要求;将每一个所述词集合生成对应的检索式,在专利文献库中进行检索,得到检索结果;将每一个所述检索结果放入所述权利要求树状图中对应的节点,并根据已建立的权重值模型,计算所述权利要求树状图中各节点对应的检索结果中的每一个专利文件与所述待检索专利文本之间的相似度值;保留各所述检索结果中与所述待检索专利文本相似度值最高的专利文件,得到所述待检索专利文本的相似专利文件集。本专利技术实现了对专利检索中的关键检索信息的检索,提高了专利检索结果的准确度,提升了用户的满意度。本专利技术还解决上述技术问题的另一种技术方案如下:一种检索相似专利的装置,所述装置包括:生成模块,用于根据待检索专利文本中的权利要求文本,生成权利要求树状图和多个词集合,其中,所述权利要求树状图中的每个节点代表每一项权利要求;检索模块,用于将每一个所述词集合生成对应的检索式,在专利文献库中进行检索,得到检索结果;计算模块,用于将每一个所述检索结果放入所述权利要求树状图中对应的节点,并根据已建立的权重值模型,计算所述权利要求树状图中各节点对应的检索结果中的每一个专利文件与所述待检索专利文本之间的相似度值;确定模块,用于保留各所述检索结果中与所述待检索专利文本相似度值最高的专利文件,得到所述待检索专利文本的相似专利文件集。进一步地,所述生成模块,具体用于基于所述权利要求文本中的各条权利要求的引用关系,生成所述权利要求树状图;获取所述权利要求文本中的各条权利要求中的分词,根据所述分词之间的修饰关系,确定所述分词的级别,并根据所述分词的级别,得到各条所述权利要求对应的词集合。进一步地,所述生成模块,具体用于获取所述分词之间的修饰关系;当第一分词是第二分词的修饰词时,则设置所述第一分词的级别高于所述第二分词的级别;抽取所述分词中级别大于预设级别的分词作为所述权利要求对应的词集合。进一步地,所述计算模块,具体用于通过以下方法构建所述权重值模型:为所述权利要求树状图的每一层中每一个节点构建对应的词集合中各分词的权重;根据所述权利要求树状图的形状和所述各分词的权重构建所述权利要求树状图中节点的初级评分模型;利用损失函数优化初级评分模型,得到所述权重值模型。进一步地,所述计算模块,具体用于依据各所述节点对应的词集合中的分词,对所述待检索专利文本进行检索,得到所述检索结果,其中所述检索结果中包括至少一个专利文本;根据所述词集合,分别对所述专利文本的全文进行分词,并计算词频,得到所述专利文本的词向量;根据所述权重值模型,计算所述专利文本的词向量和所述待检索专利文本的词向量之间的相似度,得到所述相似度值。本专利技术附加的方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术实践了解到。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例所述的一种检索相似专利的方法的流程示意图;图2为本专利技术另一实施例所述的一种检索相似专利的装置的示意图。本文档来自技高网...

【技术保护点】
1.一种检索相似专利的方法,其特征在于,所述方法包括:/n根据待检索专利文本中的权利要求文本,生成权利要求树状图和多个词集合,其中,所述权利要求树状图中的每个节点代表每一项权利要求;/n将每一个所述词集合生成对应的检索式,在专利文献库中进行检索,得到检索结果;/n将每一个所述检索结果放入所述权利要求树状图中对应的节点,并根据已建立的权重值模型,计算所述权利要求树状图中各节点对应的检索结果中的每一个专利文件与所述待检索专利文本之间的相似度值;/n保留各所述检索结果中与所述待检索专利文本相似度值最高的专利文件,得到所述待检索专利文本的相似专利文件集。/n

【技术特征摘要】
1.一种检索相似专利的方法,其特征在于,所述方法包括:
根据待检索专利文本中的权利要求文本,生成权利要求树状图和多个词集合,其中,所述权利要求树状图中的每个节点代表每一项权利要求;
将每一个所述词集合生成对应的检索式,在专利文献库中进行检索,得到检索结果;
将每一个所述检索结果放入所述权利要求树状图中对应的节点,并根据已建立的权重值模型,计算所述权利要求树状图中各节点对应的检索结果中的每一个专利文件与所述待检索专利文本之间的相似度值;
保留各所述检索结果中与所述待检索专利文本相似度值最高的专利文件,得到所述待检索专利文本的相似专利文件集。


2.根据权利要求1所述的检索相似专利的方法,其特征在于,所述根据待检索专利文本中的权利要求文本,生成权利要求树状图和多个词集合,具体包括:
基于所述权利要求文本中的各条权利要求的引用关系,生成所述权利要求树状图;
获取所述权利要求文本中的各条权利要求中的分词,根据所述分词之间的修饰关系,确定所述分词的级别,并根据所述分词的级别,得到各条所述权利要求对应的词集合。


3.根据权利要求2所述的检索相似专利的方法,其特征在于,所述根据所述分词之间的修饰关系,确定所述分词的级别,并根据所述分词的级别,得到各条所述权利要求对应的词集合,具体包括:
获取所述分词之间的修饰关系;
当第一分词是第二分词的修饰词时,则设置所述第一分词的级别高于所述第二分词的级别;
抽取所述分词中级别大于预设级别的分词作为所述权利要求对应的词集合。


4.根据权利要求1所述的检索相似专利的方法,其特征在于,通过以下方法构建所述权重值模型:
为所述权利要求树状图的每一层中每一个节点构建对应的词集合中各分词的权重;
根据所述权利要求树状图的形状和所述各分词的权重构建所述权利要求树状图中节点的初级评分模型;
利用损失函数优化初级评分模型,得到所述权重值模型。


5.根据权利要求4所述的检索相似专利的方法,其特征在于,所述将每一个所述检索结果放入所述权利要求树状图中对应的节点,并根据已建立的权重值模型,计算所述权利要求树状图中各节点对应的检索结果中的每一个专利文件与所述待检索专利文本之间的相似度值,具体包括:
依据各所述节点对应的词集合中的分词,对所述待检索专利文本进行检索,得到所述检索结果,其中所述检索结果中包括至少一个专利文本;
根据所述词集合,分别对所述专利文本的全文进行分词,并计算词频,得到所述专利文本的词向量;

【专利技术属性】
技术研发人员:刘亚娟
申请(专利权)人:南京因由数字科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1