System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及专利检索的,特别是涉及一种用于专利检索的相似度分析方法及系统。
技术介绍
1、在专利申请之前,往往需要进行专利检索,检测有哪些与本申请类似的公开专利,并了解这些专利会不会对要申请的专利造成影响,这有助于降低专利申请被拒绝或涉及法律争议的风险,同时也有助于确定专利技术专利的创新性和市场竞争力。
2、现有的专利检索方法仅仅是将专利文件中的关键词打包作为检索对象,并未对专利文件中的关键词进行具体区分,导致无法准确识别和匹配与待检索专利文件相似或相关的专利文件。
技术实现思路
1、为解决上述技术问题,本专利技术提供一种提供更准确、全面和专业化的专利检索结果的用于专利检索的相似度分析方法。
2、第一方面,本专利技术提供了一种用于专利检索的相似度分析方法,所述方法包括:
3、获取待检索专利文件的
;并根据所述
,获取对应的
专利文件集合;
4、对待检索专利文件进行关键词提取,获得表征专利文件技术问题的一阶关键词集合和表征专利文件技术方案的二阶关键词集合;
5、计算所述
专利文件集合中各个专利文件分别与一阶关键词集合和二阶关键词集合的相似度;
6、将与一阶关键词集合相似度超过第一预设阈值的专利文件标记为一阶文件;将与二阶关键词集合相似度超过第二预设阈值的专利文件标记为二阶文件;
7、根据相似度,分别对一阶文件和二阶文件进行排序,获得一阶排名序列和二阶排名序列;
8
9、预先设定一阶排名序列和二阶排名序列对所述对比文件集合中专利文件排序的影响权重;
10、根据对比文件集合中专利文件在一阶排名序列和二阶排名序列中的排名以及影响权重,计算能够表征专利文件在所述对比文件集合中排序名次的序列指标;根据计算得到的序列指标,将所述对比文件集合中序列指标最大的专利文件作为待检索专利文件最接近的现有技术。
11、进一步地,获取对应的
专利文件集合的方法,包括:
12、定义能够反映待检索专利文件的
;
13、通过专利数据库获取到与待检索专利文件同属一个
的相关专利文件;
14、对专利数据库中获取的数据进行清洗和整理,确保数据的准确性和一致性;
15、将从专利数据库中获取的所有专利文件建立成一个集合。
16、进一步地,对所述
专利文件集合中的各个专利文件进行相似度计算的方法,包括:
17、对所述
专利文件集合中各个专利文件进行分词处理,将每个专利文件拆分成若干个关键词;
18、对所述
专利文件集合中各个专利文件的关键词进行词向量表示,将每个关键词转换成高维空间中的向量;
19、计算所述
专利文件集合中各个专利文件词向量集合与一阶关键词集合和二阶关键词集合的余弦相似度;
20、取所述
专利文件集合中各个专利文件与一阶关键词集合和二阶关键词集合的余弦相似度中的最大值,作为该专利文件与待检索专利文件的相似度。
21、进一步地,对所述
专利文件集合中的各个专利文件进行标记的方法,包括:
22、设定一阶关键词集合和二阶关键词集合与所述
专利文件集合中各个专利文件相似度的预设阈值;
23、计算得到所述
专利文件集合中各个专利文件与待检索专利文件的一阶关键词集合和二阶关键词集合的相似度;
24、根据计算相似度的结果,对第一预设阈值和第二预设阈值进行调整,使其能够反映待检索专利文件与
专利文件集合中各个专利文件的相似度情况;
25、将计算得到的相似度结果分别与对应的第一预设阈值和第二预设阈值进行比较:
26、如果
专利文件集合中的专利文件与一阶关键词集合的相似度超过第一预设阈值,则将它标记为一阶文件;如果
专利文件集合中的专利文件与二阶关键词集合的相似度超过第二预设阈值,则将它标记为二阶文件。
27、进一步地,能够表征专利文件在所述对比文件集合中排序名次的序列指标的计算公式如下:
28、ki=(ri1×w1)+(ri2×w2);
29、其中,ki表示对比文件集合中第i个专利文件的序列指标,ri1表示对比文件集合中第i个专利文件在一阶排名序列中的排名;ri2表示比文件集合中第i个专利文件在二阶排名序列中的排名;w1表示一阶排名序列对所述对比文件集合中专利文件排序的影响权重;w2表示二阶排名序列对所述对比文件集合中专利文件排序的影响权重。
30、进一步地,一阶排名序列和二阶排名序列对所述对比文件集合中专利文件排序的影响权重,需要根据以下因素进行设定:
31、重要性:基于数据分析,确定一阶关键词集合和二阶关键词集合中的关键词在描述专利
时的相对重要性;
32、特异性:一阶关键词集合和二阶关键词集合中的关键词是否在
中是独特的;其中一阶关键词集合中的关键词通用性高于二阶关键词集合中的关键词;在设置权重时,考虑一个关键词是否能够区分专利文件之间的相似性。
33、进一步地,采用word2vec模型或glove模型对每个专利文件的关键词进行词向量表示。
34、另一方面,本申请还提供了一种用于专利检索的相似度分析系统,所述系统包括:
35、领域确定模块,用于确定待检索专利文件的
,并基于确定的
,收集对应
专利文件,构成
专利文件集合;
36、关键词提取模块,用于对待检索专利文件执行关键词提取操作,获得一阶关键词集合和二阶关键词集合;所述一阶关键词集合表征专利文件的技术问题;所述二阶关键词集合表征专利文件的技术方案;
37、相似度计算模块,用于计算待检索专利文件与
专利文件集合中每个专利文件的一阶关键词集合的相似度,将相似度超过第一阈值的专利文件标记为一阶文件;同时计算待检索专利文件与
专利文件集合中每个专利文件的二阶关键词集合的相似度,将相似度超过第二阈值的专利文件标记为二阶文件;
38、排序模块,用于根据一阶文件和二阶文件的相似度,分别对一阶文件和二阶文件进行排序,生成一阶排名序列和二阶排名序列;
39、对比文件集合生成模块,用于将同时被标记为一阶文件和二阶文件的专利文件进行汇总,生成对比文件集合;
40、序列指标计算模块,用于存储一阶排名序列和二阶排名序列对所述对比文件集合中专利文件排序的影响权重;并根据专利文件在一阶排名序列和二阶排名序列中的排名以及影响权重,计算能够表征专利文件在对比文件集合中排序名次的序列指标;
41、最接近的现有技术确定模块,用于根据计算得到的序列指标,选择对比文件集合中序列指标最大的专利文件作为待检索专利文件最接近的现有技术。
4本文档来自技高网...
【技术保护点】
1.一种用于专利检索的相似度分析方法,其特征在于,所述方法包括:
2.如权利要求1所述的一种用于专利检索的相似度分析方法,其特征在于,获取对应的技术领域专利文件集合的方法,包括:
3.如权利要求1所述的一种用于专利检索的相似度分析方法,其特征在于,对所述技术领域专利文件集合中的各个专利文件进行相似度计算的方法,包括:
4.如权利要求1所述的一种用于专利检索的相似度分析方法,其特征在于,对所述技术领域专利文件集合中的各个专利文件进行标记的方法,包括:
5.如权利要求1所述的一种用于专利检索的相似度分析方法,其特征在于,能够表征专利文件在所述对比文件集合中排序名次的序列指标的计算公式如下:
6.如权利要求1所述的一种用于专利检索的相似度分析方法,其特征在于,一阶排名序列和二阶排名序列对所述对比文件集合中专利文件排序的影响权重,需要根据以下因素进行设定:
7.如权利要求3所述的一种用于专利检索的相似度分析方法,其特征在于,采用Word2Vec模型或GloVe模型对每个专利文件的关键词进行词向量表示。
8
9.一种用于专利检索的相似度分析电子设备,包括总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述收发器、所述存储器和所述处理器通过所述总线相连,其特征在于,所述计算机程序被所述处理器执行时实现如权利要求1-7中任一项所述方法中的步骤。
10.一种用于专利检索的相似度分析的存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述方法中的步骤。
...【技术特征摘要】
1.一种用于专利检索的相似度分析方法,其特征在于,所述方法包括:
2.如权利要求1所述的一种用于专利检索的相似度分析方法,其特征在于,获取对应的技术领域专利文件集合的方法,包括:
3.如权利要求1所述的一种用于专利检索的相似度分析方法,其特征在于,对所述技术领域专利文件集合中的各个专利文件进行相似度计算的方法,包括:
4.如权利要求1所述的一种用于专利检索的相似度分析方法,其特征在于,对所述技术领域专利文件集合中的各个专利文件进行标记的方法,包括:
5.如权利要求1所述的一种用于专利检索的相似度分析方法,其特征在于,能够表征专利文件在所述对比文件集合中排序名次的序列指标的计算公式如下:
6.如权利要求1所述的一种用于专利检索的相似度分析方法,其特征在于,一阶排名序列和二阶排名序列对所述对...
【专利技术属性】
技术研发人员:贺奎,陈薇,向远周,
申请(专利权)人:深圳蚁群人电子网络有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。