一种基于关键词抽取和词移距离的知识产权匹配技术制造技术

技术编号：23853111 阅读：33 留言：0更新日期：2020-04-18 09:40

本发明专利技术公开了一种基于关键词抽取和词移距离的知识产权匹配技术，包括专利文本中标记部分文本、专利标题和内容的关键词特征工程、LightGBM训练模型、通过关键词LightGBM模型抽取关键词和关键词权重，用WMD计算两个专利文本之间关键词和权重结合在一起的距离值，基于专利标题和内容的匹配方法首先提取专利和标题拼接成文本之后，用训练好的模型抽取关键词并得到关键词在文本中的权重，当计算专利的文本相似度时，将抽取的关键词和权重和另一篇专利的关键词和权重放在WMD（word mover’s distance）中计算两篇文章的相似度，相似度以两篇文章的距离值作为参考，距离值越近表示越相似，最后设定阈值将小于阈值的值排序，最后将排序的距离对应的专利推荐给搜索用户。

An intellectual property matching technology based on keyword extraction and word shift distance

全部详细技术资料下载

【技术实现步骤摘要】
一种基于关键词抽取和词移距离的知识产权匹配技术
本专利技术涉及文本处理
，具体为一种基于关键词抽取和词移距离的知识产权匹配技术。
技术介绍
专利文献作为知识的载体，为知识的分享、传播做出了巨大的贡献，个人、高校、企业不仅可以申请专利为知识产权收到法律的保护，避免剽窃或抄袭带来的损失，还可以通过搜索专利为个人或企业提供技术解决方案，或者专利可以为企业分析合作伙伴或竞争对手的技术发展提供参考，所以当企业或个人在互联网上搜索相关专利时，推荐相似度高的结果给用户至关重要；目前对于专利文本的相似度计算主要包括人工文本分类，并人工标注关键词，用关键词来做集合操作或关键词向量化后计算文本的相似度，在关键词做集合操作时，无法人工标记权重，最终也无法对集合操作的结果进行排序，也可以通过多关键词向量化后，大多采用拼接向量的方式来表达文本的向量，最后通过计算相似度方法如：余弦相似度来计算向量之间的相似度，然后根据相似度计算的结果对专利文本进行排序，以上方法存在的问题包括：人工标注关键词不仅耗费资源，且搜索结果的权重无法给出，多关键词向量化没有考虑关键词在文本中的权重，以及可能存在的语义最相近的词之间的距离，基于以上缺点，专利文本加标题之间的相似度往往效果不是很好。
技术实现思路
本专利技术提供一种基于关键词抽取和词移距离的知识产权匹配技术，可以有效解决上述
技术介绍
中提出人工标注关键词不仅耗费资源，且搜索结果的权重无法给出，多关键词向量化没有考虑关键词在文本中的权重，以及可能存在的语义最相近的词之间的距离的...

【技术保护点】
1.一种基于关键词抽取和词移距离的知识产权匹配技术，其特征在于：包括专利文本中标记部分文本、专利标题和内容的关键词特征工程、LightGBM训练模型、通过关键词LightGBM模型抽取关键词和关键词权重，用WMD计算两个专利文本之间关键词和权重结合在一起的距离值，将距离值转化为相似度排序与推荐；/n具体包含以下步骤：/nS1、首先在专利文本中标记部分文本，标记专利文本的二元组可以表示为<T+C，K>；/nS2、专利标题和内容的关键词特征工程：对文本分词，然后通过TF-IDF值选取TopK的词作为候选关键词，然后针对关键词做特征工程；/nS3、LightGBM训练模型，提取训练数据的特征，然后根据前TOP-K的关键词是否在训练集中，打上标签0或1，最后用LightGBM训练候选关键词的特征，得到抽取关键词以及权重的LightGBM模型；/nS4、用WMD计算文本相似度：用训练好的LightGBM抽取要比对的专利文本的标题加内容的关键词和权重，然后关键词用Bert模型转化为词向量，用WMD将两篇专利的关键词向量和权重做计算，得到两篇文章的距离值；/nS5、距离值转化为相似度排序...

【技术特征摘要】
1.一种基于关键词抽取和词移距离的知识产权匹配技术，其特征在于：包括专利文本中标记部分文本、专利标题和内容的关键词特征工程、LightGBM训练模型、通过关键词LightGBM模型抽取关键词和关键词权重，用WMD计算两个专利文本之间关键词和权重结合在一起的距离值，将距离值转化为相似度排序与推荐；
具体包含以下步骤：
S1、首先在专利文本中标记部分文本，标记专利文本的二元组可以表示为<T+C，K>；
S2、专利标题和内容的关键词特征工程：对文本分词，然后通过TF-IDF值选取TopK的词作为候选关键词，然后针对关键词做特征工程；
S3、LightGBM训练模型，提取训练数据的特征，然后根据前TOP-K的关键词是否在训练集中，打上标签0或1，最后用LightGBM训练候选关键词的特征，得到抽取关键词以及权重的LightGBM模型；
S4、用WMD计算文本相似度：用训练好的LightGBM抽取要比对的专利文本的标题加内容的关键词和权重，然后关键词用Bert模型转化为词向量，用WMD将两篇专利的关键词向量和权重做计算，得到两篇文章的距离值；
S5、距离值转化为相似度排序与推荐：距离值越短表示文本越相似，所以距离值从小到大排序，取固定数量的结果做推荐。

2.根据权利要求1所述的一种基于关键词抽取和词移距离的知识产权匹配技术，其特征...

【专利技术属性】
技术研发人员：王家奎，
申请(专利权)人：园宝科技武汉有限公司，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人