一种基于关键词抽取和词移距离的知识产权匹配技术制造技术

技术编号:23853111 阅读:33 留言:0更新日期:2020-04-18 09:40
本发明专利技术公开了一种基于关键词抽取和词移距离的知识产权匹配技术,包括专利文本中标记部分文本、专利标题和内容的关键词特征工程、LightGBM训练模型、通过关键词LightGBM模型抽取关键词和关键词权重,用WMD计算两个专利文本之间关键词和权重结合在一起的距离值,基于专利标题和内容的匹配方法首先提取专利和标题拼接成文本之后,用训练好的模型抽取关键词并得到关键词在文本中的权重,当计算专利的文本相似度时,将抽取的关键词和权重和另一篇专利的关键词和权重放在WMD(word mover’s distance)中计算两篇文章的相似度,相似度以两篇文章的距离值作为参考,距离值越近表示越相似,最后设定阈值将小于阈值的值排序,最后将排序的距离对应的专利推荐给搜索用户。

An intellectual property matching technology based on keyword extraction and word shift distance

【技术实现步骤摘要】
一种基于关键词抽取和词移距离的知识产权匹配技术
本专利技术涉及文本处理
,具体为一种基于关键词抽取和词移距离的知识产权匹配技术。
技术介绍
专利文献作为知识的载体,为知识的分享、传播做出了巨大的贡献,个人、高校、企业不仅可以申请专利为知识产权收到法律的保护,避免剽窃或抄袭带来的损失,还可以通过搜索专利为个人或企业提供技术解决方案,或者专利可以为企业分析合作伙伴或竞争对手的技术发展提供参考,所以当企业或个人在互联网上搜索相关专利时,推荐相似度高的结果给用户至关重要;目前对于专利文本的相似度计算主要包括人工文本分类,并人工标注关键词,用关键词来做集合操作或关键词向量化后计算文本的相似度,在关键词做集合操作时,无法人工标记权重,最终也无法对集合操作的结果进行排序,也可以通过多关键词向量化后,大多采用拼接向量的方式来表达文本的向量,最后通过计算相似度方法如:余弦相似度来计算向量之间的相似度,然后根据相似度计算的结果对专利文本进行排序,以上方法存在的问题包括:人工标注关键词不仅耗费资源,且搜索结果的权重无法给出,多关键词向量化没有考虑关键词在文本中的权重,以及可能存在的语义最相近的词之间的距离,基于以上缺点,专利文本加标题之间的相似度往往效果不是很好。
技术实现思路
本专利技术提供一种基于关键词抽取和词移距离的知识产权匹配技术,可以有效解决上述
技术介绍
中提出人工标注关键词不仅耗费资源,且搜索结果的权重无法给出,多关键词向量化没有考虑关键词在文本中的权重,以及可能存在的语义最相近的词之间的距离的问题。为实现上述目的,本专利技术提供如下技术方案:一种基于关键词抽取和词移距离的知识产权匹配技术,包括专利文本中标记部分文本、专利标题和内容的关键词特征工程、LightGBM训练模型、通过关键词LightGBM模型抽取关键词和关键词权重,用WMD计算两个专利文本之间关键词和权重结合在一起的距离值,将距离值转化为相似度排序与推荐;具体包含以下步骤:S1、首先在专利文本中标记部分文本,标记专利文本的二元组可以表示为<T+C,K>;S2、专利标题和内容的关键词特征工程:对文本分词,然后通过TF-IDF值选取TopK的词作为候选关键词,然后针对关键词做特征工程;S3、LightGBM训练模型,提取训练数据的特征,然后根据前TOP-K的关键词是否在训练集中,打上标签0或1,最后用LightGBM训练候选关键词的特征,得到抽取关键词以及权重的LightGBM模型;S4、用WMD计算文本相似度:用训练好的LightGBM抽取要比对的专利文本的标题加内容的关键词和权重,然后关键词用Bert模型转化为词向量,用WMD将两篇专利的关键词向量和权重做计算,得到两篇文章的距离值;S5、距离值转化为相似度排序与推荐:距离值越短表示文本越相似,所以距离值从小到大排序,取固定数量的结果做推荐。优选的,所述步骤S1中T表示标题,C表示文本内容,K表示关键词,T+C表示标题插入到文本的第一句,标记数据作为训练集,标记数量越多,训练模型越精确。优选的,所述步骤S2中分词主要用到结巴分词库,TF-IDF用来做词频和文档逆词频统计,通过TF-IDF值的排序得到前K的关键词。优选的,所述步骤S3中LightGBM为一种传统机器学习的决策树算法;其中特征工程中的特征包括:词性、是否出现在标题、是否在文章第一句话、是否在文章最后一句话、tf值、最早出现位置、textrank值,关机词所在位置,ske共现矩阵偏度。优选的,所述步骤S1中中文Bert模型为Bert-as-service模型,无需训练,直接加载,Bert已经在多个中文库做过预训练,较其它模型的优势是可以做句子级向量。优选的,所述步骤S4中WMD是一种计算句子之间距离的方法,距离越小,相似度越高,通过计算词之间的移动距离来得到文档的距离。与现有技术相比,本专利技术的有益效果:本专利技术结构科学合理,使用安全方便,目的在于企业园区内企业通过特定高校来检索企业所需的潜在专利,为企业的发展寻找技术支持,基于专利标题和内容的匹配方法首先提取专利和标题拼接成文本之后,用训练好的模型抽取关键词并得到关键词在文本中的权重,当计算专利的文本相似度时,将抽取的关键词和权重和另一篇专利的关键词和权重放在WMD(wordmover’sdistance)中计算两篇文章的相似度,相似度以两篇文章的距离值作为参考,距离值越近表示越相似,最后设定阈值将小于阈值的值排序,最后将排序的距离对应的专利推荐给搜索用户。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:图1是专利文本标题加摘要的相似度计算流程图;图2是WMD计算不同文本之间的权重的关键词和权重;图3是LightGBM模型训练流程图;图4是结合用户使用的专利相似度计算实施流程图。具体实施方式以下结合附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。实施例:如图1所示,本专利技术提供技术方案,一种基于关键词抽取和词移距离的知识产权匹配技术,步骤一、关键词训练数据标记:准备训练集,即人工标注专利的关键词数据;人工标注数据三元组表示<T,C,K>,其中T表示专利的标题,C表示专利文本的内容,K表示专利的关键词。步骤二、对文本做分词处理和提取候选关键词:将结巴分词将标题和文本作为整体文本分词,然后用TF计算每个词的词频,然后选取TF值较大的前m个作为专利文本的候选关键词,其中对于在某一文档dj里的词语ti来说,ti的词频可表示为:其中ni,j是词语ti在文档dj中的出现次数,分母则是在文件dj中所有词语的出现次数之和;步骤三、专利标题加内容的关键词特征工程:特征工程主要从数据分析和经验得到,研究主题是候选关键词在文档中的属性;判定候选关键词是否是文档真实关键词的特征包括:是否出现在标题,TF值,是否出现在标题,是否出现在正文第一句,是否出现在正文最后一句,是否包含数字,是否包含英文,共现矩阵偏度,词性等。步骤四、训练抽取关键词的LightGBM模型:从训练样本的候选关键词中统计步骤三中每一个关键词的特征信息,判断该候选关键词是否在训练集标注的关键词组里面,若在词组内,该关键词标记为1,若不在则标记为0;将每条关键词的特征和标签输入LightGBM模型训练,最终得到抽取关键词的LightGBM模型。LightGBM是基于Xgboost上改进而来,Xgboost是基于GBDT即梯度提升树的,其基本思想是运用分类回归树(CART)进行集成学习。Xgboost是基于预排序的方法,即所有特征按照特征的数值进行排序,消耗了内存,在遍历分割点时,分裂增益计算花费时间;Light本文档来自技高网...

【技术保护点】
1.一种基于关键词抽取和词移距离的知识产权匹配技术,其特征在于:包括专利文本中标记部分文本、专利标题和内容的关键词特征工程、LightGBM训练模型、通过关键词LightGBM模型抽取关键词和关键词权重,用WMD计算两个专利文本之间关键词和权重结合在一起的距离值,将距离值转化为相似度排序与推荐;/n具体包含以下步骤:/nS1、首先在专利文本中标记部分文本,标记专利文本的二元组可以表示为<T+C,K>;/nS2、专利标题和内容的关键词特征工程:对文本分词,然后通过TF-IDF值选取TopK的词作为候选关键词,然后针对关键词做特征工程;/nS3、LightGBM训练模型,提取训练数据的特征,然后根据前TOP-K的关键词是否在训练集中,打上标签0或1,最后用LightGBM训练候选关键词的特征,得到抽取关键词以及权重的LightGBM模型;/nS4、用WMD计算文本相似度:用训练好的LightGBM抽取要比对的专利文本的标题加内容的关键词和权重,然后关键词用Bert模型转化为词向量,用WMD将两篇专利的关键词向量和权重做计算,得到两篇文章的距离值;/nS5、距离值转化为相似度排序与推荐:距离值越短表示文本越相似,所以距离值从小到大排序,取固定数量的结果做推荐。/n...

【技术特征摘要】
1.一种基于关键词抽取和词移距离的知识产权匹配技术,其特征在于:包括专利文本中标记部分文本、专利标题和内容的关键词特征工程、LightGBM训练模型、通过关键词LightGBM模型抽取关键词和关键词权重,用WMD计算两个专利文本之间关键词和权重结合在一起的距离值,将距离值转化为相似度排序与推荐;
具体包含以下步骤:
S1、首先在专利文本中标记部分文本,标记专利文本的二元组可以表示为<T+C,K>;
S2、专利标题和内容的关键词特征工程:对文本分词,然后通过TF-IDF值选取TopK的词作为候选关键词,然后针对关键词做特征工程;
S3、LightGBM训练模型,提取训练数据的特征,然后根据前TOP-K的关键词是否在训练集中,打上标签0或1,最后用LightGBM训练候选关键词的特征,得到抽取关键词以及权重的LightGBM模型;
S4、用WMD计算文本相似度:用训练好的LightGBM抽取要比对的专利文本的标题加内容的关键词和权重,然后关键词用Bert模型转化为词向量,用WMD将两篇专利的关键词向量和权重做计算,得到两篇文章的距离值;
S5、距离值转化为相似度排序与推荐:距离值越短表示文本越相似,所以距离值从小到大排序,取固定数量的结果做推荐。


2.根据权利要求1所述的一种基于关键词抽取和词移距离的知识产权匹配技术,其特征...

【专利技术属性】
技术研发人员:王家奎
申请(专利权)人:园宝科技武汉有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1