一种基于预训练语言模型的可视化专利检索方法技术

技术编号：41743010 阅读：12 留言：0更新日期：2024-06-19 13:03

本发明专利技术涉及自然语言处理技术领域，具体是一种基于预训练语言模型的可视化专利检索方法，本发明专利技术在专利关键词检索场景下，基于预训练语言模型对专利文本进行关键词的抽取和词向量表示，并对检索返回的专利特征降维，以散点图的形式可视化展示检索结果，相比于列表形式展示的检索结果，更加直观，并且提供了专利之间相似程度、专利分簇情况等更加丰富的检索信息。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理，具体是一种基于预训练语言模型的可视化专利检索方法。

技术介绍

1、专利检索的首要任务是从海量的专利数据库中检索出相关的专利文本。目前，比较常用的专利文本检索策略为关键词检索，基于待检索关键词构建检索式，从专利数据库中检索出相关的专利文本。

2、关键词检索策略存在漏检的情况，很容易遗漏一定量重要且技术相似度高的专利文本，进而难以实现高精度的专利检索需求。于是为了解决上述存在的技术问题，专利cn112000783a中公开了一种基于文本相似性分析的专利推荐方法、装置、设备及存储介质。该专利推荐方法通过获取主体关键词及描述性关键词，并以主体关键词和所有的描述性关键词作为检索词获得基础相似文本集，又以主体关键词和各描述性关键词作为检索词获得扩展相似文本集。接着遍历扩展相似文本集，针对每个扩展相似文本，基于该扩展相似文本的文本特征词和该扩展相似文本对应的检索词计算该扩展相似文本与基础相似文本集中的基础相似文本之间的相似度；并当该扩展相似文本与基础相似文本集中的任一基础相似文本之间的相似度高于预定阈值时，将该扩展相似文本移入至基础相似文本集。该专利推荐方法能够提升相似文本的查全率，降低漏检率。

3、尽管上述现有技术能够在一定程度上提高查全率，但是在实际的使用过程中还存在以下问题：

4、1、查全结果主要是通过数字化的形式展示相似度的一个大致排序，难以直观的展示各个相似度之间的差异。并且在检索结果里，附带上每条专利的相似度数值，对于较长的列表来说，也显得不够直观，需要翻阅列表，才可看到对应的相似度数值。

5、2、展示的查全结果列表中，没有计算检索出的各个专利文本之间的相似度，因此对于检索人员来说，无法直观的体现出各个专利文本之间的相似度。

6、综上所述，目前的专利检索结果显示中还有很大的提升空间。

技术实现思路

1、为了避免和克服现有技术中存在的技术问题，本专利技术提供了一种基于预训练语言模型的可视化专利检索方法。本专利技术能够清楚直观的展示出检索关键词与检索出的专利文本之间的相似度关系，以及检索出的各个专利文本彼此之间的相似度关系。

2、为实现上述目的，本专利技术提供如下技术方案：

3、一种基于预训练语言模型的可视化专利检索方法，包括以下检索步骤：

4、s1、使用已有关键词标注的专利文本，训练一个roberta+bi-lstm模型，用于从专利中抽取关键词；

5、s2、将专利数据库中的专利文本，按指定格式输入s1中的roberta+bi-lstm模型，抽取多个关键词以及这些关键词的词向量，多个词向量相加，作为该专利文本的高维向量表示；

6、s3、将待检索的多个关键词，按指定格式输入s1中的roberta模型，获取关键词的词向量，多个关键词的向量则相加，作为该查询文本的高维向量表示；

7、s4、依次计算s3中的查询文本向量与专利库中所有专利文本经过s2处理后的高维向量之间的余弦相似度；选取余弦相似度小于设定阈值的专利文本作为检索候选结果；

8、s5、对s3中的查询文本向量和s4中获取的检索候选专利的文本向量，输入流型降维模型barnes-hut t-sne进行降维，均降至2维；

9、s6、对降维后的查询文本向量和候选专利文本向量以点的形式呈现在二维平面中，形成散点图，通过散点图中点与点之间的距离可视化的表示检索结果之间的相似度关系。

10、作为本专利技术再进一步的方案：在将专利数据库中的专利文本输入roberta模型之前，需要对专利文本进行数据处理，将专利文本的输入格式转化为t1：

11、t1＝([cls],title,[sep],abstract,[sep],ipc_text,[sep],main_tex t)；

12、其中，[cls]是标识文本开始的占位符；[sep]是分割符；title表示专利文本中的文本序列展开后的专利名称的位置；abstract表示专利文本中的文本序列展开后的专利说明书摘要的位置；该处的ipc_text表示专利文本中的文本序列展开后的专利ipc分类号的位置；main_text表示专利文本中的文本序列展开后的专利
技术实现思路
的位置。这种输入格式能够充分利用专利文本里的结构化信息。

13、作为本专利技术再进一步的方案：待检索关键词为一个或者多个，各个待检索关键词依次排列构成待检索关键词序列，并将待检索关键词序列输入到roberta模型中；将待检索关键词序列输入roberta模型之前，需要对待检索关键词进行数据处理，将待检索关键词的输入格式转化为t2，t2＝([cls],ipc_text,[sep],keyword_1,[sep],keyword_2,...,[sep],key word_n)，其中，该处的ipc_text表示待检索关键词序列展开后的专利ipc分类号的位置；keyword_1表示待检索关键词序列展开后，第一个待检索关键词的位置；keyword_2表示待检索关键词序列展开后，第二个待检索关键词的位置；keyword_n表示待检索关键词序列展开后，第n个待检索关键词的位置。

14、作为本专利技术再进一步的方案：在使用roberta模型对专利文本中的关键词或者是对待检索关键词序列中的待检索关键词进行对应拼接时，选择roberta模型中的后4层隐藏层输出的向量进行拼接，以得到对应的拼接后的向量。

15、作为本专利技术再进一步的方案：在进行降维时采用的是barnes-hut t-sne算法。

16、作为本专利技术再进一步的方案：序列状态向量中各个关键词的词向量，以及各个待检索关键词的词向量的维度均为3072，通过barnes-hut t-sne算法降维处理后，对应的维度由3072降为2。

17、作为本专利技术再进一步的方案：待检索关键词的输入格式中的ipc_text可根据检索需求进行保留或删除；当需要限定ipc分类号时，则保留，反之删除。

18、与现有技术相比，本专利技术的有益效果是：

19、1、本专利技术在专利关键词检索场景下，基于预训练语言模型对专利文本进行关键词的抽取和词向量表示，并对检索返回的专利特征降维，以散点图的形式可视化展示检索结果，相比于列表形式展示的检索结果，更加直观，并且提供了专利之间相似程度、专利分簇情况等更加丰富的检索信息。

20、2、本专利技术使用预训练模型抽取专利的关键词后，使用关键词对应的词向量作为专利的特征表示，而不是直接存储关键词，也不是进一步将专利做文本向量化，对于待检索的关键词也做了同样的处理，使用关键词的词向量作为特征表示，一方面为降维可视化提供了基础，另一方面，也给用户提供了控制关键词权重，从而调整检索偏好的功能。

21、3、本专利技术对于高维词向量引入了barnes-hutt-sne算法进行降维，相比于常见的pca降维，barnes-hut t-sne算法并不是通过特征的线性变换来寻求降维，对高维本文档来自技高网...

【技术保护点】

1.一种基于预训练语言模型的可视化专利检索方法，其特征在于，包括以下检索步骤：

2.根据权利要求1所述的一种基于预训练语言模型的可视化专利检索方法，其特征在于，在将专利数据库中的专利文本输入RoBERTa模型之前，需要对专利文本进行数据处理，将专利文本的输入格式转化为T1，T1＝([CLS],TITLE,[SEP],ABSTRACT,[SEP],IPC_TEXT,[SEP],MAIN_TEXT)，其中，[CLS]是标识文本开始的占位符；[SEP]是分割符；TITLE表示专利文本中的文本序列展开后的专利名称的位置；ABSTRACT表示专利文本中的文本序列展开后的专利说明书摘要的位置；该处的IPC_TEXT表示专利文本中的文本序列展开后的专利IPC分类号的位置；MAIN_TEXT表示专利文本中的文本序列展开后的专利专利技术内容的位置。

3.根据权利要求3所述的一种基于预训练语言模型的可视化专利检索方法，其特征在于，待检索关键词为一个或者多个，各个待检索关键词依次排列构成待检索关键词序列，并将待检索关键词序列输入到RoBERTa模型中；将待检索关键词序列输入Ro

4.根据权利要求2-3中任一项所述的一种基于预训练语言模型的可视化专利检索方法，其特征在于，在使用RoBERTa模型对专利文本中的关键词或者是对待检索关键词序列中的待检索关键词进行对应拼接时，选择RoBERTa模型中的后4层隐藏层输出的向量进行拼接，以得到对应的拼接后的向量。

5.根据权利要求5中所述的一种基于预训练语言模型的可视化专利检索方法，其特征在于，在进行降维时采用的是Barnes-Hutt-SNE算法。

6.根据权利要求5所述的一种基于预训练语言模型的可视化专利检索方法，其特征在于，序列状态向量中各个关键词的词向量，以及各个待检索关键词的词向量的维度均为3072，通过Barnes-Hut t-SNE算法降维处理后，对应的维度由3072降为2。

7.根据权利要求3所述的一种基于预训练语言模型的可视化专利检索方法，其特征在于，待检索关键词的输入格式中的IPC_TEXT可根据检索需求进行保留或删除；当需要限定IPC分类号时，则保留，反之删除。

...

【技术特征摘要】

1.一种基于预训练语言模型的可视化专利检索方法，其特征在于，包括以下检索步骤：

2.根据权利要求1所述的一种基于预训练语言模型的可视化专利检索方法，其特征在于，在将专利数据库中的专利文本输入roberta模型之前，需要对专利文本进行数据处理，将专利文本的输入格式转化为t1，t1＝([cls],title,[sep],abstract,[sep],ipc_text,[sep],main_text)，其中，[cls]是标识文本开始的占位符；[sep]是分割符；title表示专利文本中的文本序列展开后的专利名称的位置；abstract表示专利文本中的文本序列展开后的专利说明书摘要的位置；该处的ipc_text表示专利文本中的文本序列展开后的专利ipc分类号的位置；main_text表示专利文本中的文本序列展开后的专利发明内容的位置。

3.根据权利要求3所述的一种基于预训练语言模型的可视化专利检索方法，其特征在于，待检索关键词为一个或者多个，各个待检索关键词依次排列构成待检索关键词序列，并将待检索关键词序列输入到roberta模型中；将待检索关键词序列输入roberta模型之前，需要对待检索关键词进行数据处理，将待检索关键词的输入格式转化为t2，t2＝([cls],ipc_text,[sep],keyword_1,[sep],keyword_2,...,[sep],key wor...

【专利技术属性】
技术研发人员：王建，张晞曈，王佐成，吕孝忠，李浩，张文婷，王淑莹，
申请(专利权)人：数据空间研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人