一种使用句向量的语义匹配检索知识产权文档的对话模型制造技术

技术编号：41535496 阅读：5 留言：0更新日期：2024-06-03 23:13

本发明专利技术的一种使用句向量的语义匹配检索知识产权文档的对话模型，可以实现自动分析知识产权文档类型，对话可获得文档对比结果，使用专用聚类方法对文档的关系进行梳理，从而提高了知识产权文档检索效率、查全率和准确性，帮助科技研发项目涉密信息进行常态化的检索，提供本地化的大语言检索技术，本发明专利技术所提供的检索技术将科技项目对应的多种知识产权文档进行归类，查找企业缺漏的、需要尽快保护的知识产权，从而为知识产权的战略布局提供帮助，有效解决了现有技术中未能实现精确的知识产权文档语义对比、查询以及相关简单逻辑对话的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理的，更具体地，涉及一种使用句向量的语义匹配检索知识产权文档的对话模型。

技术介绍

1、科技管理人员在收到技术文档之后，需要查询该文档与其他知识产权的关系，在查询过程中如果直接在广域互联网搜索，则会有泄密风险，在涉密企业，不能访问外网的搜索引擎，因此需要一种低成本的能够本地部署的高效率的搜索模型，同时其应该具备传统搜索引擎相同的语义匹配和逻辑判断能力。

2、现有技术公开了一种基于大语言模型的数据检索方法及系统，分别对收集的大量的语料知识文本进行分块并获取每一个语料知识文本块的高维特征向量，以及获得自然语言查询语句对应的高维特征向量；基于高维特征向量的相似度，找到与自然语言查询语句对应的语料知识文本块作为检索结果；根据话术模板、用户的自然语言查询语句和检索结果构造提示语，将提示语输入大语言模型进行自然语言文本生成，将自然语言文本生成结果返回给用户。该方案无需针对具体场景进行微调训练，使用人类友好的自然语言进行提问并得到回答，且能够一定程度避免大语言模型在数学计算和逻辑推理方面的缺陷。

3、然而在知识产权检索中，通常以如下形式的对话进行：“x与y的关系是什么？”，“x领域有哪些技术？”，“x是否以y作为其实现的基础？”，这就需要一种基于对话的搜索模型，使x和y都能转换为句向量，然后与所有的知识产权文档的句子中的句向量进行比较，得到差异最小的多个文档url或文件路径作为结果返回到对话中，因此现有技术存在未能实现精确的知识产权文档语义对比、查询以及相关简单逻辑对话的技术问题。

技术实现思路

1、本专利技术的目的在于克服现有技术中未能实现精确的知识产权文档语义对比、查询以及相关简单逻辑对话的不足，提供一种使用句向量的语义匹配检索知识产权文档的对话模型。

2、为解决上述技术问题，本专利技术采用的技术方案是：

3、一种使用句向量的语义匹配检索知识产权文档的对话模型，包括以下步骤：

4、s1.识别知识产权文档；为针对用户用鼠标拖拽或者命令打开的知识产权文档进行逐句判断，根据知识产权文档中的关键字判定文件的类型；

5、s2.分段及压缩；当知识产权文档的大小超过1024个字节时，针对知识产权文档中的文本进行分段，每一个被分出的段落都被保存为数据库中的一条记录，并且在每一个段落中使用lda方法寻找包含sao三元组结构的语句，对找到的语句进行bert向量化，分句结果使用bert模型的shibing624/text2vec-base-chinese余弦句子模型将语句压缩成为768维的密集向量空间中的句向量；

6、s3.建立文档关系模型；根据步骤s2获取的主题句向量的余弦相似度进行k-medoids聚类，使用参数实时控制聚类算法的收敛过程；

7、s4.对话和逻辑模型；将用户持有的知识产权文件转换为纯文本文件，然后对纯文本文件进行索引编号，再将纯文本文件分成多个段落，最后都转化为向量矩阵，将这些向量矩阵存储于向量数据库faiss中，即可在用户输入语句时对整个数据库进行向量匹配，从而完成语义检索。

8、本专利技术的一种使用句向量的语义匹配检索知识产权文档的对话模型，lda是两个常用模型的简称：linear discriminant analysis和latent dirichlet allocation，用来抓取文档的主题；sao结构(subject-action-object)是通过扫描句子中词语之间的技术特性关系和句法关系得到的依次由名词短语、动词短语和名词短语(头、关系、尾)组成的句子结构；bert(bidirectional encoder representation from transformers)，是由googleai研究院提出的一种自然语言预训练模型，faiss数据库是facebook(现改名为meta)开源的向量数据库，它是面向稠密向量高效的相似性检索与聚类引擎，其中k-medoids聚类是k-means聚类的变种，初始聚类点按照知识图谱生成；调用bert模型生成知识产权文档中每句话的句向量，并使用faiss数据库存储句向量，可以自动分析知识产权文档类型，对话可获得文档对比结果，使用专用聚类方法对文档的关系进行梳理，从而提高了知识产权文档检索效率、查全率和准确性，帮助科技研发项目涉密信息进行常态化的检索，提供本地化的大语言检索技术，本专利技术所提供的检索技术将科技项目对应的多种知识产权文档进行归类，查找企业缺漏的、需要尽快保护的知识产权，从而为知识产权的战略布局提供帮助，有效解决了现有技术中未能实现精确的知识产权文档语义对比、查询以及相关简单逻辑对话的技术问题。

9、进一步地，步骤s1中文件类型的判断依据为：如发现其标题或者文件名中包含“专利”关键字，则判定此文件的类型为专利；如发现其标题或者文件名中包含“软件”关键字，则判定此文件的类型为软件著作；如发现其标题或者文件名中包含“文章”关键字，则判定此文件的类型为文章；如发现其标题或者文件名中包含“技术文档”关键字，则判定此文件的类型为技术文档。

10、进一步地，步骤s2中专利或技术文档文件的分段依据为：当被识别为专利或技术文档类型的文件中包含专利技术或技术的名称、对现有技术的说明、专利技术或技术的目的、专利技术或技术的效果、与现有技术的对比以及申报的相关信息时，对每个部分进行单独分段，其余使用句号分段。

11、进一步地，步骤s2中软件著作文件的分段依据为：当被识别为软件著作类型的文件中包含申请者信息、软件名称与版本、软件功能描述、源代码与编程语言、软件开发方式与工具、保密条款与授权协议以及申请相关信息时，对每个部分进行单独分段，其余使用句号分段。

12、进一步地，步骤s2中的所述记录包括以下字段：来源文件路径、来源文件类型、来源文件领域、来源文件依赖项、来源文件相关文档项、来源文件的父文档、来源文件的子文档、来源文件的上一个段落、来源文件的下一个段落、以及来源文档的当前段落的分句结果。

13、进一步地，步骤s3中的具体步骤包括：

14、s31.将步骤s2中分出的每个语句分别作为一个文档的主题，计算每个文档之间的距离，并形成距离矩阵，矩阵中包含任意两个文档之间的余弦距离，余弦距离的计算方式为：

15、其中p代表需要查询的知识产权文档中新技术段落或者已有技术段落的sao主题句向量化之后的各分量；如果是新技术段落则聚类结果为领域包含和领域相关关系，如果是已有技术则聚类结果为技术依赖关系；其中q代表其他知识产权的文档中的新技术段落的sao主题句向量化之后的各分量；

16、s32.选取最接近总括性的一个或几个文档作为第一层聚类中心k1；

17、s33.将剩余的没有被选为聚类中心的文档作为从属文档，任选其中一个从属文档，对所有这个从属文档到聚类中心的距离进行从小到大的排序，取排序中第一个聚类中心文档作为其父文档，使其从属于距离其最近的聚类中心，循环选取从属文档直至所有的从属文本文档来自技高网...

【技术保护点】

1.一种使用句向量的语义匹配检索知识产权文档的对话模型，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种使用句向量的语义匹配检索知识产权文档的对话模型，其特征在于，步骤S1中文件类型的判断依据为：如发现其标题或者文件名中包含“专利”关键字，则判定此文件的类型为专利；如发现其标题或者文件名中包含“软件”关键字，则判定此文件的类型为软件著作；如发现其标题或者文件名中包含“文章”关键字，则判定此文件的类型为文章；如发现其标题或者文件名中包含“技术文档”关键字，则判定此文件的类型为技术文档。

3.根据权利要求2所述的一种使用句向量的语义匹配检索知识产权文档的对话模型，其特征在于，步骤S2中专利或技术文档文件的分段依据为：当被识别为专利或技术文档类型的文件中包含专利技术或技术的名称、对现有技术的说明、专利技术或技术的目的、专利技术或技术的效果、与现有技术的对比以及申报的相关信息时，对每个部分进行单独分段，其余使用句号分段。

4.根据权利要求2所述的一种使用句向量的语义匹配检索知识产权文档的对话模型，其特征在于，步骤S2中软件著作文件的分段依据为：

5.根据权利要求1所述的一种使用句向量的语义匹配检索知识产权文档的对话模型，其特征在于，步骤S2中的所述记录包括以下字段：来源文件路径、来源文件类型、来源文件领域、来源文件依赖项、来源文件相关文档项、来源文件的父文档、来源文件的子文档、来源文件的上一个段落、来源文件的下一个段落、以及来源文档的当前段落的分句结果。

6.根据权利要求1所述的一种使用句向量的语义匹配检索知识产权文档的对话模型，其特征在于，步骤S3中的具体步骤包括：

7.根据权利要求1所述的一种使用句向量的语义匹配检索知识产权文档的对话模型，其特征在于，步骤S4中获得分类信息之后，将分类信息写入以下格式的提示词中：“已知信息：根据用户的提问有N个专业领域的知识产权与其相关，分别是L1、L2…；第一个专业领域是L1，包含知识产权文档《X1》、《X2》；第二个专业领域是L2，包含知识产权文档《X1》、《X2》；文档的摘要信息包括：Z；回答问题：<RRR>”；最后将提示词作为结合用户提问检索语句“<RRR>”送入内嵌ChatGLM-6B的LangChain进行处理，然后将处理结果和分类信息，以及检索到的文件引用地址发送返回给用户。

8.根据权利要求1所述的一种使用句向量的语义匹配检索知识产权文档的对话模型，其特征在于，步骤S4中将向量矩阵存储于向量数据库FAISS中的具体步骤包括：

9.根据权利要求8所述的一种使用句向量的语义匹配检索知识产权文档的对话模型，其特征在于，步骤S41中以分号和句号为标志切分语句的方法具体为：使用LDA方法选择最相关的主题句，并限制在2048个中文字以内；其中使用LDA查找段落主题句SAO的方法为测量每一以分号或者句号结尾的词语集合中的主题一致性，其中主题一致性的计算公式为：

10.根据权利要求8所述的一种使用句向量的语义匹配检索知识产权文档的对话模型，其特征在于，如果用户提问文档之间的关系，则读取数据库中“父子领域的包含关系、依赖关系”的数据，并修改提示词为以下段落：“已知信息：根据用户的提问，文档X与文档A1、A2…相关，X依赖于文档B1、B2…；文档X的摘要信息包括：Z；回答问题：<RRR>”。

...

【技术特征摘要】

1.一种使用句向量的语义匹配检索知识产权文档的对话模型，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种使用句向量的语义匹配检索知识产权文档的对话模型，其特征在于，步骤s1中文件类型的判断依据为：如发现其标题或者文件名中包含“专利”关键字，则判定此文件的类型为专利；如发现其标题或者文件名中包含“软件”关键字，则判定此文件的类型为软件著作；如发现其标题或者文件名中包含“文章”关键字，则判定此文件的类型为文章；如发现其标题或者文件名中包含“技术文档”关键字，则判定此文件的类型为技术文档。

3.根据权利要求2所述的一种使用句向量的语义匹配检索知识产权文档的对话模型，其特征在于，步骤s2中专利或技术文档文件的分段依据为：当被识别为专利或技术文档类型的文件中包含发明或技术的名称、对现有技术的说明、发明或技术的目的、发明或技术的效果、与现有技术的对比以及申报的相关信息时，对每个部分进行单独分段，其余使用句号分段。

4.根据权利要求2所述的一种使用句向量的语义匹配检索知识产权文档的对话模型，其特征在于，步骤s2中软件著作文件的分段依据为：当被识别为软件著作类型的文件中包含申请者信息、软件名称与版本、软件功能描述、源代码与编程语言、软件开发方式与工具、保密条款与授权协议以及申请相关信息时，对每个部分进行单独分段，其余使用句号分段。

5.根据权利要求1所述的一种使用句向量的语义匹配检索知识产权文档的对话模型，其特征在于，步骤s2中的所述记录包括以下字段：来源文件路径、来源文件类型、来源文件领域、来源文件依赖项、来源文件相关文档项、来源文件的父文档、来源文件的子文档、来源文件的上一个段落、来源文件的下一个段落、以及来源文档的当前段落的分句结果。

6.根据权利要求1所述的一种使用...

【专利技术属性】
技术研发人员：廖晋，郭龙，韩光明，李涛，邵远，宋光泽，
申请(专利权)人：中海石油中国有限公司海南分公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人