一种基于语义增强知识图谱的大模型知识问答优化方法技术

技术编号：43313346 阅读：18 留言：0更新日期：2024-11-15 20:15

本发明专利技术涉及知识图谱构建技术领域，具体涉及一种基于语义增强知识图谱的大模型知识问答优化方法，优化方法包括：获取企业数据API接口的数据；基于API接口数据，对数据进行分割，分别保存到向量数据库、索引数据库和知识图谱数据库；用户提出问题，对用户提出的问题做问题增强；基于增强后的问题，做向量检索、索引检索与图检索；把结合数据做重排与格式化，通过大模型做整合回答。本发明专利技术通过本申请通过对知识图谱数据库的构建，能对问题进行综合的检测，包括向量检索、索引检索与图检索，可以提升知识库本身的数据质量，另外在检索阶段可以提升检索结果的准确率和答案完整性，带来更好的商业前景。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于知识图谱构建，具体为一种基于语义增强知识图谱的大模型知识问答优化方法。

技术介绍

1、知识图谱，在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互关联，具体来说，知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合，并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论，它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来，揭示知识领域的动态发展规律，为学科研究提供切实的、有价值的参考，迄今为止，其实际应用在发达国家已经逐步拓展并取得了较好的效果，但它在我国仍属研究的起步阶段。

2、目前大多采用数据向量化的方式，通过向量搜索比对问题和知识库数据，准确率不高，完整性容易有缺失。

技术实现思路

1、针对现有技术的不足，本专利技术提供了一种基于语义增强知识图谱的大模型知识问答优化方法，以解决以上技术问题。

2、为实现上述目的，本专利技术提供如下技术方案：一种基于语义增强知识图谱的大模型知识问答优化方法，优化方法包括：s1：获取企业数据api接口的数据；s2：基于api接口数据，对数据进行分割，分别保存到向量数据库、索引数据库和知识图谱数据库；s3：用户提出问题，对用户提出的问题做问题增强；s4

3、优选地，s1的步骤为：

4、注册并登录到提供企业数据api的服务提供商的开发者网站；

5、创建新的应用程序或项目，并获取访问api所需的密钥；

6、查阅api文档，获取端点、请求参数、响应格式和限制的信息；

7、使用http或https协议，构建符合api文档要求的请求；

8、使用http库，向api端点发送构建好的请求；

9、接收来自api的响应，以json格式返回数据；

10、解析api响应，提取出数据。

11、优选地，s2的步骤为：

12、对从api获取的数据进行清洗，对数据进行格式化；

13、根据确定的依据，执行数据分割操作，这个地方不是按照时间周期做分割，是按照文本的含义做分割，分割方式包括：固定字符长度、分隔符方式与固定字符长度加前后重复字符分割；

14、保存到向量数据库；

15、将从api获取的数据中提取出存储的向量数据；

16、使用数据库提供的api或客户端库，将向量数据插入到数据库中；

17、根据应用场景和查询需求，设置索引优化向量的检索性能；

18、根据从api获取的数据特性，设计数据库表结构，定义字段和数据类型；

19、将从api获取的数据插入到相应的数据库表，保存到数据库中；

20、将从api获取的数据导入到知识图谱数据库中，存储和查询实体之间的关系数据。

21、优选地，将从api获取的数据导入到知识图谱数据库中，存储和查询实体之间的关系数据包括：

22、识别分析，从企业数据中分析识别出实体和关系；

23、图数据处理，要做去重与同义词识别的工作，最后存入图数据库中；

24、识别分析包括：

25、实体识别：首先把企业数据做切块，根据大模型基座的token数限制，要把切块尽量做大，使用精调的指令结合切块数据，交给大模型做实体识别；

26、实体预测：给定一个开始实体和一个关系，任务是通过大模型预测与开始实体相关的结束实体；

27、关系识别：把企业数据的切块，使用精调的指令结合切块数据，交给大模型做关系识别；

28、关系预测：给定一个开始实体和结束实体，任务是通过大模型预测它们之间的关系；

29、三元组验证：给定一个三元组（h, r, t），通过大模型将其分类为正确与不正确；

30、图数据处理包括：

31、向量表示：使用向量模型，检索处理器将每个实体词和关系名转换为向量表示，然后存储到图数据库中；

32、相似性匹配：检索处理器使用余弦相似度计算查询词和知识图谱中节点之间的相似度，相似度越高，表示查询词和节点越相关，做节点合并，关系合并；

33、处理后的数据保存进图数据库，所有节点都有一个embedding属性，存放节点信息的向量表示，图数据库使用的是neo4j。

34、优选地，向量模型公式为：

35、对于实体词和关系名，它们的向量表示为和分别由word2vec模型生成；

36、将实体词存储为图数据库的节点：

37、将关系名存储为图数据库的节点：

38、需要存储关系，可以将关系存储为图数据库的边，其中可以作为边的属性之一。

39、优选地，余弦相似度计算包括：

40、余弦相似度计算公式为：

41、

42、其中，表示查询向量与和节点向量的点积（内积），和是分别表示查询向量和节点向量的范数，为余弦相似度，余弦相似度的取值范围在 -1 到1 之间，越接近 1 表示两者越相似，越接近 -1 表示越不相似，相似度越高，表示查询词和节点越相关。

43、优选地，s4的步骤为：

44、将增强后的问题转换为向量表示；

45、基于余弦相似度计算得到的相似度分数，对文档或实体进行排序，会设定一个阈值来过滤低相似度的项；

46、首先，需要将文档或实体建立成索引，将增强后的问题作为查询，通过索引数据结构快速定位到包含相关信息的文档或实体；

47、在知识图谱中进行检索，找到与问题相关的实体或关系；

48、将知识图谱中的实体和关系表示为节点和边的组合，这些节点和边使用向量表示来捕捉它们的语义信息；

49、根据查询结果的特定度量标准，对检索到的实体进行筛选，并将最相关的结果返回给用户。

50、优选地，图检索包括：

51、接收到一个新问题时，通过语言大模型来理解问题的关键点，利用检索处理器，将这些关键点与知识图谱中的节点关联起来，最后，通过个性化算法，在知识图谱中快速找到并整合跨多个文本片段的信息，从而为输出提供一个准确的答案；

52、图检索处理被用于两个主要任务：

53、提取查询中的实体：

54、使用指令微调的大型语言模型从查询中提取命名实体；

55、将实体与知识图谱节点关联：

56、使用预训练的图检索器，计算pagerank 算法查询实体与知识图谱中节点之间的相似度，把实体的信息向量化，通过cyph本文档来自技高网...

【技术保护点】

1.一种基于语义增强知识图谱的大模型知识问答优化方法，其特征在于，优化方法包括：

2.根据权利要求1所述的基于语义增强知识图谱的大模型知识问答优化方法，其特征在于，S1的步骤为：

3.根据权利要求1所述的基于语义增强知识图谱的大模型知识问答优化方法，其特征在于，S2的步骤为：

4.根据权利要求3所述的基于语义增强知识图谱的大模型知识问答优化方法，其特征在于，将从API获取的数据导入到知识图谱数据库中，存储和查询实体之间的关系数据包括：

5.根据权利要求4所述的基于语义增强知识图谱的大模型知识问答优化方法，其特征在于，向量模型公式为：

6.根据权利要求4所述的基于语义增强知识图谱的大模型知识问答优化

7.根据权利要求1所述的基于语义增强知识图谱的大模型知识问答优化方法，其特征在于，S4的步骤为：

8.根据权利要求4所述的基于语义增强知识图谱的大模型知识问答优化方法，其特征在于，图检索包括：

9.根据权利要求1所述的基于语义增强知识图谱的大模型知识问答优化方法，其特征在于，PageRank算法包括：

10.根据权利要求1所述的基于语义增强知识图谱的大模型知识问答优化方法，其特征在于：

...

【技术特征摘要】

1.一种基于语义增强知识图谱的大模型知识问答优化方法，其特征在于，优化方法包括：

2.根据权利要求1所述的基于语义增强知识图谱的大模型知识问答优化方法，其特征在于，s1的步骤为：

3.根据权利要求1所述的基于语义增强知识图谱的大模型知识问答优化方法，其特征在于，s2的步骤为：

4.根据权利要求3所述的基于语义增强知识图谱的大模型知识问答优化方法，其特征在于，将从api获取的数据导入到知识图谱数据库中，存储和查询实体之间的关系数据包括：

5.根据权利要求4所述的基于语义增强知识图谱的大模型知识问答优化...

【专利技术属性】
技术研发人员：蒋林雪，冯晋阳，韩锡锐，韩长发，
申请(专利权)人：北京德塔精要信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人