System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种具有时效性图谱的大模型知识库问答方法及系统技术方案_技高网

一种具有时效性图谱的大模型知识库问答方法及系统技术方案

技术编号:44721283 阅读:6 留言:0更新日期:2025-03-21 17:48
本发明专利技术涉及深度学习技术领域,具体涉及一种具有时效性图谱的大模型知识库问答方法及系统;方法的具体步骤为:构建一个能够及时更新数据,并能定期进行时效性数据清理的图数据库;输入自然语言中的内容,通过自然语言大模型进行三元组抽取;将获取的三元组结果,在图数据库和向量库中获得具体的查询结果;自然语言大模型根据图数据和向量库的查询结果进行参考回答;本发明专利技术的优点在于,知识图谱中的数据具有随时间变化而更新的能力,且能及时删除知识图谱中的过期数据,提高了图谱数据的时效性价值。

【技术实现步骤摘要】

本专利技术涉及深度学习,具体涉及一种具有时效性图谱的大模型知识库问答方法及系统


技术介绍

1、为了提高现有的大模型问答系统的准确性和专业性,知识图谱检索系统、时序检索系统和文本检索系统这三类被广泛运用于大模型问答当中。

2、知识图谱检索系统中的知识图谱是一种能够反映实体、关系及其属性在知识体系当中所处权重的知识图谱;知识图谱与传统的数据库不同,知识图谱能够捕捉和表示具体的实体对象与其他实体之间的关联关化,提供多维度的信息,使得知识信息能够更好地适应现实世界中的动态场景,知识图谱一般采用图数据库作为数据保存依赖,通过将数据存于节点与边进行保存,能够直观反映出数据之间的关系、关联性和权重等信息,在图谱应用中具有重要作用。

3、时序检索系统中的时序检索是一种对时间进行强绑定的数据检索系统,数据的“增”、“删”、“改”、“查”均与时间进行关联,在进行数据查询的时候能够直观的反映出数据与时间的关系,展示当前数据查询结果的时间价值,因此在时效性应用当中具有非常良好的效果。

4、文本检索系统是一类通过对自然语言进行检索的系统,包含文章,报表,图片ocr内容等信息。查询时候通过关键词匹配、词向量查询、关联查询或基于深度学习的语义搜索,在文本相似度上、语义相似度上能够具有良好的表现,但是在内容理解上查询具有较大劣势。

5、上述三种检索系统均存在一定劣势,例如知识图谱的关系查询方式,不能兼容时序查询的方式,缺乏时序功能;时序检索系统提供了时序功能,但还是缺乏像知识图谱一样便捷的抽取节点与其他节点之间的关系的查询方式;文本检索系统对于内容理解上相较于前两种检索方式的内容理解力上存在劣势,所以现目前急需一种能够提供时序功能、具备较强的语义逻辑理解能力,还能提供知识图谱检索方式的大模型知识库问答方法及系统。

6、现有一中国专利,申请号为cn202410144156.0,申请日为2024.02.01,专利名称为《基于问题校准与多跳建模的时序知识图谱问答挖掘方法》的专利技术专利,其技术方案为:基于问题校准与多跳建模的时序知识图谱问答挖掘方法,包括:通过嵌入时间位置编码,训练获得嵌入时间位置编码的时序知识图谱,从中获得与问题相关的候选知识主谓宾spo组,设计问题校准机制,根据问题文本和嵌入时间位置编码的时序知识图谱中的候选知识spo组进行问题校准,获得最终问题编码;根据时序知识图谱和最终问题编码提取多跳子图并进行多跳建模和训练,输出最终问题表示;根据最终问题表示,分别获得实体和时间戳的预测以及实体和时间戳的分数,建立交叉熵损失目标函数获得问题对应正确答案。

7、上述专利能根据最终问题分别获得实体和时间戳的预测,以及实体和时间戳的分数,建立交叉熵损失目标函数,获得问题对应的正确答案,但上述专利无法更新覆盖存入对应时间的最新信息,也无法实现定期进行时效性数据清理。


技术实现思路

1、为了解决现有技术中存在的问题,本申请提供了能够提供时序功能、具备较强的语义逻辑理解能力,还能提供知识图谱检索方式的一种具有时效性图谱的大模型知识库问答方法及系统。

2、为了实现上述技术效果,本申请的技术方案如下:

3、第一方面,一种具有时效性图谱的大模型知识库问答方法,具体包括如下步骤:

4、步骤一:构建一个能够及时更新数据,并能定期进行时效性数据清理的图数据库;

5、步骤二:输入自然语言中的内容,通过自然语言大模型进行三元组抽取;

6、步骤三:将获取的三元组结果,在图数据库和向量库中获得具体的查询结果;

7、步骤四:自然语言大模型根据图数据库和向量库的查询结果进行参考回答。

8、进一步的,能够及时更新数据,并能定期进行时效性数据清理的图数据库构建,包括如下具体步骤:

9、步骤a:输入需要的自然语言信息,提取自然语言信息内容中的时间;

10、步骤b:自然语言大模型理解自然语言文本内容后抽取关系,并以三元组列表的形式输出;

11、步骤c:获得自然语言大模型理解自然语言文本内容后抽取关系的输出结果后,提取结果当中的节点与关系;

12、步骤d:将提取到的结果当中的节点与关系,作为数据,存入缓存中;

13、步骤e:将存入缓存中的数据,输入到图数据库入库存储,完成图数据库的构建;

14、步骤a中,对自然语言信息内容中的时间提取的具体方式为:通过对文章本身进行分类,根据文章的类型匹配自然语言大模型提示词,通过给大模型编辑提示词的方式,让自然语言大模型判断当前内容当中包含的时间信息,并整理出时间信息。

15、更进一步的,大自然语言大模型对得到的时间信息进行解析,自然语言大模型根据提示词决定输出方式,将时间信息按照指定格式输出,再使用时间解析器,统一转化为13位长度的时间戳格式;若自然语言大模型解析内容时间失败,则指定一个时间,让该自然语言信息内容采用指定时间或未指定时间,直接让该自然语言信息内容采用当前时间;其中时间信息的指定格式为国际标准iso 8601格式;所述时间解析器为python中的datetime库,用于处理日期和时间,将日期和时间转换为时间戳。

16、更进一步的,步骤e中图数据库会定期进行时效性数据清理;定期进行时效性数据清理的具体方式为设置一个定时程序,对超过设定时间的数据删除处理;设置一个定时程序,对超过设定时间的数据删除处理的具体步骤如下:

17、步骤a1:设置一个定时器用于周期性的执行数据清理任务;

18、步骤b1:将定时程序与图数据库建立连接;

19、步骤c1:执行查询操作,检索出超过设定过期时间的数据,再将检索出的已经超过设定过期时间的数据进行删除;

20、步骤d1:同时清理向量库中的已经超过设定过期时间的数据。

21、更进一步的,所述步骤a1中设定定时器通过 schedule 库或者 apscheduler 库来实现,通过设定时间间隔触发执行数据清理任务;步骤c1中的检索和删除操作通过执行sql语句或图数据库的查询语言cypher for neo4j来完成;所述步骤d1通过faiss或annoy向量库工具,来完成对向量库中已经超过设定过期时间的数据进行清理;定时程序的运行过程中,为了跟踪程序的运行状态和历史操作,程序会在执行关键操作时记录日志,且记录日志通过python的 logging 模块来实现;在步骤b1、c1和d1中,当执行数据库操作,通过错误处理机制确保出现问题能够记录错误信息,并重新执行或停止执行。

22、更进一步的,所述错误处理机制具体方式为:当出现错误异常,程序首先会尝试执行数据库操作,在执行这些操作时,使用try语句块来捕获可能出现的错误异常,使用数据库返回的值来判断操作结果是否正常完成,当一个错误异常被触发,程序会通过except语句或者指定的错误码识别,两者共同捕获错误异常;对于捕获到的每种错误异常,程序会将错误异常信本文档来自技高网...

【技术保护点】

1.一种具有时效性图谱的大模型知识库问答方法,其特征在于,具体包括如下步骤:

2.根据权利要求1所述的具有时效性图谱的大模型知识库问答方法,其特征在于:能够及时更新数据,并能定期进行时效性数据清理的图数据库构建,包括如下具体步骤:

3.根据权利要求2所述的具有时效性图谱的大模型知识库问答方法,其特征在于:大自然语言大模型对得到的时间信息进行解析,自然语言大模型根据提示词决定输出方式,将时间信息按照指定格式输出,再使用时间解析器,统一转化为13位长度的时间戳格式;若自然语言大模型解析内容时间失败,则指定一个时间,让该自然语言信息内容采用指定时间或未指定时间,直接让该自然语言信息内容采用当前时间;其中时间信息的指定格式为国际标准ISO 8601格式;所述时间解析器为Python中的datetime库,用于处理日期和时间,将日期和时间转换为时间戳。

4.根据权利要求2所述的具有时效性图谱的大模型知识库问答方法,其特征在于:步骤e中图数据库会定期进行时效性数据清理;定期进行时效性数据清理的具体方式为设置一个定时程序,对超过设定时间的数据删除处理;设置一个定时程序,对超过设定时间的数据删除处理的具体步骤如下:

5.根据权利要求4所述的具有时效性图谱的大模型知识库问答方法,其特征在于:所述步骤a1中设定定时器通过 schedule 库或者 APScheduler 库来实现,通过设定时间间隔触发执行数据清理任务;步骤c1中的检索和删除操作通过执行SQL语句或图数据库的查询语言Cypher for Neo4j来完成;所述步骤d1通过Faiss或Annoy向量库工具,来完成对向量库中已经超过设定过期时间的数据进行清理;定时程序的运行过程中,为了跟踪程序的运行状态和历史操作,程序会在执行关键操作时记录日志,且记录日志通过Python的logging 模块来实现;在步骤b1、c1和d1中,当执行数据库操作,通过错误处理机制确保出现问题能够记录错误信息,并重新执行或停止执行。

6.根据权利要求5所述的具有时效性图谱的大模型知识库问答方法,其特征在于:所述错误处理机制具体方式为:当出现错误异常,程序首先会尝试执行数据库操作,在执行这些操作时,使用try语句块来捕获可能出现的错误异常,使用数据库返回的值来判断操作结果是否正常完成,当一个错误异常被触发,程序会通过except语句或者指定的错误码识别,两者共同捕获错误异常;对于捕获到的每种错误异常,程序会将错误异常信息记录到日志文件中;所述日志文件中记录包括错误类型、错误消息、发生时间和堆栈跟踪信息;对于某些可恢复的错误异常,程序设定一个重试策略,用于实现重试再次执行;当错误异常通过重试再次执行还是存在,则若出现的错误异常不影响程序的正常执行,程序对错误会直接忽略,并继续执行后续操作;若出现的错误异常影响到了程序的正常执行,程序会记录错误并停止执行;最终无论程序是否继续执行,都需要确保所有资源都被正确清理和释放,以避免资源泄露。

7.根据权利要求2所述的具有时效性图谱的大模型知识库问答方法,其特征在于:步骤e中,对于将缓存输入到图数据库的数据进行判断,判断该数据是否为常量数据,若为常量数据,则无需存入更新数据;若非常量数据,再进行数据的重复判断,若数据通过重复判断发现不存在重复数据,则直接存入数据入库,再存入到图数据库;若数据通过重复判断发现存在重复数据,则判断该数据是否为最新数据,若数据不是最新数据,则放弃存入数据到图数据库中;若数据为最新数据,则覆盖原来的旧数据,存入目前的新数据到数据入库,再从数据入库同时存入到图数据库和向量库中;数据入库操作采用事务管理的方式,确保数据的一致性,具体包括如下步骤:

8.根据权利要求7所述的具有时效性图谱的大模型知识库问答方法,其特征在于:所述步骤b2中,对数据进行验证,包括如下具体步骤:

9.一种具有时效性图谱的大模型知识库问答系统,其特征在于,具体包括:

10.根据权利要求9所述的具有时效性图谱的大模型知识库问答系统,其特征在于:三元组抽取模块通过给自然语言大模型设定提示词,抽取出输入内容当中三元组关系,再通过词向量数据库进行查询,将单个的关系拓展成多个语义数据;查询方式包括深度查询、单节点查询和广度查询;所述深度查询方式的查询算法为深度查询算法;所述深度查询算法具体为节点与节点之间存在多个节点的关联关系,设立两种排序方式进行权重排序,首先通过中间节点与关系的生效时间与过期时间进行综合排序作为排序依据,再通过时间的递进关系,判断关系时间是逐渐递增还是逐渐递减来确认查询权重,两者共同计算得到最终结果;所述单节点查询方式的算法为单节点查询算法;所述单节点查询...

【技术特征摘要】

1.一种具有时效性图谱的大模型知识库问答方法,其特征在于,具体包括如下步骤:

2.根据权利要求1所述的具有时效性图谱的大模型知识库问答方法,其特征在于:能够及时更新数据,并能定期进行时效性数据清理的图数据库构建,包括如下具体步骤:

3.根据权利要求2所述的具有时效性图谱的大模型知识库问答方法,其特征在于:大自然语言大模型对得到的时间信息进行解析,自然语言大模型根据提示词决定输出方式,将时间信息按照指定格式输出,再使用时间解析器,统一转化为13位长度的时间戳格式;若自然语言大模型解析内容时间失败,则指定一个时间,让该自然语言信息内容采用指定时间或未指定时间,直接让该自然语言信息内容采用当前时间;其中时间信息的指定格式为国际标准iso 8601格式;所述时间解析器为python中的datetime库,用于处理日期和时间,将日期和时间转换为时间戳。

4.根据权利要求2所述的具有时效性图谱的大模型知识库问答方法,其特征在于:步骤e中图数据库会定期进行时效性数据清理;定期进行时效性数据清理的具体方式为设置一个定时程序,对超过设定时间的数据删除处理;设置一个定时程序,对超过设定时间的数据删除处理的具体步骤如下:

5.根据权利要求4所述的具有时效性图谱的大模型知识库问答方法,其特征在于:所述步骤a1中设定定时器通过 schedule 库或者 apscheduler 库来实现,通过设定时间间隔触发执行数据清理任务;步骤c1中的检索和删除操作通过执行sql语句或图数据库的查询语言cypher for neo4j来完成;所述步骤d1通过faiss或annoy向量库工具,来完成对向量库中已经超过设定过期时间的数据进行清理;定时程序的运行过程中,为了跟踪程序的运行状态和历史操作,程序会在执行关键操作时记录日志,且记录日志通过python的logging 模块来实现;在步骤b1、c1和d1中,当执行数据库操作,通过错误处理机制确保出现问题能够记录错误信息,并重新执行或停止执行。

6.根据权利要求5所述的具有时效性图谱的大模型知识库问答方法,其特征在于:所述错误处理机制具体方式为:当出现错误异常,程序首先会尝试执行数据库操作,在执行这些操作时,使用try语句块来捕获可能出现的错误异常,使用数据库返回的值来判断操作结果是否正常完成,当一个错误异常被触发,程序会通过except语句或者指定的错误码识别,两者共同捕获错误异常;对于捕获到的每种错误异常,程序会将错误异常信息记录到日...

【专利技术属性】
技术研发人员:严得荣王伟旭刘家委
申请(专利权)人:成都数默科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1