System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于知识图谱的语言输出方法、系统、设备及存储介质技术方案_技高网

基于知识图谱的语言输出方法、系统、设备及存储介质技术方案

技术编号:42051965 阅读:7 留言:0更新日期:2024-07-16 23:31
本申请公开了一种基于知识图谱的语言输出方法、系统、设备及存储介质,属于信息检索技术领域。本申请首先对背景文档进行预处理和切分,从片段中提取摘要,对摘要进行向量编码;随后基于摘要构建向量数据库和知识图谱;对用户输入进行向量编码,得到输入向量,基于输入向量在向量数据库中查找对应向量的索引;再根据索引从知识图谱中获得一个节点,将节点以及和节点相似度最高的多个节点作为命中节点;最后将命中节点中存储的摘要输入大语言模型,得到最终的输出。本申请通过知识图谱和向量数据库的形式引入专业学科领域的背景文档对输入大语言模型的输入进行增强,由此大语言模型可更有针对性的提供更全面、更准确的答案和解决方案。

【技术实现步骤摘要】

本申请属于信息检索,更具体地,涉及一种基于知识图谱的语言输出方法、系统、设备及存储介质


技术介绍

1、近年来,大语言模型(largelanguage models,llm)在多种自然语言处理任务上取得了令人印象深刻的效果,并表现出若干涌现能力,诸如instructgpt、chatgpt、gpt4等自回归大语言模型通过预训练、指令精调、rlhf等技术,在理解、服从及响应人类指令方面表现出色的自然语言理解和生成能力,使其具备了作为通用任务求解器的潜在能力,对自然语言问答产生了深远影响。

2、专业学科的回答通常涉及复杂的理论体系、实践经验和判断能力,这些因素使得专业学科的回答往往难以通过简单的规则或算法来实现。将大语言模型直接应用于专业学科领域问答仍然存在诸多问题,一方面,利用大语言模型实现专业学科领域问答对硬件资源的要求极大;训练和调优这些庞大模型需要大量算力,对计算资源提出了极高要求。这使得应用大模型进行针对垂直学科领域的训练面临巨大困难。另一方面,在面对专业学科问题时,大语言模型往往难以准确地理解和解释复杂的概念和情境,从而影响了其在专业学科领域的应用效果。


技术实现思路

1、针对现有技术的以上缺陷或改进需求,本申请提供了一种基于知识图谱的语言输出方法、系统、设备及存储介质,其目的在于解决现有大语言模型应用于专业学科领域问答效果不好的技术问题。

2、为实现上述目的,第一方面,本申请提供了一种基于知识图谱的语言输出方法,包括:

3、对文档进行预处理和切分,为切分后的各片段设置唯一标识,从所述片段中提取摘要,对摘要进行向量编码;

4、以所述片段的标识为索引,基于编码后的向量构建向量数据库;

5、以所述片段的标识为节点,片段之间的相似度为边构建知识图谱,节点中存储有片段的摘要;

6、对用户输入进行向量编码,得到输入向量,基于输入向量在所述向量数据库中查找对应向量的索引;

7、根据所述索引从知识图谱中获得一个节点,将所述节点以及和所述节点相似度最高的多个节点作为命中节点;

8、将所述命中节点中存储的摘要输入大模型,得到最终的输出。

9、优选的,对文档进行预处理和切分,具体为:对文档进行清洗,去除文档中不需要的信息;随后按预设大小切分文档,将文档切分为多个大小相同的片段。

10、优选的,从所述片段中提取摘要,具体为:

11、将所述片段分割为多个句子,以句子为节点,句子之间的关系为边的权重构建有权无向图;

12、迭代计算每个节点的重要性,所述重要性由所有相邻节点的重要性和边的权重共同决定;

13、重要性最高的句子则为所述片段的摘要。

14、优选的,所述节点具有一个初始重要性,所述初始重要性等于节点中的专业词汇的数量加上预设的基准重要性。

15、优选的,进行向量编码,具体为:将句子分割为多个词;由词、词所在位置、词所在段落组成词向量,由所有词向量组成编码后的句子向量。

16、优选的,基于输入向量在所述向量数据库中查找对应向量的索引,具体为:

17、在所述向量数据库中查找是否有和输入向量相同的向量,若有,则输出所述向量的索引;若没有,则计算向量数据库中所有向量和输入向量之间的相似度,输出相似度最高的向量的索引。

18、优选的,将所述命中节点中存储的摘要输入大语言模型,具体为:

19、将所述命中节点中存储的摘要和预设文本输入大语言模型;所述预设文本由对应用户输入内容输入预训练语言模型后生成。

20、第二方面,本申请提供了一种基于知识图谱的语言输出系统,包括:

21、文档编码模块,用于对文档进行预处理和切分,为切分后的各片段设置唯一标识,从所述片段中提取摘要,对摘要进行向量编码;

22、数据库构建模块,用于以所述片段的标识为索引,基于编码后的向量构建向量数据库;

23、知识图谱构建模块,用于以所述片段的标识为节点,片段之间的相似度为边构建知识图谱,节点中存储有片段的摘要;

24、输入编码模块,用于对用户输入进行向量编码,得到输入向量,基于输入向量在所述向量数据库中查找对应向量的索引;

25、输入检索模块,用于根据所述索引从知识图谱中获得一个节点,将所述节点以及和所述节点相似度最高的多个节点作为命中节点;

26、输出模块,用于将所述命中节点中存储的摘要输入大语言模型,得到最终的输出。

27、第三方面,本申请提供一种电子设备,包括:存储器,用于存储程序;处理器,用于执行存储器存储的程序,当存储器存储的程序被执行时,处理器用于执行第一方面或第一方面的任一种可能的实现方式所描述的方法。

28、第四方面,本申请提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,当计算机程序在处理器上运行时,使得处理器执行第一方面或第一方面的任一种可能的实现方式所描述的方法。

29、总体而言,通过本申请所构思的以上技术方案与现有技术相比,具有以下有益效果:

30、(1)本申请可显著提高大型语言模型在专业学科领域的适用性和可信度;通过知识图谱和向量数据库的形式引入专业学科领域的背景文档对输入大语言模型的输入进行增强,由此大语言模型可更有针对性的提供更全面、更准确的答案和解决方案。

31、(2)本申请根据专业学科领域中的专业词汇和句子之间的相互关系作为衡量背景文档中的关键句子的重要性指标,由此从文档片段中筛选出的关键句子作为文档片段的摘要,由此,摘要能更贴切专业学科领域的表述。

32、(3)本申请中对摘要的向量编码包含了摘要中各个词汇的位置和摘要的位置,由此将背景文档的上下文信息也包含了进去,由此,向量中包含了更多专业学科背景信息。

本文档来自技高网...

【技术保护点】

1.一种基于知识图谱的语言输出方法,其特征在于,包括:

2.根据权利要求1所述的语言输出方法,其特征在于,从所述片段中提取摘要,具体为:

3.根据权利要求2所述的语言输出方法,其特征在于,所述节点具有初始重要性,所述初始重要性等于节点中的专业词汇的数量加上预设的基准重要性。

4.根据权利要求1所述的语言输出方法,其特征在于,进行向量编码,具体为:将句子分割为多个词;由词、词所在位置、词所在段落组成词向量,由所有词向量组成编码后的句子向量。

5.根据权利要求1所述的语言输出方法,其特征在于,基于输入向量在所述向量数据库中查找对应向量的索引,具体为:

6.根据权利要求1所述的语言输出方法,其特征在于,将所述命中节点中存储的摘要输入大语言模型,具体为:

7.根据权利要求1所述的语言输出方法,其特征在于,对文档进行预处理和切分,具体为:对文档进行清洗,去除文档中不需要的信息;随后按预设大小切分文档,将文档切分为多个大小相同的片段。

8.根据权利要求1所述的语言输出系统,其特征在于,包括:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,当所述计算机程序在处理器上运行时,使得所述处理器执行如权利要求1-7任一所述的方法。

...

【技术特征摘要】

1.一种基于知识图谱的语言输出方法,其特征在于,包括:

2.根据权利要求1所述的语言输出方法,其特征在于,从所述片段中提取摘要,具体为:

3.根据权利要求2所述的语言输出方法,其特征在于,所述节点具有初始重要性,所述初始重要性等于节点中的专业词汇的数量加上预设的基准重要性。

4.根据权利要求1所述的语言输出方法,其特征在于,进行向量编码,具体为:将句子分割为多个词;由词、词所在位置、词所在段落组成词向量,由所有词向量组成编码后的句子向量。

5.根据权利要求1所述的语言输出方法,其特征在于,基于输入向量在所述向量数据库中查找对应向量的索引,具体为:

【专利技术属性】
技术研发人员:刘齐平刘文平曾金邓乾张万国陈雄宇
申请(专利权)人:湖北经济学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1