System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于大语言模型的数据立方体搜索和问答方法及其系统技术方案_技高网

基于大语言模型的数据立方体搜索和问答方法及其系统技术方案

技术编号:43814009 阅读:10 留言:0更新日期:2024-12-27 13:28
本发明专利技术公开基于大语言模型的数据立方体搜索和问答方法及其系统,包括步骤:步骤1,知识整理:对立方体数据的维度成员和度量值形成不同知识块,并分别存储于向量库中;步骤2,知识搜索:利用大语言模型对用户问题进行理解和拆分形成一个以上的子任务,对每个子任务分别进行向量库搜索得到问题的知识列表;步骤3,知识问答,利用大语言模型对知识搜索的结果进行问答分析和梳理,分析已知信息是否能够用于回答用户问题;如果是,则输出最终答案;否则,输出缺失内容并进行二次搜索问答。本发明专利技术基于大语言模型和数据立方体构建数据立方体搜索和问答技术体系,实现企业立方体数据的精准搜索和问答。

【技术实现步骤摘要】

本专利技术涉及大语言模型应用,尤其涉及基于大语言模型的数据立方体搜索和问答方法及其系统


技术介绍

1、大语言模型在企业中至关重要,它不仅能提升客户服务效率,还能助力内部知识管理和决策支持。大语言模型结合企业知识库,企业能更精准快速的获取企业知识和数据。而在企业数据库中,有很多数据是通过数据立方体的方式进行数据组织和存储,这部分数据。数据立方体将数据按照多个维度进行组织、汇总和展示,广泛应用于在线分析处理(olap)领域。大语言模型与数据立方体相结合,可以快速实现企业数据搜索和问答,可以帮助企业用户从多角度、多层次进行数据查询和分析,提供对多维数据的快速查询、分析和挖掘能力。从而更好地理解企业发展现状和用户需求,从而指导企业优化产品与服务。

2、前企业大语言模型问答系统中,常以非结构化数据为和列表数据为主,在应用大模型进行知识搜索和问答中,缺乏大模型与数据立方体相结合的问答系统,而以列表数据为主数据进行数据问答的系统中,数据散乱,数据搜索不精准,同时搜索出来的干扰项多,这需要依赖于强大大语言模型能力,如果大语言模型数据组织能力较弱,则无法实现企业数据精准问答。


技术实现思路

1、本专利技术的目的在于提供基于大语言模型的数据立方体搜索和问答方法及其系统,基于大语言模型和数据立方体,构建数据立方体搜索和问答技术体系,实现企业立方体数据的精准搜索和问答。

2、本专利技术采用的技术方案是:

3、基于大语言模型的数据立方体搜索和问答方法,其包括以下步骤:</p>

4、步骤1,知识整理:对立方体数据的维度成员和度量值形成不同知识块,并分别存储于向量库中;

5、步骤2,知识搜索:利用大语言模型对用户问题进行理解和拆分形成一个以上的子任务,对每个子任务分别进行向量库搜索得到问题的知识列表;

6、步骤3,知识问答,利用大语言模型对知识搜索的结果进行问答分析和梳理,分析已知信息是否能够用于回答用户问题;如果是,则输出最终答案;否则,输出缺失内容并进行二次搜索问答。

7、进一步地,步骤1具体包括以下步骤:

8、步骤1-1,采集获取企业现有系统的数据立方体中数据;

9、步骤1-2,对数据立方体中的维度成员及度量值进行处理形成知识块,分别按维度构建知识块、按维度成员构建知识块和按层次构建知识块;

10、步骤1-3,将整理好的知识进行向量化并存储于向量数据库中。

11、进一步地,步骤1-2中按维度构建知识块即获取数据立方体中所有数据的维度,并通过自然语言进行组织成便于理解的语句,如企业客户数据的观察维度包含name、address、phone。则沟通知识块为企业客户名称为name、地址是address,联系电话是phone;

12、进一步地,步骤1-2中按维度成员构建知识块即获取数据立方体中所有维度的成员数据,并通过自然语言进行组织成便于理解的语句,如时间维度成员包含q1、q2、q3、q4,则构建的知识块为时间维度成员包含包含q1、q2、q3、q4,其中q1为代表第一季度、q2为代表第二季度、q3为代表第三季度、q4为代表第四季度;

13、进一步地,步骤1-2中按层次构建知识块即按维度层次构建知识,通过自然语言进行组织成便于理解的语句,如时间维度包含年、月、周、日、时,则构建的知识块为“时间的维度层次包含:年、月、周、日、时;

14、进一步地,步骤2具体包括以下步骤:

15、步骤2-1,利用大语言模型对用户问题进行理解和拆分,形成若干个子任务;

16、步骤2-2,将大语言模型的输出进行格式化处理获取各个子任务的具体内容;

17、步骤2-3,将各个子任务分别进行向量化,并通过向量库采用选定的搜索算法进行语义相似度搜索;

18、步骤2-4,将多个任务的搜索结果进行合并,并进行去重处理得到问题的知识列表。

19、进一步地,步骤2-3中搜索算法采用预先相似度算法。

20、进一步地,步骤3具体包括以下步骤:

21、步骤3-1,将知识搜索的结果整理后为大语言模型的提示词输入并要求大语言模型在无法回答时列出已知的信息和缺失的信息,以得到大语言模型的输出结果

22、步骤3-2,:对大模型的输出结果进行解析;如果“问题答案”中不包含“无法回答您的问题”,则当前答案为最终答案;如果“问题答案”中包含“无法回答您的问题”,则从大语言模型的输出结果中解析出“缺失的信息”的内容;

23、步骤3-3,针对解析出来的缺失信息,利用大模型将缺失信息转换为补充问题,

24、步骤3-4,对补充问题分别进行二次知识搜索得到缺失内容对应的知识块;并将缺失内容对应的知识块与知识搜索中第四步得到知识进行合并,得到新的知识组合作为新的知识搜索结果;

25、步骤3-5,判断二次知识搜索的次数是否达到设定上限次数;如果是,则最后一次知识合并得到的知识搜索结果的内容作为最终答案;否则,执行步骤3-1;

26、进一步地,步骤3-5的设定上限次数为5次。

27、本专利技术还公开了基于大语言模型的数据立方体搜索和问答系统,其包括:

28、知识整理模块:用于基于立方体数据的维度成员和度量值形成不同知识块,并分别存储于向量库中;

29、知识搜索模块:用于利用大语言模型对用户问题进行理解和拆分形成一个以上的子任务,对每个子任务分别进行向量库搜索得到问题的知识列表;

30、知识问答模块:用于利用大语言模型对知识搜索的结果进行问答分析和梳理,分析已知信息是否能够用于回答用户问题;如果是,则输出最终答案;否则,输出缺失内容并进行二次搜索问答。

31、本专利技术采用以上技术方案,具有如下技术效果:1)通过对数据立方体中的维度、维度成员、层次进行数据整理技术,可以整理出大语言模型容易理解的知识,同时改知识也便于提取知识的语义,便于实现知识精准搜索;2)利用大语言模型对用户问题进行理解和拆分,可以避免搜索信息不全导致大模型答非所问,或者提供的信息不全的问题。3)通过大语言模型根据已知信息回答逐步用户问题,实现大模型的自我反思,实现问答的可靠性。

本文档来自技高网...

【技术保护点】

1.基于大语言模型的数据立方体搜索和问答方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的基于大语言模型的数据立方体搜索和问答方法,其特征在于:步骤1具体包括以下步骤:

3.根据权利要求2所述的基于大语言模型的数据立方体搜索和问答方法,其特征在于:步骤1-2中按维度构建知识块即获取数据立方体中所有数据的维度,并通过自然语言进行组织成便于理解的语句;按维度成员构建知识块即获取数据立方体中所有维度的成员数据,并通过自然语言进行组织成便于理解的语句;按层次构建知识块即按维度层次构建知识,通过自然语言进行组织成便于理解的语句。

4.根据权利要求1所述的基于大语言模型的数据立方体搜索和问答方法,其特征在于:步骤2具体包括以下步骤:

5.根据权利要求4所述的基于大语言模型的数据立方体搜索和问答方法,其特征在于:步骤2-3中搜索算法采用预先相似度算法。

6. 根据权利要求1所述的基于大语言模型的数据立方体搜索和问答方法,其特征在于:步骤3具体包括以下步骤:

7.根据权利要求6所述的基于大语言模型的数据立方体搜索和问答方法,其特征在于:步骤3-5的设定上限次数为5次。

8.基于大语言模型的数据立方体搜索和问答系统,采用权利要求1至7任一项所述的基于大语言模型的数据立方体搜索和问答方法,其特征在于:系统包括:

...

【技术特征摘要】

1.基于大语言模型的数据立方体搜索和问答方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的基于大语言模型的数据立方体搜索和问答方法,其特征在于:步骤1具体包括以下步骤:

3.根据权利要求2所述的基于大语言模型的数据立方体搜索和问答方法,其特征在于:步骤1-2中按维度构建知识块即获取数据立方体中所有数据的维度,并通过自然语言进行组织成便于理解的语句;按维度成员构建知识块即获取数据立方体中所有维度的成员数据,并通过自然语言进行组织成便于理解的语句;按层次构建知识块即按维度层次构建知识,通过自然语言进行组织成便于理解的语句。

4.根据权利要求1所述的基于大...

【专利技术属性】
技术研发人员:刘国旺余强力
申请(专利权)人:中电福富信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1