用于选取知识库的方法、装置及存储介质制造方法及图纸

技术编号：44168025 阅读：35 留言：0更新日期：2025-01-29 10:42

本申请涉及人工智能技术领域，尤其是一种用于选取知识库的方法、装置及存储介质。包括：获取用户的当前查询意图和当前用户画像；获取样例数据集中的正样例数据集；基于针对知识库选取大模型的正样例数据集生成任务情景提示词；基于任务情景提示词构建知识库选取大模型；将当前查询意图与当前用户画像输入知识库选取大模型，得到当前可用的每个知识库的知识库选取得分；根据预设选取规则以及当前可用的每个知识库的知识库选取得分，从当前可用的每个知识库中选取得到针对用户的当前查询意图的目标知识库，考虑了用户的个性化需求，能够精准地确定出用户所需的目标知识库，提高后续解答用户问答的效率和准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，具体地涉及一种用于选取知识库的方法、装置及存储介质。

技术介绍

1、智能问答系统广泛应用于多个行业的客户服务领域。该系统能够识别客户的问题语义，并自动从知识库中检索相关信息，以生成针对用户问题的回复。现有的智能问答系统一般是基于关键词和规则实现特定场景和话术的跳转或者是基于用户的问题语义去已有的数据库中收集相关的参考数据，再将用户问题和参考数据输入至大模型，通过大模型给出对应的回复。但是，现有的方式都是直接从已有的数据库中搜索，没有结合用户的需求偏好，没有考虑用户对不同数据库提供的文本的反馈，导致无法及时准确地有针对性地确定出用户所需的数据库，而是直接从已有的本地数据库中直接获取数据，这些数据的重复性很高，导致后续的回复同质化严重，不能真正解决用户的问题，降低用户的使用体验。

技术实现思路

1、本申请实施例的目的是提供一种用于选取知识库的方法、装置及存储介质，用以解决现有技术中缺乏用户反馈，无法确定与用户查询相关联的数据库，导致用户问题得不到真正的解决的问题。

2、为了实现上述目的，本申请第一方面提供一种用于选取知识库的方法，方法包括：

3、获取用户的当前查询意图，当前查询意图由用户输入的查询问题及其历史上下文解析得到；

4、获取用户的当前用户画像，当前用户画像是根据用户的个人信息和历史行为数据构建的指标参数集合；

5、获取样例数据集中的正样例数据集，其中，样例数据集是基于每个用户的历史查询意图和历史用户画像及其对应的输出构建的；

6、基于针对知识库选取大模型的正样例数据集生成任务情景提示词，正样例数据集中的任一正样例数据为历史调用知识库选取大模型的一组输入结构的历史数据到输出结构的历史数据的映射，其中，输入结构包括查询意图与用户画像，输出结构包括多个知识库的知识库选取得分；

7、基于任务情景提示词构建知识库选取大模型，任务情景提示词用于使知识库选取大模型基于输入结构的输入数据得到输出结构的输出数据；

8、将当前查询意图与当前用户画像输入知识库选取大模型，得到当前可用的每个知识库的知识库选取得分；

9、根据预设选取规则以及当前可用的每个知识库的知识库选取得分，从当前可用的每个知识库中选取得到针对用户的当前查询意图的目标知识库。

10、在本申请实施例中，输入结构还包括多个知识库的知识库描述，基于针对知识库选取大模型的正样例数据集生成任务情景提示词包括：将知识库选取任务介绍文本、当前可用的知识库的知识库描述、输入结构、输出结构以及正样例数据集中的至少部分正样例数据进行拼接得到任务情景提示词。

11、在本申请实施例中，正样例数据集中的至少部分正样例数据包括正样例数据集中置信计数排名最高的预设数量的正样例数据。

12、在本申请实施例中，方法还包括：从目标知识库中提取出针对当前查询意图的上下文知识；将当前查询意图和上下文知识输入大模型，以得到针对当前查询意图的回复。

13、在本申请实施例中，从目标知识库中提取出针对当前查询意图的上下文知识包括：在目标知识库为用于生成特定领域文本的垂域大模型的情况下，将当前查询意图输入垂域大模型，以生成针对当前查询意图的上下文知识；在目标知识库为用于存储特定领域文本的垂域数据库的情况下，从垂域数据库中检索出与当前查询意图相关联的上下文知识。

14、在本申请实施例中，方法还包括：将回复反馈至用户，并获取用户针对回复的评分；基于当前查询意图、当前用户画像和当前可用的每个知识库的知识库选取得分构建得到的当前正样例数据；在评分大于第一预设分数的情况下，将基于当前查询意图、当前用户画像和当前可用的每个知识库的知识库选取得分构建得到的当前正样例数据加入正样例数据集。

15、在本申请实施例中，在评分大于第一预设分数的情况下，将基于当前查询意图、当前用户画像和当前可用的每个知识库的知识库选取得分构建得到的当前正样例数据加入正样例数据集，包括：在正样例数据集中检索是否存在输入结构中的查询意图与当前查询意图相似、且输入结构中的用户画像与当前用户画像相似的历史正样例数据；在存在历史正样例数据且评分大于第一预设分数的情况下，增加历史正样例数据的置信计数；在存在历史正样例数据且评分小于第二预设分数的情况下，降低历史正样例数据的置信计数；在不存在历史正样例数据且评分大于第一预设分数的情况下，将基于当前查询意图、当前用户画像和当前可用的每个知识库的知识库选取得分构建得到的当前正样例数据加入正样例数据集。

16、在本申请实施例中，将当前查询意图和上下文知识输入大模型，以得到针对当前查询意图的回复，包括：在目标知识库的数量为多个的情况下，确定从每个目标知识库中提取的一个上下文知识与当前查询意图之间的语义相似度；基于语义相似度降序排列所有上下文知识；将排列后的所有上下文知识和当前查询意图输入至大模型，以得到回复。

17、在本申请实施例中，将当前查询意图和上下文知识输入大模型，以得到针对当前查询意图的回复，包括：将语义相似度大于预设数值的上下文知识确定为目标上下文知识；将目标上下文知识和当前查询意图输入至大模型，以得到回复。

18、在本申请实施例中，根据预设选取规则以及当前可用的每个知识库的知识库选取得分，从当前可用的每个知识库中选取得到针对用户的当前查询意图的目标知识库，包括：针对每个知识库选取得分，在该知识库选取得分大于设定阈值的情况下，将该知识库选取得分对应的知识库确定为目标知识库；或者，按照知识库选取得分的大小降序排列所有的知识库，并将排名最靠前的预设数量的知识库确定为目标知识库。

19、在本申请实施例中，知识库通过以下步骤训练得到的：确定目标垂域对应的多个参与方，多个参与方拥有目标垂域的本地文本数据；将目标垂域的初始大模型分发至多个参与方，以使多个参与方基于各自所拥有的目标垂域的本地文本数据迭代训练初始大模型；获取多个参与方各自返回的迭代训练得到的临时大模型，并将其中校验合规的临时大模型进行聚合得到当前最新的聚合大模型；在满足迭代训练的终止条件的情况下，将当前最新的聚合大模型确定为目标垂域对应的知识库。

20、本申请第二方面提供一种用于选取知识库的装置，包括：

21、存储器，被配置成存储指令；

22、处理器，被配置成从存储器调用指令以及在执行指令时能够实现上述的用于选取知识库的方法。

23、本申请第三方面提供一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令用于使得机器执行上述的用于选取知识库的方法。

24、通过上述技术方案，能够基于针对知识库选取大模型的正样例数据集生成任务情景提示词，从未基于任务情景提示词构建知识库选取大模型，以将用户的当前查询意图与当前用户画像输入至知识库选取大模型，得到当前可用的每个知识库的知识库选取得分，最后根据预设选取规则以及当前可用的每个知识库的知识库选取得分，从当前可用的每个知识库中本文档来自技高网...

【技术保护点】

1.一种用于选取知识库的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的用于选取知识库的方法，其特征在于，所述输入结构还包括所述多个知识库的知识库描述，所述基于针对知识库选取大模型的所述正样例数据集生成任务情景提示词包括：

3.根据权利要求2所述的用于选取知识库的方法，其特征在于，所述正样例数据集中的至少部分正样例数据包括所述正样例数据集中置信计数排名最高的预设数量的正样例数据。

4.根据权利要求1所述的用于选取知识库的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的用于选取知识库的方法，其特征在于，所述从所述目标知识库中提取出针对所述当前查询意图的上下文知识包括：

6.根据权利要求4所述的用于选取知识库的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的用于选取知识库的方法，其特征在于，所述在所述评分大于第一预设分数的情况下，将基于所述当前查询意图、所述当前用户画像和所述当前可用的每个知识库的知识库选取得分构建得到的当前正样例数据加入所述正样例数据集，包括：

9.根据权利要求8所述的用于选取知识库的方法，其特征在于，将所述当前查询意图和所述上下文知识输入大模型，以得到针对所述当前查询意图的回复，包括：

10.根据权利要求1所述的用于选取知识库的方法，其特征在于，所述根据预设选取规则以及所述当前可用的每个知识库的知识库选取得分，从所述当前可用的每个知识库中选取得到针对所述用户的所述当前查询意图的目标知识库，包括：

11.根据权利要求1所述的用于选取知识库的方法，其特征在于，所述知识库通过以下步骤训练得到的：

12.一种用于选取知识库的装置，其特征在于，包括：

13.一种机器可读存储介质，其特征在于，该机器可读存储介质上存储有指令，该指令用于使得机器执行根据权利要求1至11中任一项所述的用于选取知识库的方法。

...

【技术特征摘要】

1.一种用于选取知识库的方法，其特征在于，所述方法包括：

4.根据权利要求1所述的用于选取知识库的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的用于选取知识库的方法，其特征在于，所述从所述目标知识库中提取出针对所述当前查询意图的上下文知识包括：

6.根据权利要求4所述的用于选取知识库的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的用于选取知识库的方法，其特征在于，所述在所述评分大于第一预设分数的情况下，将基于所述当前查询意图、所述当前用户画像和所述当前可用的每个知识库的知识库选取得分构建...

【专利技术属性】
技术研发人员：尹倩倩，周志忠，童兴，李坤，
申请(专利权)人：中科云谷科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人