基于智能体的对话数据生成方法、评估方法、训练方法及相关装置制造方法及图纸

技术编号：43694260 阅读：2 留言：0更新日期：2024-12-18 21:10

本公开提供了一种基于智能体的对话数据生成方法，涉及人工智能技术领域。具体实现方案为：响应于接收到的对话数据生成请求，获取配置有各自对象画像的多个第一智能体，以及配置有各自实体画像的多个第二智能体；选择多个第一智能体中的目标第一智能体与多个第二智能体中的目标第二智能体进行对话，得到对话数据，其中，目标第一智能体根据配置的目标对象画像输出第一对话内容，第一对话内容具有目标对象的对话行为特征和语言风格特征，目标第二智能体根据配置的实体画像输出第二对话内容。本公开还提供了智能体评估方法、智能体的训练方法、智能体、装置、电子设备、存储介质和程序产品。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及人工智能，尤其涉及大语言模型、智能体、人机交互等，可应用于内容生成、智能体客服、智能体评估、问答、营销、广告检索分发等场景。更具体地，本公开提供了一种基于智能体的对话数据生成方法、评估方法、训练方法、智能体、装置、电子设备、存储介质和程序产品。

技术介绍

1、智能体是人工智能领域的一个重要概念，它指的是能够感知环境、做出决策和执行动作的系统或实体。随着大模型技术的崛起，智能体在问答、营销等各类场景下都开始发挥作用，例如模拟人类对话，能够与用户进行文字或语音对话。但是目前在实际场景积累智能体的对话数据周期长，缺乏数量足够的、真实的对话样本，不利于对智能体快速迭代优化。

技术实现思路

1、本公开提供了基于智能体的对话数据生成方法、评估方法、训练方法、智能体、装置、电子设备、存储介质和程序产品。

2、根据本公开的一方面，提供了一种基于智能体的对话数据生成方法，该方法包括：响应于接收到的对话数据生成请求，获取配置有各自对象画像的多个第一智能体，以及配置有各自实体画像的多个第二智能体；选择多个第一智能体中的目标第一智能体与多个第二智能体中的目标第二智能体进行对话，得到对话数据，其中，目标第一智能体根据配置的目标对象画像输出第一对话内容，第一对话内容具有目标对象的对话行为特征和语言风格特征，目标第二智能体根据配置的实体画像输出第二对话内容。

3、根据本公开的另一方面，提供了一种智能体评估方法，该方法包括：响应于针对目标第二智能体的评估请求，获取目标第一智能体与

4、根据本公开的另一方面，提供了一种智能体的训练方法，该方法包括：基于目标第一智能体与目标第二智能体的对话数据获取训练样本集合，对话数据是根据如上基于智能体的对话数据生成方法得到的；将训练样本集合中的对话样本输入奖励模型，获得奖励模型输出的奖励得分；基于奖励得分对目标第二智能体进行强化学习训练，以调整目标第二智能体的底座大模型参数。

5、根据本公开的另一方面，提供了一种智能体，被配置为根据本公开实施例提供的智能体的训练方法得到。

6、根据本公开的另一方面，提供了一种基于智能体的对话数据生成装置，该装置包括：第一获取单元，用于响应于接收到的对话数据生成请求，获取配置有各自对象画像的多个第一智能体，以及配置有各自实体画像的多个第二智能体；第一对话单元，用于选择多个第一智能体中的目标第一智能体与多个第二智能体中的目标第二智能体进行对话，得到对话数据，其中，目标第一智能体根据配置的目标对象画像输出第一对话内容，第一对话内容具有目标对象的对话行为特征和语言风格特征，目标第二智能体根据配置的实体画像输出第二对话内容。

7、根据本公开的另一方面，提供了一种智能体评估装置，该装置包括：第二获取单元，用于响应于针对目标第二智能体的评估请求，获取目标第一智能体与目标第二智能体的对话数据，对话数据是根据基于智能体的对话数据生成装置得到的；智能体评估单元，用于将对话数据输入至少一个评估大模型，获得至少一个评估大模型对目标第二智能体的评估结果。

8、根据本公开的另一方面，提供了一种智能体的训练装置，该装置包括：训练样本单元，用于基于目标第一智能体与目标第二智能体的对话数据获取训练样本集合，对话数据是根据基于智能体的对话数据生成装置得到的；奖励得分单元，用于将训练样本集合中的对话样本输入奖励模型，获得奖励模型输出的奖励得分；参数调整单元，用于基于奖励得分对目标第二智能体进行强化学习训练，以调整目标第二智能体的底座大模型参数。

9、根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行根据本公开提供的方法。

10、根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行根据本公开提供的方法。

11、根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现根据本公开提供的方法。

12、应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种基于智能体的对话数据生成方法，包括：

2.根据权利要求1所述的方法，其中，所述选择所述多个第一智能体中的目标第一智能体与所述多个第二智能体中的目标第二智能体进行对话，得到对话数据包括：

3.根据权利要求2所述的方法，其中，所述调用所述目标第一智能体的行为大模型和对话策略大模型，与所述目标第二智能体进行对话包括：

4.根据权利要求3所述的方法，还包括：在使所述行为大模型根据所述第二对话内容和所述目标对象画像输出所述对话行为特征之后，

5.根据权利要求3所述的方法，还包括：在使所述行为大模型根据所述第二对话内容和所述目标对象画像输出所述对话行为特征之后，

6.根据权利要求1所述的方法，其中，所述选择所述多个第一智能体中的目标第一智能体与所述多个第二智能体中的目标第二智能体进行对话包括：

7.根据权利要求6所述的方法，其中，

8.一种智能体评估方法，包括：

9.根据权利要求8所述的方法，其中，所述对话数据包括所述目标第二智能体对每个功能指标的问话解答集合，所述至少一个评估大模型包括评卷大模型，

10.根据权利要求8所述的方法，其中，所述至少一个评估大模型包括体验评估大模型，所述将所述对话数据输入至少一个评估大模型，获得所述至少一个评估大模型对所述目标第二智能体的评估结果包括：

11.根据权利要求10所述的方法，其中，所述至少一个评估大模型包括多个所述体验评估大模型，

12.根据权利要求8所述的方法，其中，所述至少一个评估大模型包括转化评估大模型，所述将所述对话数据输入至少一个评估大模型，获得所述至少一个评估大模型对所述目标第二智能体的评估结果包括：

13.一种智能体的训练方法，包括：

14.根据权利要求13所述的方法，其中，所述奖励模型包括多个评估大模型，

15.一种智能体，被配置为根据权利要求13或14所述的方法训练得到。

16.一种基于智能体的对话数据生成装置，包括：

17.一种智能体评估装置，包括：

18.一种智能体的训练装置，包括：

19.一种电子设备，包括：

20.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1~7中任一项所述的方法，或者权利要求8~12中任一项所述的方法，或者权利要求13~14所述的方法。

21.一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现根据权利要求1~7中任一项所述的方法，或者权利要求8~12中任一项所述的方法，或者权利要求13~14所述的方法。

...

【技术特征摘要】