问答数据生成方法、装置、设备及存储介质制造方法及图纸

技术编号：43365143 阅读：7 留言：0更新日期：2024-11-19 17:48

本申请公开了一种问答数据生成方法、装置、设备及存储介质，通过获取日志数据和问题集合，计算问题集合中每个问题的目标值，将目标值满足第一阈值条件的问题作为第一问题；将第一问题和日志数据输入大规模语言模型，得到与第一问题对应的答案；将第一问题和答案输入预先训练好的答案修正模型，生成答案修正建议信息，根据答案修正建议信息对答案进行修正，得到与第一问题对应的第一答案；根据第一问题和与第一问题对应的第一答案，得到问答数据；将问答数据和日志数据输入预先构建好的质量评估模型，确定目标评估参数，根据评估参数得到目标问答数据。根据本申请实施例，能够生成更为准确和全面的问答数据，保证了问答数据生成质量的稳定性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请属于大数据，尤其涉及一种问答数据生成方法、装置、设备、存储介质及计算机程序产品。

技术介绍

1、日志问答数据是指包含问题和对应答案的数据集合，通常用于训练和评估问答系统、对话系统和自然语言处理模型等。

2、现有技术中生成问答数据的手段单一，直接基于预设模型生成问答数据，存在生成的问答数据与原始日志相比缺乏准确性和全面性，质量不稳定的问题。

技术实现思路

1、本申请实施例提供一种问答数据生成方法、装置、设备、存储介质及计算机程序产品，能够在问题生成、答案生成和问答数据过滤三个方面都进行优化，能够生成更为准确和全面的问答数据，保证了问答数据生成质量的稳定性。

2、第一方面，本申请实施例提供一种问答数据生成方法，方法包括：

3、获取日志数据和问题集合；日志数据包括日志关键信息；问题集合是基于日志关键信息生成；问题集合包括各问题在问题集合中的出现频率、问题关键信息的重要度、问题的相似度和问题关键信息的向量熵；

4、根据问题集合中问题的出现频率和问题关键信息的重要度，问题的相似度和问题关键信息的向量熵，计算问题集合中每个问题的目标值，目标值表征问题的重要度和多样度，将目标值满足第一阈值条件的问题作为第一问题；

5、将第一问题和日志数据输入大规模语言模型，基于日志数据提取与第一问题的相关度满足第二阈值条件的第二关键信息；将第二关键信息进行整合，得到与第一问题对应的答案；

6、将第一问题和答案输入预先训练好的答案修正模

7、根据第一问题和与第一问题对应的第一答案，得到问答数据；

8、将问答数据和日志数据输入预先构建好的质量评估模型，基于问答数据，或者问答数据和日志数据，确定目标评估参数，基于评估参数与质量分数之间的对应关系，得到目标评估参数对应的质量分数，输出质量分数满足预设的第三阈值条件的目标问答数据。

9、第二方面，本申请实施例提供了一种问答数据生成装置，装置包括：

10、获取模块，用于获取日志数据和问题集合；日志数据包括日志关键信息；问题集合是基于日志关键信息生成；问题集合包括各问题在问题集合中的出现频率、问题关键信息的重要度、问题的相似度和问题关键信息的向量熵；

11、生成模块，用于根据问题集合中问题的出现频率和问题关键信息的重要度，问题的相似度和问题关键信息的向量熵，计算问题集合中每个问题的目标值，目标值表征问题的重要度和多样度，将目标值满足第一阈值条件的问题作为第一问题；

12、所述生成模块，还用于将第一问题和日志数据输入大规模语言模型，基于日志数据提取与第一问题的相关度满足第二阈值条件的第二关键信息；将第二关键信息进行整合，得到与第一问题对应的答案；

13、所述生成模块，还用于将第一问题和答案输入预先训练好的答案修正模型，基于答案修正模型中的问题与答案的对应关系确定第一问题对应的目标答案，基于目标答案和答案生成答案修正建议信息，根据答案修正建议信息对答案进行修正，得到与第一问题对应的第一答案；

14、所述生成模块，还用于根据第一问题和与第一问题对应的第一答案，得到问答数据；

15、评估模块，用于将问答数据和日志数据输入预先构建好的质量评估模型，基于问答数据，或者问答数据和日志数据，确定目标评估参数，基于评估参数与质量分数之间的对应关系，得到目标评估参数对应的质量分数，输出质量分数满足预设的第三阈值条件的目标问答数据。

16、第三方面，本申请实施例提供了一种问答数据生成设备，设备包括：处理器以及存储有计算机程序指令的存储器；处理器执行计算机程序指令时实现如第一方面的问答数据生成方法。

17、第四方面，本申请实施例提供了一种计算机存储介质，计算机存储介质上存储有计算机程序指令，计算机程序指令被处理器执行时实现如第一方面的问答数据生成方法。

18、第五方面，本申请实施例提供了一种计算机程序产品，计算机程序产品中的指令由电子设备的处理器执行时，使得电子设备执行如第一方面的问答数据生成方法。

19、本申请实施例的问答数据生成方法、装置、设备、存储介质及计算机程序产品，通过计算问题集合中每个问题的重要度和多样度，能够基于问题的重要性和多样性来考虑生成问题的质量，实现在问题生成方面进行优化；通过将问题和日志数据一同输入大规模语言模型生成与问题对应的答案，使得模型不仅仅基于问题本身，而是在问题所处的上下文信息中寻找答案，通过上下文信息增强问题理解，实现在答案生成方面进行优化；通过质量评估模型中的多个评估参数得到问答数据的质量分数，将质量分数满足预设阈值条件的问答数据作为目标问答数据，实现对问答数据的多维度质量评估，从而实现在问答数据过滤方面进行优化；由于在问题生成、答案生成和问答数据过滤三个方面都进行了优化，因此能够生成更为准确和全面的问题和答案，从而有效保证了问答数据生成质量的稳定性。

本文档来自技高网...

【技术保护点】

1.一种问答数据生成方法，其特征在于，包括：

2.根据权利要求1所述的问答数据生成方法，其特征在于，还包括：

3.根据权利要求1所述的问答数据生成方法，其特征在于，所述目标值包括问题的多样度；所述根据所述问题集合中问题的出现频率和所述问题关键信息的重要度，所述问题的相似度和所述问题关键信息的向量熵，计算所述问题集合中每个问题的目标值，包括：

4.根据权利要求1所述的问答数据生成方法，其特征在于，在所述将所述第一问题和所述答案输入预先训练好的答案修正模型之前，所述方法还包括：

5.根据权利要求4所述的问答数据生成方法，其特征在于，所述利用所述训练样本训练预设的BERT模型，在满足训练停止条件的情况下，确定训练得到的模型为答案修正模型，包括：

6.根据权利要求1所述的问答数据生成方法，其特征在于，所述评估参数包括答案长度；所述基于所述问答数据确定目标评估参数，包括：

7.根据权利要求1所述的问答数据生成方法，其特征在于，所述评估参数包括答案分词与日志分词的比值；所述基于所述问答数据和所述日志数据，确定目标评估参数，包括：

8.根据权利要求1所述的问答数据生成方法，其特征在于，所述评估参数包括问题向量与答案向量的相似度；所述基于所述问答数据，确定目标评估参数，包括：

9.根据权利要求1所述的问答数据生成方法，其特征在于，所述评估参数包括答案向量与日志数据向量的相似度；所述基于所述问答数据和所述日志数据，确定目标评估参数，包括：

10.一种问答数据生成装置，其特征在于，所述装置包括：

11.一种问答数据生成设备，其特征在于，所述设备包括：处理器以及存储有计算机程序指令的存储器；

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-9任意一项所述的问答数据生成方法。

13.一种计算机程序产品，其特征在于，所述计算机程序产品中的指令由电子设备的处理器执行时，使得所述电子设备执行如权利要求1-9任意一项所述的问答数据生成方法。

...

【技术特征摘要】

1.一种问答数据生成方法，其特征在于，包括：

2.根据权利要求1所述的问答数据生成方法，其特征在于，还包括：

4.根据权利要求1所述的问答数据生成方法，其特征在于，在所述将所述第一问题和所述答案输入预先训练好的答案修正模型之前，所述方法还包括：

5.根据权利要求4所述的问答数据生成方法，其特征在于，所述利用所述训练样本训练预设的bert模型，在满足训练停止条件的情况下，确定训练得到的模型为答案修正模型，包括：

6.根据权利要求1所述的问答数据生成方法，其特征在于，所述评估参数包括答案长度；所述基于所述问答数据确定目标评估参数，包括：

7.根据权利要求1所述的问答数据生成方法，其特征在于，所述评估参数包括答案分词与日志分词的...

【专利技术属性】
技术研发人员：尚晶，栾钟治，张逸飞，黄绍晗，肖智文，齐家兴，武智晖，杨海龙，卢泽萍，王冀彬，
申请(专利权)人：中移动信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人