语言幻觉检测模型的生成方法、装置及电子设备制造方法及图纸

技术编号：43231904 阅读：14 留言：0更新日期：2024-11-05 17:19

本公开提供了一种语言幻觉检测模型的生成方法、装置及电子设备，获取多个大语言模型；通过训练数据对多个大语言模型进行微调处理，得到多个微调后的大语言模型；训练数据包括文本数据以及对应的标签；标签用于指示文本数据是否失真；对多个微调后的大语言模型进行融合处理，得到目标检测模型；融合处理包括模型参数融合处理，和\或，模型输出结果融合处理。该方式提高了对文本数据的幻觉现象的检测准确率，提升了用户对语言模型的使用体验。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及大语言模型，具体而言，涉及一种语言幻觉检测模型的生成方法、装置及电子设备。

技术介绍

1、近年来，大型语言模型(large language model，简称“llm”)的崛起为自然语言处理(natural language processing，简称“nlp”)领域带来了翻天覆地的变革，引领了文本生成与理解能力的空前飞跃。这一技术的突破性进展极大地增强了人工智能系统在执行复杂推理与问题解决任务时的效能。然而，当前主流评估体系在衡量模型性能时，往往更侧重于输出的流畅性而非准确性。这种评估倾向导致神经网络在生成文本时，有时会产生表面上连贯但实质上失真的内容，即所谓的“幻觉”现象。相关技术中，可以采用selfcheckgpt、mind和unihd等方法减轻语言模型输出的语言幻觉现象。上述几种方法虽在各自领域有其独到之处，但均受限于特定的规则、结构或生成质量，导致对语言幻觉现象的处理效果有限，难以降低用户在接收到语言模型输出的“幻觉”语言时的消极体验。

技术实现思路

1、有鉴于此，本公开的目的在于提供一种语言幻觉检测模型的生成方法、装置及电子设备，以提高对文本数据的幻觉现象的检测准确率，提升用户对语言模型的使用体验。

2、第一方面，本公开实施例提供了一种语言幻觉检测模型的生成方法，该方法包括：获取多个大语言模型；通过训练数据对多个大语言模型进行微调处理，得到多个微调后的大语言模型；训练数据包括文本数据以及对应的标签；标签用于指示文本数据是否失真；对多个微调后的大语言

3、第二方面，本公开实施例提供了一种语言幻觉检测模型的生成装置，该装置包括：模型获取模块，用于获取多个大语言模型；微调模块，用于通过训练数据对多个大语言模型进行微调处理，得到多个微调后的大语言模型；训练数据包括文本数据以及对应的标签；标签用于指示文本数据是否失真；融合模块，用于对多个微调后的大语言模型进行融合处理，得到目标检测模型；融合处理包括模型参数融合处理，和\或，模型输出结果融合处理。

4、第三方面，本专利技术实施例提供了一种电子设备，包括处理器和存储器，存储器存储有能够被处理器执行的机器可执行指令，处理器执行机器可执行指令以实现上述的语言幻觉检测模型的生成方法。

5、第四方面，本专利技术实施例提供了一种机器可读存储介质，该机器可读存储介质存储有机器可执行指令，机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现上述的语言幻觉检测模型的生成方法。

6、本专利技术实施例带来了以下有益效果：

7、上述一种语言幻觉检测模型的生成方法、装置及电子设备，获取多个大语言模型；通过训练数据对多个大语言模型进行微调处理，得到多个微调后的大语言模型；训练数据包括文本数据以及对应的标签；标签用于指示文本数据是否失真；对多个微调后的大语言模型进行融合处理，得到目标检测模型；融合处理包括模型参数融合处理，和\或，模型输出结果融合处理。该方式提高了对文本数据的幻觉现象的检测准确率，提升了用户对语言模型的使用体验。

8、本公开的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本公开而了解。本公开的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

9、为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

本文档来自技高网...

【技术保护点】

1.一种语言幻觉检测模型的生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，通过训练数据对多个所述大语言模型进行微调处理的步骤，包括：

3.根据权利要求2所述的方法，其特征在于，基于预设的文本数据集合以及多个所述大语言模型，生成第一样本集合的步骤，包括：

4.根据权利要求3所述的方法，其特征在于，基于多个所述大语言模型输出的检测结果，确定所述文本数据对应的标签的步骤，包括：

5.根据权利要求3所述的方法，其特征在于，将所述文本数据分别输入至多个所述大语言模型，得到多个所述大语言模型输出的检测结果的步骤，包括：

6.根据权利要求1所述的方法，其特征在于，通过训练数据对多个所述大语言模型进行微调处理之前，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，对所述多个微调后的大语言模型进行融合处理，得到目标检测模型的步骤，包括：

8.根据权利要求1所述的方法，其特征在于，对所述多个微调后的大语言模型进行融合处理，得到目标检测模型的步骤，包括：

9.一种语

10.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现权利要求1-8任一项所述的语言幻觉检测模型的生成方法。

11.一种机器可读存储介质，其特征在于，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现权利要求1-8任一项所述的语言幻觉检测模型的生成方法。

...

【技术特征摘要】

1.一种语言幻觉检测模型的生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，通过训练数据对多个所述大语言模型进行微调处理的步骤，包括：

3.根据权利要求2所述的方法，其特征在于，基于预设的文本数据集合以及多个所述大语言模型，生成第一样本集合的步骤，包括：

4.根据权利要求3所述的方法，其特征在于，基于多个所述大语言模型输出的检测结果，确定所述文本数据对应的标签的步骤，包括：

5.根据权利要求3所述的方法，其特征在于，将所述文本数据分别输入至多个所述大语言模型，得到多个所述大语言模型输出的检测结果的步骤，包括：

6.根据权利要求1所述的方法，其特征在于，通过训练数据对多个所述大语言模型进行微调处理之前，所述方法还包括：

7.根据权利要求...

【专利技术属性】
技术研发人员：魏承承，陈泽，方松潭，
申请(专利权)人：网易杭州网络有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人