面向政务领域大语言模型的数据筛选法、电子设备和介质制造技术

技术编号：44281743 阅读：8 留言：0更新日期：2025-02-14 22:19

本发明专利技术属于计算机自然语言技术领域，公开了一种面向政务领域大语言模型的训练数据筛选法、电子设备和存储介质，面向政务领域大语言模型的训练数据筛选法包括：获取基于政务领域的原始数据集；基于原始数据集训练得到打分模型；调用打分模型对原始数据集进行质量评估，得到质量数据集；根据质量数据集得到种子数据集；根据种子数据集得到训练数据集。本发明专利技术基于原始数据集训练打分模型，使得打分模型对大语音模型有更好的适应性，通过打分模型用于评估指令的质量，使得筛选出的训练数据更为精准。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机自然语言，具体涉及面向政务领域大语言模型的训练数据筛选法、电子设备和存储介质。

技术介绍

1、大型语言模型(large language models,简称llms)，如chatgpt和llama，在自然语言处理(natural language processing,简称nlp)领域取得了显著的进展。这些模型展示了卓越的语言理解和生成能力，广泛应用于各种任务中。然而，在某些专业领域，如医学领域，传统的语言模型尚无法满足其对高精度和专业知识的严格要求。例如，在病历分析和临床决策支持等任务中，模型需要具备高度的准确性和专业性。这就对指令微调(instruction fine-tuning,简称ift)技术提出了更高的需求，以确保模型能够执行专业的任务。

2、在相关技术中，大型语言模型的微调主要依赖于大规模预训练和丰富的训练数据，使得训练数据不够精准。

技术实现思路

1、有鉴于此，本专利技术提供了一种面向政务领域大语言模型的训练数据筛选法、电子设备和存储介质，以解决现有技术中存在训练数据不够精准的问题。

2、第一方面，本专利技术提供了一种面向政务领域大语言模型的训练数据筛选法，包括：获取基于政务领域的原始数据集，所述原始数据集包括多条数据，所述数据表示为x＝(i,o),其中，i为指令，o为回答；基于所述原始数据集训练得到打分模型；调用所述打分模型对所述原始数据集进行质量评估，得到质量数据集；根据所述质量数据集得到种子数据集；根据所述种子数据集得到训练数据集。

3、在一些实施方式中，基于所述原始数据集训练打分模型，具体包括：对所述原始数据集进行混合采样，得到子数据集；增强所述子数据集，得到增强数据集；根据所述增强数据集训练所述打分模型。

4、在一些实施方式中，对所述原始数据集进行混合采样，得到子数据集，具体包括：对原始数据集进行编码，得到编码数据集；将所述编码数据集分为若干个聚类，每个聚类包括多个数据点；获取每个所述聚类的聚类中心；根据所述聚类中心和所述多个数据点得到采样概率；根据所述采样概率对所述原始数据集进行混合采样，得到所述子数据集。

5、在一些实施方式中，根据所述增强数据集训练所述打分模型，具体包括：对所述所述增强数据集进行标注，生成标注数据集；采用所述标注数据对基模型进行微调，得到所述打分模型。

6、在一些实施方式中，对所述种子数据集和所述增强数据集进行合并，得到所述训练数据集。

7、在一些实施方式中，调用所述打分模型对所述原始数据集进行质量评估，得到质量数据集，具体包括：调用所述打分模型对所述原始数据集的指令集进行标注，得到质量评分；如果所述质量评分低于评分阈值，则过滤掉对应的数据，得到所述质量数据集。

8、在一些实施方式中，任一项所述的面向政务领域大语言模型的训练数据筛选法还包括：基于所述种子数据集对基模型进行微调，得到中间模型；采用所述中间模型对所述质量数据集进行推理，得到推理结果；采用所述打分模型对所述推理结果进行质量评估，识别出负样本；对所述负样本进行混合采集，并结合所述种子数据集，得到所述训练数据集。

9、在一些实施方式中，对所述原始数据集进行混合采样，得到子数据集；对所述子数据集中的每条数据进行数据增强，针对每条指令生成对应回答；识别出所述对应回答不恰当的对应指令，设为所述负样本。

10、第二方面，本专利技术还提供了一种电子设备，包括：至少一个处理器；与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：获取基于政务领域的原始数据集；基于所述原始数据集训练打分模型；调用所述打分模型对所述原始数据集进行质量评估，得到质量数据集；根据所述质量数据集得到种子数据集；根据所述种子数据集得到训练数据集。

11、第三方面，本专利技术提供了一种存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现任一项所述的面向政务领域大语言模型的训练数据筛选法。

12、本专利技术的有益效果为：

13、本专利技术基于原始数据集训练打分模型，使得打分模型对大语音模型有更好的适应性，通过打分模型对原始数据集的评分更为精准。通过打分模型专门用于评估指令的质量，利用该打分模型进行指令筛选，使得筛选出的训练数据更为精准。根据筛选出的更为精准的训练数据对基模型进行精细调整，能够提高大语言模型的性能，从而可以确保微调过程的效率和效果。

本文档来自技高网...

【技术保护点】

1.一种面向政务领域大语言模型的训练数据筛选法，其特征在于，包括：

2.根据权利要求1所述的面向政务领域大语言模型的训练数据筛选法，其特征在于，基于所述原始数据集训练打分模型，具体包括：

3.根据权利要求2所述的面向政务领域大语言模型的训练数据筛选法，其特征在于，对所述原始数据集进行混合采样，得到子数据集，具体包括：

4.根据权利要求2所述的面向政务领域大语言模型的训练数据筛选法，其特征在于，根据所述增强数据集训练所述打分模型，具体包括：

5.根据权利要求2至4中任一项所述的面向政务领域大语言模型的训练数据筛选法，其特征在于，对所述种子数据集和所述增强数据集进行合并，得到所述训练数据集。

6.根据权利要求1至4中任一项所述的面向政务领域大语言模型的训练数据筛选法，其特征在于，调用所述打分模型对所述原始数据集进行质量评估，得到质量数据集，具体包括：

7.根据权利要求1至4中任一项所述的面向政务领域大语言模型的训练数据筛选法，其特征在于，还包括：

8.根据权利要求7所述的面向政务领域大语言模型的训练数据筛选法，其特征在于，

9.一种电子设备，其特征在于，包括：

10.一种存储介质，其特征在于，存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的面向政务领域大语言模型的训练数据筛选法。

...

【技术特征摘要】

1.一种面向政务领域大语言模型的训练数据筛选法，其特征在于，包括：

2.根据权利要求1所述的面向政务领域大语言模型的训练数据筛选法，其特征在于，基于所述原始数据集训练打分模型，具体包括：

3.根据权利要求2所述的面向政务领域大语言模型的训练数据筛选法，其特征在于，对所述原始数据集进行混合采样，得到子数据集，具体包括：

4.根据权利要求2所述的面向政务领域大语言模型的训练数据筛选法，其特征在于，根据所述增强数据集训练所述打分模型，具体包括：

5.根据权利要求2至4中任一项所述的面向政务领域大语言模型的训练数据筛选法，其特征在于，对所述种子数据集和所述增强数据集进行...

【专利技术属性】
技术研发人员：王亚沙，赵俊峰，马钧轶，初旭，马连韬，朱润川，李小翠，李方平，刘业涛，谢更明，
申请(专利权)人：北京大学天津滨海新一代信息技术研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人