System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种文本筛选方法、装置、电子设备及存储介质制造方法及图纸_技高网

一种文本筛选方法、装置、电子设备及存储介质制造方法及图纸

技术编号:42780704 阅读:15 留言:0更新日期:2024-09-21 00:41
本发明专利技术提供一种文本筛选方法、装置、电子设备及存储介质,涉及机器学习领域,可设置多个指导模型和一个门控单元,其中各指导模型均嵌入有对应预设评价维度的先验知识;而门控单元学习有先前已筛选的训练文本在下游模型训练任务中的历史表现,并可基于这一历史表现为输入文本生成各指导模型对应的权重值;进而可将待筛选的原始文本输入指导模型得到该原始文本生成对应的评价值,以及可将该原始文本输入门控单元得到各指导模型生成的权重值,进而可利用所有权重值对所有评价值进行加权求和处理得到各原始文本的筛选值,并根据筛选值对原始文本进行筛选,可避免人工筛选将导致的数据分布不均衡和覆盖面不够广的问题。

【技术实现步骤摘要】

本专利技术涉及机器学习领域,特别涉及一种文本筛选方法、装置、电子设备及存储介质


技术介绍

1、随着机器学习技术的不断发展,大语言模型(llm,large language model)逐渐在各种领域中得到应用。考虑到训练大语言模型的成本,预训练加微调的训练方法成为了训练大语言模型的主流手段。在微调过程中,高质量的数据集(高质量的数据集应具备充分性、多样性和平衡性等特点)是激发大语言模型潜能的必要条件。然而在相关技术中,微调大语言模型的训练文本通常由人工进行筛选,这不仅降低了训练文本的筛选效率并提升了筛选成本,更重要的是容易导致的数据分布不均衡和覆盖面不够广的问题,进而影响大语言模型的微调效果。


技术实现思路

1、本专利技术的目的是提一种文本筛选方法、装置、电子设备及存储介质,可基于机器学习手段设置数据筛选策略,以此避免人工筛选将导致的数据分布不均衡和覆盖面不够广的问题。

2、为解决上述技术问题,本专利技术提供一种文本筛选方法,包括:

3、获取待筛选的原始文本;

4、将所述原始文本输入多个指导模型,得到各所述指导模型为所述原始文本输出的评价值;其中,所述指导模型属于机器学习模型,不同的指导模型已嵌入不同预设评价维度的先验知识,所述指导模型根据所述先验知识确定所述原始文本对应的评价值;

5、将所述原始文本输入门控单元,得到所述门控单元为各所述指导模型输出的权重值;其中,所述门控单元属于机器学习模型,所述门控单元根据所述原始文本和先前筛选出的训练文本在模型训练任务中的历史表现确定所述权重值;

6、利用所有所述权重值对所有所述评价值进行加权求和处理,得到各所述原始文本的筛选值,并根据所述筛选值对所述原始文本进行筛选,得到用于执行所述模型训练任务的训练文本。

7、可选地,所述指导模型的与所述模型训练任务所训练的待训练模型具有相同的转换解码器结构,所述指导模型的模型参数量小于所述待训练模型的模型参数量。

8、可选地,所述获取待筛选的原始文本,包括:

9、获取预设提示词,并将所述预设提示词输入已训练的文本生成模型,得到所述预设提示词对应的生成式文本;

10、将所述生成式文本设置为所述原始文本。

11、可选地,所述指导模型按照数据流向依次包括编码层、第一转换解码器、全连接层和第一归一化层,所述第一转换解码器包含多个串联的转换解码器单元,所述第一转换解码器中嵌入有所述先验知识;

12、所述将所述原始文本输入多个指导模型,得到各所述指导模型为所述原始文本输出的评价值,包括:

13、将所述原始文本输入所述编码层进行位置编码,得到文本嵌入向量;

14、将所述文本嵌入向量输入所述第一转换解码器,以使所述第一转换解码器根据所述先验知识对所述文本嵌入向量进行特征提取,得到特征提取向量;

15、将所述特征提取向量输入所述全连接层进行特征转换,得到特征转换向量;

16、将所述特征转换向量输入所述第一归一化层进行归一化处理,得到所述评价值。

17、可选地,在获取待筛选的原始文本之前,还包括:

18、获取所述先验知识以及经过预训练的转换解码器模型;

19、基于低秩自适应方法利用所述先验知识对所述转换解码器模型进行微调训练,以将所述先验知识嵌入所述转换解码器模型中的转换解码器;

20、为完成所述微调训练的转换解码器模型添加所述全连接层以及所述第一归一化层,得到所述指导模型。

21、可选地,在得到用于执行所述模型训练任务的训练文本之后,还包括:

22、利用所述训练文本执行所述模型训练任务,并根据预设性能指标确定所述训练文本在执行所述模型训练任务时对应的性能指标值;

23、将所述性能指标值大于预设阈值的训练文本设置为微调文本,并利用所述微调文本对各所述执导模型中的第一转换解码器进行微调训练。

24、可选地,在利用所述微调文本对各所述执导模型中的第一转换解码器进行微调训练之前,还包括:

25、根据所述门控单元针对所述微调文本为各所述指导模型生成的权重值,确定权重值最大的前预设数量的指导模型为待微调指导模型;

26、所述利用所述微调文本对各所述执导模型中的第一转换解码器进行微调训练,包括:

27、利用所述微调文本对所述待微调指导模型中的第一转换解码器进行微调训练。

28、可选地,所述门控单元按照数据流向依次包括输入层、第二转换解码器、第二归一化层和选择层,所述输入层包含第一输入模块和第二输入模块,所述第一输入模块与各所述指导模型一一对应,所述第一输入模块包含第一线性层,所述第一线性层的输入为对应的指导模型中的每个转换解码器单元的输出特征,所述第二输入模块包含第二线性层,所述第二线性层的输入为所述原始文本;

29、所述将所述原始文本输入门控单元,得到所述门控单元为各所述指导模型输出的权重值,包括:

30、将对应的所述指导模型的各所述转换解码器单元的输出特征输入所述第一线性层进行加权平均处理,得到第一输入向量;

31、将所述原始文本输入所述第二线性层进行线性层处理,得到第二输入向量;

32、将所述第一输入向量和所述第二输入向量共同输入所述第二转换解码器进行特征提取,得到特征提取向量;

33、将所述特征提取向量输入所述第二归一化层进行归一化处理,得到输出向量;其中,所述输出向量中的每一元素与每一所述指导模型对应,每一元素的值为每一所述指导模型的初始权重值;

34、将所述输出向量输入所述选择层,以使所述选择层将所述输出向量中数值最大的前预设数目的初始权重值设置为所述权重值,并将剩余的初始权重值设置为零。

35、可选地,在获取待筛选的原始文本之前,还包括:

36、获取门控单元训练文本;

37、将所述门控单元训练文本同时输入各所述指导模型以及所述门控单元,以使所述指导模型为所述门控单元训练文本输出训练评价值,并使所述门控单元针对所述门控单元训练文本输出训练权重向量;其中,所述训练权重向量包含各所述指导模型的训练初始权重值;

38、利用各指导模型的训练评价值及所述门控单元的训练权重向量采取最大边际相关性方法对各所述指导模型进行排序,得到排序结果;

39、对所述排序结果进行归一化处理,得到训练目标权重值;

40、利用所述训练初始权重值和所述训练目标权重值确定损失值,并根据所述损失值对所述门控单元进行参数更新。

41、可选地,所述利用各指导模型的训练评价值及所述门控单元的训练权重向量采取最大边际相关性方法对各所述指导模型进行排序,得到排序结果,包括:

42、通过如下公式利用各指导模型的训练评价值及所述门控单元的训练权重向量采取最大边际相关性方法对各所述指导模型进行排序,得到排序结果:

43本文档来自技高网...

【技术保护点】

1.一种文本筛选方法,其特征在于,包括:

2.根据权利要求1所述的文本筛选方法,其特征在于,所述指导模型的与所述模型训练任务所训练的待训练模型具有相同的转换解码器结构,所述指导模型的模型参数量小于所述待训练模型的模型参数量。

3.根据权利要求1所述的文本筛选方法,其特征在于,所述获取待筛选的原始文本,包括:

4.根据权利要求1至3任一项所述的文本筛选方法,其特征在于,所述指导模型按照数据流向依次包括编码层、第一转换解码器、全连接层和第一归一化层,所述第一转换解码器包含多个串联的转换解码器单元,所述第一转换解码器中嵌入有所述先验知识;

5.根据权利要求4所述的文本筛选方法,其特征在于,在获取待筛选的原始文本之前,还包括:

6.根据权利要求5所述的文本筛选方法,其特征在于,在得到用于执行所述模型训练任务的训练文本之后,还包括:

7.根据权利要求4所述的文本筛选方法,其特征在于,所述门控单元按照数据流向依次包括输入层、第二转换解码器、第二归一化层和选择层,所述输入层包含第一输入模块和第二输入模块,所述第一输入模块与各所述指导模型一一对应,所述第一输入模块包含第一线性层,所述第一线性层的输入为对应的指导模型中的每个转换解码器单元的输出特征,所述第二输入模块包含第二线性层,所述第二线性层的输入为所述原始文本;

8.根据权利要求7所述的文本筛选方法,其特征在于,在获取待筛选的原始文本之前,还包括:

9.根据权利要求8所述的文本筛选方法,其特征在于,所述利用各指导模型的训练评价值及所述门控单元的训练权重向量采取最大边际相关性方法对各所述指导模型进行排序,得到排序结果,包括:

10.根据权利要求8所述的文本筛选方法,其特征在于,所述利用所述训练初始权重值和所述训练目标权重值确定损失值,包括:

11.根据权利要求8所述的文本筛选方法,其特征在于,在得到用于执行所述模型训练任务的训练文本之后,还包括:

12.根据权利要求11所述的文本筛选方法,其特征在于,所述训练文本为代码文本,所述模型训练任务为代码任务,所述预设性能指标为所述代码文本的代码通过率。

13.一种文本筛选装置,其特征在于,包括:

14.一种电子设备,其特征在于,包括:

15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如权利要求1至12任一项所述的文本筛选方法。

...

【技术特征摘要】

1.一种文本筛选方法,其特征在于,包括:

2.根据权利要求1所述的文本筛选方法,其特征在于,所述指导模型的与所述模型训练任务所训练的待训练模型具有相同的转换解码器结构,所述指导模型的模型参数量小于所述待训练模型的模型参数量。

3.根据权利要求1所述的文本筛选方法,其特征在于,所述获取待筛选的原始文本,包括:

4.根据权利要求1至3任一项所述的文本筛选方法,其特征在于,所述指导模型按照数据流向依次包括编码层、第一转换解码器、全连接层和第一归一化层,所述第一转换解码器包含多个串联的转换解码器单元,所述第一转换解码器中嵌入有所述先验知识;

5.根据权利要求4所述的文本筛选方法,其特征在于,在获取待筛选的原始文本之前,还包括:

6.根据权利要求5所述的文本筛选方法,其特征在于,在得到用于执行所述模型训练任务的训练文本之后,还包括:

7.根据权利要求4所述的文本筛选方法,其特征在于,所述门控单元按照数据流向依次包括输入层、第二转换解码器、第二归一化层和选择层,所述输入层包含第一输入模块和第二输入模块,所述第一输入模块与各所述指导模型一一对应,所述第一输入模块包含第一线性层,所述第一线性层的输入为对应的指导模型中的每个转换...

【专利技术属性】
技术研发人员:乔伟旭陈曦吴韶华
申请(专利权)人:浪潮电子信息产业股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1