System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 大语言模型训练方法、装置、设备及介质制造方法及图纸_技高网

大语言模型训练方法、装置、设备及介质制造方法及图纸

技术编号:42924820 阅读:12 留言:0更新日期:2024-10-11 15:50
本发明专利技术提供了大语言模型训练方法、装置、设备及介质。该方法包括针对大语言模型确定多个候选配置,每个候选配置冻结一个或多个层的参数并且具有不同的被冻结的层和/或层数;基于相同的原始训练参数,针对每个候选配置,使用多个训练数据组中的一个训练数据组进行训练以获得训练组损失函数以及更新未冻结的层的参数,其中每个候选配置中被冻结的层保持原始训练参数并且未被冻结的层的参数允许随训练发生变化;输入另一个训练数据组训练大语言模型直至遍历多个训练数据组,基于训练组损失函数确定训练集损失函数;在遍历多个训练数据组后,使用测试数据集进行测试以获得测试集损失函数;以及基于训练集损失函数和测试集损失函数来确定目标配置。

【技术实现步骤摘要】

本专利技术涉及数据处理领域,更具体地,涉及基于医疗领域的大语言模型(largelanguage model,llm)的训练方法、装置、设备及介质。


技术介绍

1、随着信息产业的发展,利用人工智能技术的智慧医疗越来越普及。对于优质医疗资源有限等情况,期望通过人工智能来减轻医生的工作压力,使医疗资源更加合理、高效地分配,缓解医疗资源不足。

2、大语言模型是一种人工智能模型,旨在理解和生成人类语言。大语言模型通过在大量文本数据的基础上进行训练,可以执行广泛的任务,包括文本总结、推理等等。目前大语言模型涌现的能力是其他机器学习模型不具备的–例如,包括上下文、指令遵循和循序渐进的推理能力。因此,借助大语言模型可以对病理关键信息提炼和抽取以实现医疗逻辑推理,进而帮助医疗工作者更快地获取期望得到的医疗信息,从而使得医疗工作者快速和准确地进行诊断和治疗。

3、通用大语言模型往往具有较强的泛化特性,这在通用语言逻辑理解方面的能力已经得到了充分的证明。然而,通用大语言模型较为欠缺医学场景(特别是肿瘤医学)所需的深度的知识和业务场景专属逻辑/知识,这使得通用大语言模型仍然无法切实提高医学场景的判断/诊断准确度,在判断疗效、医学病历/情况时会遇到较多阻碍,从而更容易增加专科医生负担,并且导致更多误判断的情况。

4、因此,需要一种大语言模型训练方法,在保留大语言模型针对通用语义理解的能力的同时高效地训练大语言模型以提高大语言模型在医疗场景的理解能力。


技术实现思路

1、针对上述问题,本专利技术提供了一种大语言模型训练方法、装置、设备及介质,该方法通过为待训练的大语言模型确定多个候选配置,基于相同的原始训练参数,针对多个候选配置中的每个候选配置获得训练集损失函数和测试集损失函数,并且基于训练集损失函数和测试集损失函数来确定目标配置,在避免了在训练通用大语言模型理解医学术语时因所有层的参数的更新导致大语言模型自身的语义理解能力将受到严重负面影响的同时,提高了大语言模型对医学场景的理解能力。

2、根据本专利技术的一个方面,提供了一种大语言模型训练方法,包括:针对待训练的大语言模型确定多个候选配置,其中在所述多个候选配置中的每个候选配置中冻结所述待训练的大语言模型的一个或多个层的参数并且所述每个候选配置各自具有不同的被冻结的层和/或层数,基于相同的原始训练参数,针对所述多个候选配置中的每个候选配置,使用训练数据集包含的多个训练数据组中的一个训练数据组训练所述待训练的大语言模型以获得训练组损失函数以及更新所述待训练的大语言模型中未冻结的层的参数,其中所述每个候选配置中被冻结的层保持原始训练参数并且所述每个候选配置中未被冻结的层的参数允许随训练发生变化;在更新所述待训练的大语言模型中未冻结的层的参数后输入所述多个训练数据组中的另一个训练数据组训练所述待训练的大语言模型直至遍历所述多个训练数据组,基于对应于所述多个训练数据组的训练组损失函数确定训练集损失函数;在遍历所述多个训练数据组后,使用测试数据集测试所述待训练的大语言模型以获得测试集损失函数;针对与多个候选配置中的第一候选配置对应的第一训练集损失函数和第一测试集损失函数,响应于第一训练集损失函数和第一测试集损失函数之间的相关性大于第一预定阈值,并且响应于所述训练集损失函数和所述测试集损失函数小于第二预定阈值,将所述第一候选配置确定为所述待训练大语言模型的目标配置。

3、根据本专利技术的一些实施例,所述待训练的大语言模型包括输入层、输出层以及介于输入层和输出层之间的多个中间层,以及其中,每个候选配置中被冻结的一个或多个层的层数小于所述输入层、所述输出层以及所述中间层的层数之和。

4、根据本专利技术的一些实施例,针对与多个候选配置中的第一候选配置对应的第一训练集损失函数和第一测试集损失函数,响应于第一训练集损失函数和第一测试集损失函数之间的相关性大于第一预定阈值,并且响应于所述训练集损失函数和所述测试集损失函数小于第二预定阈值,将所述第一候选配置确定为所述待训练大语言模型的目标配置还包括:响应于所述训练集损失函数和所述测试集损失函数的困惑度小于第三预定阈值,将所述第一候选配置确定为所述待训练大语言模型的目标配置。

5、根据本专利技术的一些实施例,针对待训练的大语言模型确定多个候选配置还包括基于网格搜索和/或随机搜索确定所述多个候选配置。

6、根据本专利技术的一些实施例,所述方法还包括:获取训练数据集和测试数据集。

7、根据本专利技术的一些实施例,获取训练数据集和测试数据集还包括:获取医疗文本数据,从所述医疗文本数据提取训练数据集和测试数据集。

8、根据本专利技术的一些实施例,所述医疗文本数据包括基础肿瘤医疗信息、肿瘤医疗场景生产数据、以及尖端肿瘤医疗研究信息。

9、根据本专利技术的一些实施例,从所述医疗文本数据提取训练数据集和测试数据集还包括:以滑动窗口在所述医疗文本数据中获取多个具有连续语句的固定长度语句组作为所述训练数据集或所述测试数据集中的训练数据或测试数据。

10、根据本专利技术的一些实施例,所述方法还包括:响应于所述医疗文本数据的文本质量满足预定条件,确定所述滑动窗口的宽度小于所述固定长度语句组的语句数量;以及响应于所述医疗文本数据的文本质量不满足预定条件,确定所述滑动窗口的宽度大于或等于所述固定长度语句组的语句数量。

11、根据本专利技术的一些实施例,所述预定条件包括所述医疗文本数据的获取源、所述医疗文本数据的文本质量标识、所述医疗文本数据包含的语句数量中的一个或多个。

12、根据本专利技术的一些实施例,所述方法还包括:基于所述医疗文本数据的主题和/或特征,针对所述医疗文本数据中的信息进行聚类分析以生成多个类别;从所述生成的多个类别中的每个类别中选取预定数量的数据作为所述训练数据集或所述测试数据集中的训练数据或测试数据。

13、根据本专利技术的另一方面,提供了一种大语言模型训练装置,包括:候选配置确定单元,被配置为针对待训练的大语言模型确定多个候选配置,其中在所述多个候选配置中的每个候选配置中冻结所述待训练的大语言模型的一个或多个层的参数并且所述每个候选配置各自具有不同的被冻结的层和/或层数;训练单元,被配置为基于相同的原始训练参数,针对所述多个候选配置中的每个候选配置,使用训练数据集包含的多个训练数据组中的一个训练数据组训练所述待训练的大语言模型以获得训练组损失函数以及更新所述待训练的大语言模型中未冻结的层的参数,其中所述每个候选配置中被冻结的层保持原始训练参数并且所述每个候选配置中未被冻结的层的参数允许随训练发生变化;所述训练单元还被配置为,在更新所述待训练的大语言模型中未冻结的层的参数后输入所述多个训练数据组中的另一个训练数据组训练所述待训练的大语言模型直至遍历所述多个训练数据组,基于对应于所述多个训练数据组的训练组损失函数确定训练集损失函数;测试单元,被配置为在遍历所述多个训练数据组后,使用测试数据集测试所述待训练的大语言模型以获得测试集损失函数;目标配置本文档来自技高网...

【技术保护点】

1.一种大语言模型训练方法,包括:

2.根据权利要求1所述的大语言模型训练方法,其中,所述待训练的大语言模型包括输入层、输出层以及介于输入层和输出层之间的多个中间层,以及其中,每个候选配置中被冻结的一个或多个层的层数小于所述输入层、所述输出层以及所述中间层的层数之和。

3.根据权利要求1所述的大语言模型训练方法,其中,针对与多个候选配置中的第一候选配置对应的第一训练集损失函数和第一测试集损失函数,响应于第一训练集损失函数和第一测试集损失函数之间的相关性大于第一预定阈值,并且响应于所述训练集损失函数和所述测试集损失函数小于第二预定阈值,将所述第一候选配置确定为所述待训练大语言模型的目标配置还包括:

4.根据权利要求1所述的大语言模型训练方法,其中,针对待训练的大语言模型确定多个候选配置还包括基于网格搜索和/或随机搜索确定所述多个候选配置。

5.根据权利要求1所述的大语言模型训练方法,还包括:获取训练数据集和测试数据集。

6.根据权利要求5所述的大语言模型训练方法,其中,获取训练数据集和测试数据集还包括:获取医疗文本数据,从所述医疗文本数据提取训练数据集和测试数据集。

7.根据权利要求6所述的大语言模型训练方法,其中,所述医疗文本数据包括基础肿瘤医疗信息、肿瘤医疗场景生产数据、以及尖端肿瘤医疗研究信息。

8.根据权利要求6所述的大语言模型训练方法,其中,从所述医疗文本数据提取训练数据集和测试数据集还包括:

9.根据权利要求8所述的大语言模型训练方法,还包括:

10.根据权利要求9所述的大语言模型训练方法,其中,所述预定条件包括所述医疗文本数据的获取源、所述医疗文本数据的文本质量标识、所述医疗文本数据包含的语句数量中的一个或多个。

11.根据权利要求6所述的大语言模型训练方法,还包括:

12.一种大语言模型训练装置,包括:

13.根据权利要求12所述的大语言模型训练装置,其中,所述待训练的大语言模型包括输入层、输出层以及介于输入层和输出层之间的多个中间层,以及其中,每个候选配置中被冻结的一个或多个层的层数小于所述输入层、所述输出层以及所述中间层的层数之和。

14.根据权利要求12所述的大语言模型训练装置,其中,所述目标配置确定单元还被配置为:

15.根据权利要求12所述的大语言模型训练装置,其中,所述候选配置确定单元还被配置为基于网格搜索和/或随机搜索确定所述多个候选配置。

16.根据权利要求12所述的大语言模型训练装置,还包括:数据获取单元,被配置为获取训练数据集和测试数据集。

17.根据权利要求16所述的大语言模型训练装置,其中,所述数据获取单元还被配置为:获取医疗文本数据,从所述医疗文本数据提取训练数据集和测试数据集。

18.根据权利要求17所述的大语言模型训练装置,其中,所述医疗文本数据包括基础肿瘤医疗信息、肿瘤医疗场景生产数据、以及尖端肿瘤医疗研究信息。

19.根据权利要求17所述的大语言模型训练装置,其中,所述数据获取单元还被配置为:

20.根据权利要求19所述的大语言模型训练装置,其中,所述数据获取单元还被配置为:

21.根据权利要求20所述的大语言模型训练装置,其中,所述预定条件包括所述医疗文本数据的获取源、所述医疗文本数据的文本质量标识、所述医疗文本数据包含的语句数量中的一个或多个。

22.根据权利要求17所述的大语言模型训练装置,其中,所述数据获取单元还被配置为:

23.一种电子设备,包括:

24.一种非暂时性计算机可读存储介质,存储有计算机可读指令,其中,当所述计算机可读指令在由处理器执行时,实现权利要求1-11中任一项所述的大语言模型训练方法。

...

【技术特征摘要】

1.一种大语言模型训练方法,包括:

2.根据权利要求1所述的大语言模型训练方法,其中,所述待训练的大语言模型包括输入层、输出层以及介于输入层和输出层之间的多个中间层,以及其中,每个候选配置中被冻结的一个或多个层的层数小于所述输入层、所述输出层以及所述中间层的层数之和。

3.根据权利要求1所述的大语言模型训练方法,其中,针对与多个候选配置中的第一候选配置对应的第一训练集损失函数和第一测试集损失函数,响应于第一训练集损失函数和第一测试集损失函数之间的相关性大于第一预定阈值,并且响应于所述训练集损失函数和所述测试集损失函数小于第二预定阈值,将所述第一候选配置确定为所述待训练大语言模型的目标配置还包括:

4.根据权利要求1所述的大语言模型训练方法,其中,针对待训练的大语言模型确定多个候选配置还包括基于网格搜索和/或随机搜索确定所述多个候选配置。

5.根据权利要求1所述的大语言模型训练方法,还包括:获取训练数据集和测试数据集。

6.根据权利要求5所述的大语言模型训练方法,其中,获取训练数据集和测试数据集还包括:获取医疗文本数据,从所述医疗文本数据提取训练数据集和测试数据集。

7.根据权利要求6所述的大语言模型训练方法,其中,所述医疗文本数据包括基础肿瘤医疗信息、肿瘤医疗场景生产数据、以及尖端肿瘤医疗研究信息。

8.根据权利要求6所述的大语言模型训练方法,其中,从所述医疗文本数据提取训练数据集和测试数据集还包括:

9.根据权利要求8所述的大语言模型训练方法,还包括:

10.根据权利要求9所述的大语言模型训练方法,其中,所述预定条件包括所述医疗文本数据的获取源、所述医疗文本数据的文本质量标识、所述医疗文本数据包含的语句数量中的一个或多个。

11.根据权利要求6所述的大语言模型训练方法,还包括:

12.一...

【专利技术属性】
技术研发人员:刘晓华张程剀刘泽恩陈小梅
申请(专利权)人:北京顺详科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1