基于医疗基础模型进行下游适配的数据处理方法和装置制造方法及图纸

技术编号：41767624 阅读：6 留言：0更新日期：2024-06-21 21:45

本发明专利技术涉及一种基于医疗基础模型进行下游适配的数据处理方法和装置，包括：获取预训练好的基础模型和学生模型；将基础模型的参数冻结，进行模型重编程，通过基础模型执行与下游医学数据相同的分类任务来提取下游感知知识，并通过设置共享分类器，使得学生模型与基础模型同时训练相似的决策边界，从而对学生模型的模型参数进行优化，并通过中心内核对齐函数作为训练过程中的约束；对基础模型和优化后的学生模型进行知识蒸馏训练，从基础模型中提取与训练任务相关的知识，并转移到学生模型中。与现有技术相比，本发明专利技术实现对下游任务的轻量级适配，同时克服了数据分布不一致和模型架构不同的限制，极大地提高了医疗预训练大模型在下游场景的可用性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及医疗数据处理，尤其是涉及基于医疗基础模型进行下游适配的数据处理方法和装置。

技术介绍

1、近年来，预训练大模型在计算机视觉与自然语言理解领域都取得了令人瞩目的成功，医疗大模型也随之蓬勃发展，然而尽管医疗预训练大模型已经被证明具有较好的泛化能力，但下游任务的数据分布通常不可避免地与预训练数据存在显著差异，会导致精度严重下降。此外，随着医疗预训练大模型的容量逐渐增大，未来的部署成本可能对于临床设备是难以承受的。经检索，发表于2022年国际计算机视觉应用国际会议(wacv)公开网址为：https://openaccess.thecvf.com/content/wacv2022/papers/neekhara_cross-modal_adversarial_reprogramming_wacv_2022_paper.pdf的论文“cross-modal adversarialreprogramming”设计了一种对抗程序用于将离散令牌映射到图像中，该图像可以通过图像分类模型分类到所需的类别。然而该论文只训练植入的输入转换层和输出映射层，没有考虑对预训练模型进行知识重编程并迁移到轻量化的目标模型，仍有提升空间。

2、因此，现有方案存在以下缺陷：

3、1、基础模型的预训练数据和下游数据的分布不一致。目前的方法通常是在具有相同分布的下游任务进行训练的，然而考虑到临床场景的不同需求，实际应用场景中的任务数据分布通常不可避免地与预训练数据存在显著差异。

4、2、基础模型的部署受限。目前的方法只考虑

技术实现思路

1、本专利技术的目的就是为了克服上述现有技术存在现有医疗预训练大模型虽然具有一定的泛化能力，但下游任务的数据分布通常与预训练数据存在显著差异，难以实现落地；此外，某些具体医学场景还需要考虑推理速度和计算资源，进一步限制了基础模型的应用范围的缺陷而提供一种基于医疗基础模型进行下游适配的数据处理方法和装置，利用基础模型强大的通用特征提取能力，引入了中心内核对齐和表征知识蒸馏，实现对下游任务的轻量级适配，同时克服了数据分布不一致和模型架构不同的限制，极大地提高了医疗预训练大模型在下游场景的可用性。

2、本专利技术的目的可以通过以下技术方案来实现：

3、一种基于医疗基础模型进行下游适配的数据处理方法，包括以下步骤：

4、获取由医学大数据预训练好的基础模型和由下游医学数据预训练好的学生模型；

5、将基础模型的参数冻结，进行模型重编程，通过基础模型执行与下游医学数据相同的分类任务来提取下游感知知识，并通过设置共享分类器，使得学生模型与基础模型同时训练相似的决策边界，从而对学生模型的模型参数进行优化；

6、在基础模型和学生模型训练过程中，通过中心内核对齐函数作为训练过程中的约束；

7、获取训练样本，对基础模型和优化后的学生模型进行知识蒸馏训练，从基础模型中提取与训练任务相关的知识，并转移到学生模型中，得到完成下游适配的学生模型，用于进行下游数据处理。

8、进一步地，所述中心内核对齐函数通过希尔伯特-施密特独立性准则，对两个模型的神经网络层进行中心相似性矩阵的相似性计算，然后进行归一化后得到。

9、进一步地，所述中心相似性矩阵的相似性计算的表达式为：

10、hsic0(k,l)＝vec(k′)·vec(l′)/(m-1)2

11、k′＝hkh

12、l′＝hlh

13、k＝xxt

14、l＝yyt

15、式中，x和y分别为两个模型的一个神经网络层，k为x对应的m×m个格拉姆矩阵，l为y对应的m×m个格拉姆矩阵，h为中心矩阵，k′为k的相似性矩阵，l′为l的相似性矩阵，hsic0(k,l)为k和l的中心相似性矩阵之间相似性。

16、进一步地，所述归一化后得到的中心内核对齐函数的表达式为：

17、

18、式中，cka(k,l)为归一化后的k和l的中心相似性矩阵的相似性，hsic0(k,k)为k和k的中心相似性矩阵之间相似性，hsic0(l,l)为l和l的中心相似性矩阵之间相似性。

19、进一步地，所述知识蒸馏的损失函数包括交叉熵损失和预测对齐损失，所述预测对齐损失为具有库尔巴克-莱布勒散度的软目标pt和类别预测值ps之间的预测对中的对齐损失，所述知识蒸馏的损失函数的计算表达式为：

20、

21、式中，为知识蒸馏的损失函数，为训练样本标签值y和类别预测值ps之间的交叉熵损失，为具有库尔巴克-莱布勒散度的软目标pt和类别预测值ps之间的预测对中的对齐损失。

22、进一步地，所述类别预测值的获取过程包括：

23、在知识蒸馏训练过程中，将学生模型倒数第二层的编码特征表示为fs，将该特征传递到权重为ws的分类器中，获得逻辑值gs＝wsfs以及类别预测值ps，所述类别预测值ps的计算表达式为：

24、ps＝σ(gs/t)

25、式中，σ为softmax激活函数，t为温度参数。

26、进一步地，所述基础模型和学生模型均为神经网络结构或图像编码器结构。

27、进一步地，所述基础模型为医疗预训练大模型，所述学生模型为用于不同医学临床场景的分类模型。

28、进一步地，所述学生模型用于进行具体医学临床场景的医疗图像分割和分类处理。

29、本专利技术还提供一种基于医疗基础模型进行下游适配的数据处理装置，包括存储器和处理器，所述存储器存储有计算机程序，处理器调用所述计算机程序执行如上所述的方法的步骤。

30、与现有技术相比，本专利技术具有以下优点：

31、(1)本专利技术通过知识蒸馏，可以将与下游任务相关的知识从基础模型转移到不同架构的下游模型，以促进下游任务的学习；并在知识蒸馏之前引入协同训练重编程和最大化中心内核对齐损失，这为知识蒸馏提供了一个温和的缓冲，从而更好地适应不同的模型结构和下游任务的数据分布。

32、(2)本专利技术引入重编程模块和共享分类器作为输入转换层和输出映射层，能将从基础模型提取的通用特征映射到下游任务，以减轻任务之间的不匹配；

33、采用协同训练机制让下游模型一起参与重编程，以确保任何下游模型都可以提取重编程的特征，并鼓励它们通过共享分类器训练相似的决策边界。

34、(3)本专利技术进一步设计了中心核对齐损失，以最大化两个模型特征之间的鲁棒相似性，从而减轻由于任务和结构不一致以及下游数据量不足而引入的训练随机性。

35、(4)本专利技术设计了一个新的知识重编程蒸馏框架，使得基础模型可以通过将知识迁移到轻量级模型中更好地适配下游任务。本专利技术的框架兼容不同的结构和不一致的数据分布，并在多种模型结构、数据集本文档来自技高网...

【技术保护点】

1.一种基于医疗基础模型进行下游适配的数据处理方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于医疗基础模型进行下游适配的数据处理方法，其特征在于，所述中心内核对齐函数通过希尔伯特-施密特独立性准则，对两个模型的神经网络层进行中心相似性矩阵的相似性计算，然后进行归一化后得到。

3.根据权利要求2所述的一种基于医疗基础模型进行下游适配的数据处理方法，其特征在于，所述中心相似性矩阵的相似性计算的表达式为：

4.根据权利要求3所述的一种基于医疗基础模型进行下游适配的数据处理方法，其特征在于，所述归一化后得到的中心内核对齐函数的表达式为：

5.根据权利要求1所述的一种基于医疗基础模型进行下游适配的数据处理方法，其特征在于，所述知识蒸馏的损失函数包括交叉熵损失和预测对齐损失，所述预测对齐损失为具有库尔巴克-莱布勒散度的软目标pt和类别预测值ps之间的预测对中的对齐损失，所述知识蒸馏的损失函数的计算表达式为：

6.根据权利要求5所述的一种基于医疗基础模型进行下游适配的数据处理方法，其特征在于，所述类别预测值的获取过程包括：

7.根据权利要求1所述的一种基于医疗基础模型进行下游适配的数据处理方法，其特征在于，所述基础模型和学生模型均为神经网络结构或图像编码器结构。

8.根据权利要求1所述的一种基于医疗基础模型进行下游适配的数据处理方法，其特征在于，所述基础模型为医疗预训练大模型，所述学生模型为用于不同医学临床场景的分类模型。

9.根据权利要求1所述的一种基于医疗基础模型进行下游适配的数据处理方法，其特征在于，所述学生模型用于进行具体医学临床场景的医疗图像分割和分类处理。

10.一种基于医疗基础模型进行下游适配的数据处理装置，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，处理器调用所述计算机程序执行如权利要求1～9任一所述的方法的步骤。

...

【技术特征摘要】

1.一种基于医疗基础模型进行下游适配的数据处理方法，其特征在于，包括以下步骤：

3.根据权利要求2所述的一种基于医疗基础模型进行下游适配的数据处理方法，其特征在于，所述中心相似性矩阵的相似性计算的表达式为：

4.根据权利要求3所述的一种基于医疗基础模型进行下游适配的数据处理方法，其特征在于，所述归一化后得到的中心内核对齐函数的表达式为：

5.根据权利要求1所述的一种基于医疗基础模型进行下游适配的数据处理方法，其特征在于，所述知识蒸馏的损失函数包括交叉熵损失和预测对齐损失，所述预测对齐损失为具有库尔巴克-莱布勒散度的软目标pt和类别预测值ps之间的预测对中的对齐损失，所述知识...

【专利技术属性】
技术研发人员：王延峰，周宇航，姚江超，张娅，
申请(专利权)人：上海人工智能创新中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人