一种癌症干预反应预测模型的训练方法和装置制造方法及图纸

技术编号：42223091 阅读：30 留言：0更新日期：2024-08-02 13:41

本发明专利技术涉及一种癌症干预反应预测模型的训练方法和装置，包括：获取训练样本数据；将训练样本数据输入到癌症干预反应预测模型中，并依次经由癌症干预反应预测模型的编码模块、构建提取模块和预测模块进行处理，得到相应的癌症干预反应训练结果；基于癌症干预反应训练结果，构建目标损失函数，并基于目标损失函数对癌症干预反应预测模型进行训练，得到训练好的癌症干预反应预测模型，从而通过对癌症干预反应预测模型的训练方法进行改进，提高了模型的预测精度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及生物信息，尤其涉及一种癌症干预反应预测模型的训练方法和装置。

技术介绍

1、癌症是一种复杂而多变的疾病，已成为严重威胁人类健康的主要死因。每个癌症患者都有独特的基因组特征，因此不可能实现一种对各类型癌症都有效的治疗方法。因此，利用预测模型根据每位患者的基因组特征预测其对癌症干预手段的反应并提供个性化治疗方案具有重要的临床意义。

2、药物治疗作为癌症干预的主要手段之一，其作用于癌症的反应效果是目前研究人员关注的一个重点问题。在实际情况下，获取同一患者对多种抗癌药物反应的真实临床数据十分困难。因此，用于药物反应预测的数据集主要依赖于大量公开的癌细胞系数据，例如癌症细胞系百科全书(cancer cell lineencyclopedia，ccle)和癌症药物敏感性基因组学(genomics ofdrug sensitibity in cancer，gdsc)。通过利用这些宝贵的数据，研究人员能够探索癌症干预治疗中药物反应的机制，并开发预测癌症干预反应的机器学习方法。

3、虽然目前已经具有能够实现药物反应预测的模型，但是现有的药物反应预测的模型至少存在着模型预测效果不佳的问题。

技术实现思路

1、(一)要解决的技术问题

2、鉴于现有技术的上述缺点、不足，本专利技术提供一种癌症干预反应预测模型的训练方法和装置，其解决了现有技术中存在着的模型预测效果不佳的技术问题。

3、(二)技术方案

4、为了达到上述目的，本专利技术采用的主要技术方案包括：

5、第一方面，本专利技术实施例提供一种癌症干预反应预测模型的训练方法，包括：获取训练样本数据；其中，训练样本数据包括癌细胞系的多组学数据、药物分子图和细胞系-药物的反应数据；

6、将训练样本数据输入到癌症干预反应预测模型中，并依次经由癌症干预反应预测模型的编码模块、构建提取模块和预测模块进行处理，得到相应的癌症干预反应训练结果；

7、其中，编码模块包括自适应多组学编码模块和药物编码模块，自适应多组学编码模块被配置为对多组学数据进行特征提取，得到属性分支下的细胞系特征表示，药物编码模块被配置为对药物分子图进行特征提取，得到属性分支下的药物特征表示；

8、构建提取模块被配置为基于细胞系-药物的反应数据构建敏感关联图和耐药关联图，并对敏感关联图和耐药关联图进行特征提取，得到关联分支下的敏感关联图中的特征表示和耐药关联图中的特征表示，以及对敏感关联图中的特征表示和耐药关联图中的特征表示进行融合和全连接，得到关联分支下的细胞系特征表示和药物特征表示；

9、预测模块被配置为对属性分支下的细胞系特征表示和关联分支下的细胞系特征表示进行融合和全连接，得到细胞系最终特征表示，以及还对属性分支下的药物特征表示和关联分支下的药物特征表示进行融合和全连接，得到药物最终特征表示，以及采用线性相关系数和scaledsigmoid激活函数对细胞系最终特征表示和药物最终特征表示进行处理，得到癌症干预反应训练结果；

10、基于癌症干预反应训练结果，构建目标损失函数，并基于目标损失函数对癌症干预反应预测模型进行训练，得到训练好的癌症干预反应预测模型。

11、在一个可能的实施例中，癌细胞系的多组学数据包括细胞系的基因组突变数据、基因表达数据和dna甲基化数据；反应数据可分为敏感反应数据和耐药反应数据。

12、在一个可能的实施例中，自适应多组学编码模块，具体被配置为：将基因组突变数据映射为统一维度的潜在表示，得到基因突变数据对应的第一潜在表示、基因表达数据对应的第二潜在表示和dna甲基化数据对应的第三潜在表示，以及将第一潜在表示、第二潜在表示和第三潜在表示进行拼接，并经过线性层变换和leakyrelu激活函数映射获得基本多组学表示，以及基于第一潜在表示、第二潜在表示和第三潜在表示，通过余弦核函数计算细胞系间的相似性，并为每个细胞系选择k个最相似的其他细胞系来构建边，最终得到基于组学m的邻接矩阵，以及还将第一潜在表示、第二潜在表示和第三潜在表示拼接后作为细胞系的初始节点属性，并基于初始节点属性和归一化后的邻接矩阵，通过图卷积神经网络进行细胞系节点间的信息传递，获取交互增强后的组学特定表示，以及将基本多组学表示和交互增强后的组学特定表示输入点积注意力网络中，得到属性分支下的细胞系特征表示。

13、在一个可能的实施例中，构建提取模块，具体被配置为：采用多层图卷积网络对敏感关联图和耐药关联图进行特征提取，以从敏感关联图中获取第一细胞系表示和第一药物特征表示，并从敏感关联图中获取的第二细胞系表示和第二药物特征表示，以及将第一细胞系表示和第二细胞系表示进行融合，以得到关联分支下的细胞系特征表示，以及将第一药物特征表示和第二药物特征表示进行融合，以得到关联分支下的药物特征表示。

14、在一个可能的实施例中，预测模块，具体被配置为：将属性分支下的细胞系特征表示和关联分支下的细胞系特征表示输入到融合模块中，以得到细胞系最终特征表示，以及将属性分支下的药物特征表示和关联分支下的药物特征表示输入到融合模块中，以得到药物最终特征表示，以及采用线性相关系数和带有缩放系数的scaledsigmoid激活函数对细胞系最终特征表示和药物最终特征表示进行预测处理，以得到癌症干预反应训练结果。

15、在一个可能的实施例中，目标损失函数的确定过程包括：采用余弦核函数分别计算属性分支、关联分支和融合模块下的细胞系之间的表示相似性和药物之间的表示相似性；基于细胞系之间的表示相似性和药物之间的表示相似性，采用均方误差损失来约束属性分支、关联分支和融合模块间的表示相似性，以得到表示蒸馏损失；基于癌症干预反应训练结果，采用均方误差函数来计算属性分支、关联分支和融合模块之间的预测蒸馏损失；基于癌症干预反应训练结果中融合模块相关的结果数据，计算预测任务损失；将表示蒸馏损失、预测蒸馏损失和预测任务损失进行结合，获得目标损失函数。

16、第二方面，本申请实施例提供了一种癌症干预反应预测模型的训练装置，包括：获取模块，用于获取训练样本数据；其中，训练样本数据包括癌细胞系的多组学数据、药物分子图和细胞系-药物的反应数据；

17、输入处理模块，用于将训练样本数据输入到癌症干预反应预测模型中，并依次经由癌症干预反应预测模型的编码模块、构建提取模块和预测模块进行处理，得到相应的癌症干预反应训练结果；

18、其中，编码模块包括自适应多组学编码模块和药物编码模块，自适应多组学编码模块被配置为对多组学数据进行特征提取，得到属性分支下的细胞系特征表示，药物编码模块被配置为对药物分子图进行特征提取，得到属性分支下的药物特征表示；

19、构建提取模块被配置为基于细胞系-药物的反应数据构建敏感关联图和耐药关联图，并对敏感关联图和耐药关联图进行特征提取，得到关联分支下的敏感关联图中的特征表示和耐药关联图中的特征表示，以及对敏感关联图中的特征表示和耐药关联图中的特征表示本文档来自技高网...

【技术保护点】

1.一种癌症干预反应预测模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的训练方法，其特征在于，所述癌细胞系的多组学数据包括细胞系的基因组突变数据、基因表达数据和DNA甲基化数据；所述反应数据可分为敏感反应数据和耐药反应数据。

3.根据权利要求2所述的训练方法，其特征在于，所述自适应多组学编码模块，具体被配置为：将所述基因组突变数据映射为统一维度的潜在表示，得到所述基因突变数据对应的第一潜在表示、所述基因表达数据对应的第二潜在表示和所述DNA甲基化数据对应的第三潜在表示，以及将所述第一潜在表示、所述第二潜在表示和所述第三潜在表示进行拼接，并经过线性层变换和LeakyReLU激活函数映射获得基本多组学表示，以及基于所述第一潜在表示、所述第二潜在表示和所述第三潜在表示，通过余弦核函数计算细胞系间的相似性，并为每个细胞系选择K个最相似的其他细胞系来构建边，最终得到基于组学m的邻接矩阵，以及还将所述第一潜在表示、所述第二潜在表示和所述第三潜在表示拼接后作为细胞系的初始节点属性，并基于所述初始节点属性和归一化后的邻接矩阵，通过图卷积神经网络进行细胞系节点间

4.根据权利要求3所述的训练方法，其特征在于，所述构建提取模块，具体被配置为：采用多层图卷积网络对所述敏感关联图和所述耐药关联图进行特征提取，以从敏感关联图中获取第一细胞系表示和第一药物特征表示，并从敏感关联图中获取的第二细胞系表示和第二药物特征表示，以及将所述第一细胞系表示和所述第二细胞系表示进行融合，以得到所述关联分支下的细胞系特征表示，以及将所述第一药物特征表示和所述第二药物特征表示进行融合，以得到所述关联分支下的药物特征表示。

5.根据权利要求4所述的训练方法，其特征在于，所述预测模块，具体被配置为：将所述属性分支下的细胞系特征表示和所述关联分支下的细胞系特征表示输入到融合模块中，以得到所述细胞系最终特征表示，以及将所述属性分支下的药物特征表示和所述关联分支下的药物特征表示输入到融合模块中，以得到所述药物最终特征表示，以及采用线性相关系数和带有缩放系数的ScaledSigmoid激活函数对所述细胞系最终特征表示和所述药物最终特征表示进行预测处理，以得到所述癌症干预反应训练结果。

6.根据权利要求5所述的训练方法，其特征在于，所述目标损失函数的确定过程包括：

7.一种癌症干预反应预测模型的训练装置，其特征在于，包括：

8.根据权利要求7所述的训练装置，其特征在于，所述癌细胞系的多组学数据包括细胞系的基因组突变数据、基因表达数据和DNA甲基化数据；所述反应数据可分为敏感反应数据和耐药反应数据。

9.根据权利要求8所述的训练装置，其特征在于，所述自适应多组学编码模块，具体被配置为：将所述基因组突变数据映射为统一维度的潜在表示，得到所述基因突变数据对应的第一潜在表示、所述基因表达数据对应的第二潜在表示和所述DNA甲基化数据对应的第三潜在表示，以及将所述第一潜在表示、所述第二潜在表示和所述第三潜在表示进行拼接，并经过线性层变换和LeakyReLU激活函数映射获得基本多组学表示，以及基于所述第一潜在表示、所述第二潜在表示和所述第三潜在表示，通过余弦核函数计算细胞系间的相似性，并为每个细胞系选择K个最相似的其他细胞系来构建边，最终得到基于组学m的邻接矩阵，以及还将所述第一潜在表示、所述第二潜在表示和所述第三潜在表示拼接后作为细胞系的初始节点属性，并基于所述初始节点属性和归一化后的邻接矩阵，通过图卷积神经网络进行细胞系节点间的信息传递，获取交互增强后的组学特定表示，以及将所述基本多组学表示和所述交互增强后的组学特定表示输入点积注意力网络中，得到所述属性分支下的细胞系特征表示。

10.根据权利要求8所述的训练装置，其特征在于，所述构建提取模块，具体被配置为：采用多层图卷积网络对所述敏感关联图和所述耐药关联图进行特征提取，以从敏感关联图中获取第一细胞系表示和第一药物特征表示，并从敏感关联图中获取的第二细胞系表示和第二药物特征表示，以及将所述第一细胞系表示和所述第二细胞系表示进行融合，以得到所述关联分支下的细胞系特征表示，以及将所述第一药物特征表示和所述第二药物特征表示进行融合，以得到所述关联分支下的药物特征表示。

...

【技术特征摘要】

1.一种癌症干预反应预测模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的训练方法，其特征在于，所述癌细胞系的多组学数据包括细胞系的基因组突变数据、基因表达数据和dna甲基化数据；所述反应数据可分为敏感反应数据和耐药反应数据。

3.根据权利要求2所述的训练方法，其特征在于，所述自适应多组学编码模块，具体被配置为：将所述基因组突变数据映射为统一维度的潜在表示，得到所述基因突变数据对应的第一潜在表示、所述基因表达数据对应的第二潜在表示和所述dna甲基化数据对应的第三潜在表示，以及将所述第一潜在表示、所述第二潜在表示和所述第三潜在表示进行拼接，并经过线性层变换和leakyrelu激活函数映射获得基本多组学表示，以及基于所述第一潜在表示、所述第二潜在表示和所述第三潜在表示，通过余弦核函数计算细胞系间的相似性，并为每个细胞系选择k个最相似的其他细胞系来构建边，最终得到基于组学m的邻接矩阵，以及还将所述第一潜在表示、所述第二潜在表示和所述第三潜在表示拼接后作为细胞系的初始节点属性，并基于所述初始节点属性和归一化后的邻接矩阵，通过图卷积神经网络进行细胞系节点间的信息传递，获取交互增强后的组学特定表示，以及将所述基本多组学表示和所述交互增强后的组学特定表示输入点积注意力网络中，得到所述属性分支下的细胞系特征表示。

5.根据权利要求4所述的训练方法，其特征在于，所述预测模块，具体被配置为：将所述属性分支下的细胞系特征表示和所述关联分支下的细胞系特征表示输入到融合模块中，以得到所述细胞系最终特征表示，以及将所述属性分支下的药物特征表示和所述关联分支下的药物特征表示输入到融合模块中，以得到所...

【专利技术属性】
技术研发人员：徐洪丽，乌日力格，徐慕豪，赵亚威，柳青河，
申请(专利权)人：中国人民解放军总医院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人