System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据处理,尤其涉及一种基于正则化模型的数据整合方法及系统。
技术介绍
1、随着现代高通量生物医学仪器的快速发展,生命科学领域的数据已积累众多。例如,基因表达全景图(geo)已经收集了超过340万个样本数据。由于大量的数据积累,如何从庞大的数据池中识别出与某些疾病的发病和进展相关的稳健基因生物标记数据成为一个巨大的挑战。
2、在使用机器学习技术分析基因表达数据时,研究人员通常会面临“大p,小n”、数据异质性和低复现性三个主要问题。现有技术中,解决这三个问题的主要途径是通过元分析或集成分析来处理各种基因数据集,以使其在基因组研究中提升统计性能。其中,典型的基因数据集集成方法包括元阈值梯度下降正则化、元-lasso、元-非凸优化、数据共享lasso(dsl)和dsl2等。
3、然而,上述典型的基因数据集集成方法未充分利用外部的生物学知识,如基因-基因或蛋白质-蛋白质交互网络,从而限制数据集集成方法的性能。在对基因数据集和外部网络知识数据集的整合分析方法中,l1罚项可被应用于各种模型中处理先验的网络知识,然而l1罚项容易使得模型系数,产生额外的偏差,特别是在处理基因组数据这种高维数据的时候。lq罚项(0<q<1)从理论上看能够提供比l1罚项更优的稀疏性、计算效率和计算准确率。
技术实现思路
1、本专利技术提供一种基于正则化模型的数据整合方法及系统,在正则化模型中使用正则化项对生物学数据和网络知识数据进行整合分析,提高了高维数据整合分析的准确
2、为了解决上述技术问题,本专利技术提供了一种基于正则化模型的数据整合方法,包括:
3、获取网络知识数据集和基因数据集;
4、在预设的预测模型中设置拉普拉斯正则化项和lq范数罚项,得到dsnet模型;
5、对所述dsnet模型进行转换得到转换后的dsnet模型,获得第一特征算子和第二特征算子,并将所述网络知识数据集和所述基因数据集输入至转换后的dsnet模型中,输出第一特征算子所有特征维度的最优解和第二特征算子所有特征维度的最优解;其中,所述第一特征算子用于表示数据共享效应;所述第二特征算子用于表示数据独特效应;
6、根据所述第一特征算子所有特征维度的最优解和所述第二特征算子所有特征维度的最优解,在各个特征维度上整合网络知识数据集和基因数据集,获得所述网络知识数据集和所述基因数据集的整合结果。
7、本专利技术通过在预测模型中加入拉普拉斯正则化项和lq范数罚项作约束,得到dsnet模型;继而将待整合的网络知识数据集和基因数据集输入至dsnet模型中,计算特征算子在各个特征维度上的最优解,并根据所得最优解在特征维度上整合数据。本专利技术使用正则化模型对生物学数据和网络知识数据进行整合分析,提高了高维数据整合分析的准确性和效率。
8、进一步的,所述在预设的预测模型中设置拉普拉斯正则化项和lq范数罚项,得到dsnet模型,包括:
9、在预设的预测模型中设置拉普拉斯正则化项和lq范数罚项,得到dsnet模型;其中,所述dsnet模型具体如下:
10、
11、式中,β表示在d个数据集中保持一致的共享效应,δd表示特定于一个数据集的独特效应,λ1和λ2表示控制模型稀疏性的参数,λ3和λ4表示调节模型平滑性的参数;xi表示输入矩阵,yi表示输出的真实标签值,矩阵上标t表示转置操作;表示范数,d表示正在处理的数据集数量,rd表示每个数据集的独特效应的权重;l表示用对称的拉普拉斯矩阵表示的网络知识数据集,|β|l|β|表示在网络知识数据集中对β执行平滑处理;|δd|l|δd|表示在网络知识数据集中δd对执行平滑处理。
12、本专利技术使用正则化dsnet模型来整合基因数据集和网络知识数据集,在dsnet模型中设置正则化项,以提高模型泛化能力和防止模型过拟合,从而通过基因数据集和网络知识数据集的整合分析来推进基因数据集的元分析,提高模型性能和数据整合结果的准确性。
13、进一步的,所述对所述dsnet模型进行转换得到转换后的dsnet模型,获得第一特征算子和第二特征算子,并将所述网络知识数据集和所述基因数据集输入至转换后的dsnet模型中,输出第一特征算子所有特征维度的最优解和第二特征算子所有特征维度的最优解,包括:
14、基于各个特征维度,对所述dsnet模型进行转换,得到dsnet模型的转换表达式;其中,dsnet模型的转换表达式具体如下:
15、
16、式中,β表示在d个数据集中保持一致的共享效应,δd表示特定于一个数据集的独特效应,λ1和λ2表示控制模型稀疏性的参数,λ3和λ4表示调节模型平滑性的参数;xi表示输入矩阵,yi表示输出的真实标签值,矩阵上标t表示转置操作;表示范数,d表示正在处理的数据集数量,rd表示每个数据集的独特效应的权重;ii表示基因数据集特征i的度,即与i连接的边的数量;ik表示网络知识数据集特征k的度,即与k连接的边的数量;当基因数据集中的数据i和网络知识数据集中的数据k存在链接时,bik等于1,否则bik等于0;βi表示β的第i个维度,βk表示β的第k个维度,δd,i表示δd的第i个维度,δd,k表示δd的第k个维度;
17、从dsnet模型的转换表达式中获得第一特征算子β和第二特征算子δd;其中,所述第一特征算子用于表示数据共享效应;所述第二特征算子用于表示数据独特效应;
18、将所述网络知识数据集和所述基因数据集输入至转换后的dsnet模型中,利用坐标下降算法计算第一特征算子β所有特征维度的最优解和第二特征算子δd所有特征维度的最优解。
19、进一步的,所述利用坐标下降算法计算第一特征算子β所有特征维度的最优解和第二特征算子δd所有特征维度的最优解,包括:
20、计算第一特征算子β所有特征维度的最优解,具体如下:
21、
22、其中,
23、
24、
25、
26、
27、
28、式中,βk表示β的第j个维度,β表示在d个数据集中保持一致的共享效应,j表示β的维度;bik表示基因数据集中的数据i和网络知识数据集中的数据k之间的链接情况,xik表示基因数据集中第i个样本数据中的k基因,xij表示基因数据集中第i个样本数据中的j基因,yi表示真实的标签值,ωk、λ1,k、m1,k、vi、m2,k、ωk和表示计算过程中的抽象中间量;
29、计算第二特征算子δd所有特征维度的最优解,具体如下:
30、
31、其中,
32、
33、
34、m1,k=1+λ4sgn(δd,k)
35、
36、
37、
38、式中,δd,k表示δd的第k个维度,δd表示特定于一个数据集的独特效应,k表示δd的维度;xik表本文档来自技高网...
【技术保护点】
1.一种基于正则化模型的数据整合方法,其特征在于,包括:
2.如权利要求1所述的一种基于正则化模型的数据整合方法,其特征在于,所述在预设的预测模型中设置拉普拉斯正则化项和Lq范数罚项,得到DSNet模型,包括:
3.如权利要求1所述的一种基于正则化模型的数据整合方法,其特征在于,所述对所述DSNet模型进行转换得到转换后的DSNet模型,获得第一特征算子和第二特征算子,并将所述网络知识数据集和所述基因数据集输入至转换后的DSNet模型中,输出第一特征算子所有特征维度的最优解和第二特征算子所有特征维度的最优解,包括:
4.如权利要求3所述的一种基于正则化模型的数据整合方法,其特征在于,所述利用坐标下降算法计算第一特征算子β所有特征维度的最优解和第二特征算子Δd所有特征维度的最优解,包括:
5.如权利要求1所述的一种基于正则化模型的数据整合方法,其特征在于,所述根据所述第一特征算子所有特征维度的最优解和所述第二特征算子所有特征维度的最优解,在各个特征维度上整合网络知识数据集和基因数据集,获得所述网络知识数据集和所述基因数据集的整合结果,
6.一种基于正则化模型的数据整合系统,其特征在于,包括:数据获取模块、设置罚项模块、特征求解模块和数据整合模块;
7.如权利要求6所述的一种基于正则化模型的数据整合系统,其特征在于,所述设置罚项模块,用于在预设的预测模型中设置拉普拉斯正则化项和Lq范数罚项,得到DSNet模型,具体为:
8.如权利要求6所述的一种基于正则化模型的数据整合系统,其特征在于,所述特征求解模块,包括:模型转换单元、特征算子单元和多维度求解单元;
9.如权利要求8所述的一种基于正则化模型的数据整合系统,其特征在于,所述多维度求解单元,包括:共享效应子单元和独特效应子单元;
10.如权利要求6所述的一种基于正则化模型的数据整合系统,其特征在于,所述数据整合模块,包括:维度链接单元、整合单元、分类单元和特征合并单元;
...【技术特征摘要】
1.一种基于正则化模型的数据整合方法,其特征在于,包括:
2.如权利要求1所述的一种基于正则化模型的数据整合方法,其特征在于,所述在预设的预测模型中设置拉普拉斯正则化项和lq范数罚项,得到dsnet模型,包括:
3.如权利要求1所述的一种基于正则化模型的数据整合方法,其特征在于,所述对所述dsnet模型进行转换得到转换后的dsnet模型,获得第一特征算子和第二特征算子,并将所述网络知识数据集和所述基因数据集输入至转换后的dsnet模型中,输出第一特征算子所有特征维度的最优解和第二特征算子所有特征维度的最优解,包括:
4.如权利要求3所述的一种基于正则化模型的数据整合方法,其特征在于,所述利用坐标下降算法计算第一特征算子β所有特征维度的最优解和第二特征算子δd所有特征维度的最优解,包括:
5.如权利要求1所述的一种基于正则化模型的数据整合方法,其特征在于,所述根据所述第一特征算子所有特征维度的最优解和所述第二特征算子所有特...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。