一种多组学数据集间关联分析的集成系统和方法技术方案

技术编号:26175387 阅读:65 留言:0更新日期:2020-10-31 14:08
本发明专利技术提供一种多组学数据集间关联分析的集成系统和方法,对每一种类型的组学原始数据进行处理得到与组学原始数据的类型对应的组学数据文件,对表型原始数据并处理得到表型数据文件;将多种类型的组学数据文件的组学变量中的两类组学变量加入一变量集合,并将变量集合中的各个组学变量进行两两组合生成多个组学单维数据对;将每一种类型的组学数据文件进行降维处理得到与该种类型相对应的组合变量;将多种类型的组合变量进行两两组合生成多个组合变量数据对;将多种类型的组合变量分别与表型数据文件进行两两组合生成多个组学与表型数据对;对各组学单维数据对、组合变量数据对、组学与表型数据对进行相关分析分别得到各自的相关关系和对应的相关性参数并输出。为全面解析系统生物学信息提供了有效的方法,不仅能发现多组学数据间的线性相关关系,还能找出包括具有函数关系和无函数关系的非线性的相关对,具有全面的功能性。

【技术实现步骤摘要】
一种多组学数据集间关联分析的集成系统和方法
本专利技术涉及生物学多组学计算分析领域,尤其涉及一种多组学数据集间关联分析的集成系统和方法。
技术介绍
代谢物组、微生物组、转录组、蛋白质组以及基因组等多种层次和来源的高通量组学数据体量庞大且数据结构多样,变量间以及变量与表型间关系错综复杂。通过整合多组学和表型数据,有助于在大量复杂的多组学数据间或组学与表型数据间找到有效关联对,揭示组分间或组分与表型间的相互作用和关系,是转化医学和系统生物学研究中常用手段之一。但由于多组学数据的来源、结构和特征各不相同,故需科学选取相关分析方法以及建立高度自动化、分析结果可靠的关联分析集成系统进行多组学研究。近年来多组学联合分析已经成为研究热点,各种组学间的相关分析方法也相继被提出。其中经典的相关分析方法包括Pearson积相关、Spearman秩相关、线性回归分析、典型相关分析等。而具有广泛性的最大信息系数法适用于分析各种类型的数据集,且可发现数据间存在的各种复杂相关关系,包括线性相关和非线性相关关系、函数相关和非函数相关关系。还有如SparCC和CCLasso是针对组分数据内部变量的相关性研究而提出的专门方法,相较于常规相关分析法能更精准的在该类数据集中找到相关对。另外,当前的多组学联合分析由于多组学数据量庞大且结构复杂,导致不易筛选单个生物标志物,而且这些分析策略大都局限于组学数据间的相关性,忽略了表型特征在多组学联合分析中的指导作用,也没有考虑生物学问题中普遍存在的协变量的影响,其结果的准确性和真实性有待提高。r>
技术实现思路
针对现有技术中存在的问题,提供一种多组学数据集间关联分析的集成系统和方法。一种多组学数据集间关联分析的集成系统,包括一服务器,服务器连接一多组学与表型数据库,多组学与表型数据库用于保存多种类型的组学原始数据、表型原始数据和对应的协变量数据;服务器具体包括:数据处理模块,用于对每一种类型的组学原始数据进行处理得到与组学原始数据的类型对应的组学数据文件,每一种类型的组学数据文件包括以行列式排布的多个相应的组学变量;用于获取表型原始数据并处理得到表型数据文件,表型数据文件包括以行列形式排布的多个表型变量;待分析数据生成模块,与数据处理模块连接,待分析数据生成模块具体包括:指令接收单元,用于接收外部输入的组学单维相关分析指令、组学多维相关分析指令或组学与表型相关分析指令;协变量判断单元,与指令接收单元连接,用于判断组学单维相关分析指令、组学多维相关分析指令或组学与表型相关分析指令是否有加载协变量;组学单维数据对生成单元,连接指令接收单元,用于根据组学单维相关分析指令,将多种类型的组学数据文件的组学变量中的两类组学变量加入一变量集合,并将变量集合中的各个组学变量进行两两组合生成多个组学单维数据对;组学数据降维单元,连接指令接收单元,用于根据组学多维相关分析指令和组学与表型相关分析指令,将每一种类型的组学数据文件中的组学变量进行降维处理得到与该种类型相对应的多个组合变量;每一个所述组合变量由每一种类型的组学数据文件中的部分或者全部组学变量通过加权方式得到;表型判断单元,与指令接收单元连接,用于判断组学多维相关分析指令是否加载有表型;筛选单元,分别与表型判断单元、组学数据降维单元(73)和协变量判断单元连接,用于当组学多维相关分析指令存在表型且不存在协变量时,采用斯皮尔曼相关分析法筛选出与表型显著相关的组合变量;当组学多维相关分析指令存在表型且存在协变量时,采用斯皮尔曼偏相关分析法筛选出与表型显著相关的组合变量;组合变量数据对生成单元,连接组学数据降维单元,用于将筛选出与表型显著相关的一种类型的组合变量分别和筛选出与表型显著相关的另一种类型的组合变量进行两两组合生成多个组合变量数据对;组学与表型数据对生成单元,连接组学数据降维单元,用于将组学数据降维单元中进行降维后的多种类型的各组合变量分别与表型数据文件进行两两组合生成多个组学与表型数据对;组学间单维分析模块,连接待分析数据生成模块,用于对各组学单维数据对进行相关分析得到各组学单维数据对的第一相关关系和对应的第一相关性参数的第一相关分析结果并输出;组学间多维分析模块,连接待分析数据生成模块,用于对各组合变量数据对进行相关分析得到各组合变量数据对的第二相关关系和对应的第二相关性参数的第二相关分析结果并输出;组学与表型间分析模块,连接待分析数据生成模块,用于对各组学与表型数据对进行相关分析得到各组学与表型数据对的第三相关关系和对应的第三相关性参数的第三相关分析结果并输出。进一步的,服务器还包括可视化分析模块,分别连接组学间单维分析模块、组学间多维分析模块和组学与表型间分析模块,可视化分析模块具体包括:相关性网络单元,用于获取第一相关分析结果、第二相关分析结果或第三相关分析结果,并根据第一相关分析结果、第二相关分析结果或第三相关分析结果生成相关性网络图并输出;节点统计单元,连接相关性网络单元,用于按照预设规则对相关性网络图中的各节点进行重要性排序并生成重要性排序表并输出;相关性聚类单元,用于获取第一相关分析结果、第二相关分析结果或第三相关分析结果,并根据第一相关分析结果、第二相关分析结果或第三相关分析结果生成相关性聚类图并输出;相关性拟合单元(114),用于获取第一相关分析结果、第二相关分析结果或第三相关分析结果,并根据第一相关分析结果、第二相关分析结果或第三相关分析结果生成相关性拟合曲线并输出。进一步的,组学间单维分析模块包括:第一线性关系判断单元,用于判断组学单维数据对是否存在线性相关关系;第一线性相关分析单元,分别与第一线性关系判断模块连接,用于当组学单维数据对存在线性相关且没有协变量存在时,采用一元线性回归相关分析法或者斯皮尔曼相关分析法对各组学单维数据对进行分析,或者当组学单维数据对存在线性相关且存在协变量时,采用多元线性回归相关分析法或者斯皮尔曼偏相关分析法对各组学单维数据对进行分析,得到各组学单维数据对的第一相关关系及对应的第一相关性参数;第一相关性参数包括线性拟合优度和相关显著程度值;第一线性显著判断单元,与第一线性相关分析单元连接,用于将组学单维数据对的第一相关性参数的线性拟合优度、相关显著程度值与预先设置的第一阈值进行比较,当线性拟合优度大于第一阈值,且相关显著程度值小于第一阈值时,第一判定结果表示组学单维数据对线性相关关系显著,并用于当第一判定结果为组学单维数据对的线性相关关系显著时,直接输出各组学单维数据对的第一相关关系及对应的第一相关性参数;当线性拟合优度不大于第一阈值,且/或相关显著程度值不小于第一阈值时,第一判定结果表示组学单维数据对的线性相关关系不显著;第一非线性相关分析单元,连接第一线性显著判断单元,用于当第一判定结果为组学单维数据对的线性相关关系不显著且没有协变量存在时,采用最大信息系数分析法对各组学单维数据对进行分析,或者当第一判定结果为组学单维数据对的线性相本文档来自技高网...

【技术保护点】
1.一种多组学数据集间关联分析的集成系统,其特征在于,包括一服务器(12),所述服务器连接一多组学与表型数据库(13),所述多组学与表型数据库(13)用于保存多种类型的组学原始数据、表型原始数据和对应的协变量数据;所述服务器(12)具体包括:/n数据处理模块(14),用于对每一种类型的所述组学原始数据进行处理得到与所述组学原始数据的类型对应的组学数据文件,每一种类型的所述组学数据文件包括以行列式排布的多个相应的组学变量;用于获取所述表型原始数据并处理得到表型数据文件,所述表型数据文件包括以行列形式排布的多个表型变量;/n待分析数据生成模块(7),与所述数据处理模块(14)连接,所述待分析数据生成模块(7)具体包括:/n指令接收单元(71),用于接收外部输入的组学单维相关分析指令、组学多维相关分析指令或组学与表型相关分析指令;/n协变量判断单元(78),与所述指令接收单元(71)连接,用于判断所述组学单维相关分析指令、组学多维相关分析指令或组学与表型相关分析指令是否有加载协变量;/n组学单维数据对生成单元(72),连接所述指令接收单元(71),用于根据所述组学单维相关分析指令,将多种类型的所述组学数据文件的所述组学变量中的两类组学变量加入一变量集合,并将所述变量集合中的各个所述组学变量进行两两组合生成多个组学单维数据对;/n组学数据降维单元(73),连接所述指令接收单元(71),用于根据所述组学多维相关分析指令和组学与表型相关分析指令,将每一种类型的所述组学数据文件中的所述组学变量进行降维处理得到与该种类型相对应的多个组合变量,每一个所述组合变量由每一种类型的所述组学数据文件中的部分或者全部所述组学变量通过加权求和方式得到;/n表型判断单元(76),与所述指令接收单元(71)连接,用于判断所述组学多维相关分析指令是否加载有表型;/n筛选单元(77),分别与所述表型判断单元(76)、组学数据降维单元(73)和所述协变量判断单元(74)连接,用于当组学多维相关分析指令存在所述表型且不存在协变量时,采用斯皮尔曼相关分析法筛选出与所述表型显著相关的所述组合变量;当组学多维相关分析指令存在所述表型且存在协变量时,采用斯皮尔曼偏相关分析法筛选出与所述表型显著相关的所述组合变量;/n组合变量数据对生成单元(74),连接所述组学数据降维单元(73),用于将筛选出与所述表型显著相关的一种类型的所述组合变量分别和筛选出与所述表型显著相关的另一种类型的所述组合变量进行两两组合生成多个所述组合变量数据对;/n组学与表型数据对生成单元(75),连接所述组学数据降维单元(73),用于将所述组学数据降维单元(73)中进行降维后的多种类型的各所述组合变量分别与所述表型数据文件进行两两组合生成多个组学与表型数据对;/n组学间单维分析模块(8),连接所述待分析数据生成模块(7),用于对各所述组学单维数据对进行相关分析得到各所述组学单维数据对的第一相关关系和对应的第一相关性参数的第一相关分析结果并输出;/n组学间多维分析模块(9),连接所述待分析数据生成模块(7),用于对各所述组合变量数据对进行相关分析得到所述各组合变量数据对的第二相关关系和对应的第二相关性参数的第二相关分析结果并输出;/n组学与表型间分析模块(10),连接所述待分析数据生成模块(7),用于对各所述组学与表型数据对进行相关分析得到各所述组学与表型数据对的第三相关关系和对应的第三相关性参数的第三相关分析结果并输出。/n...

【技术特征摘要】
1.一种多组学数据集间关联分析的集成系统,其特征在于,包括一服务器(12),所述服务器连接一多组学与表型数据库(13),所述多组学与表型数据库(13)用于保存多种类型的组学原始数据、表型原始数据和对应的协变量数据;所述服务器(12)具体包括:
数据处理模块(14),用于对每一种类型的所述组学原始数据进行处理得到与所述组学原始数据的类型对应的组学数据文件,每一种类型的所述组学数据文件包括以行列式排布的多个相应的组学变量;用于获取所述表型原始数据并处理得到表型数据文件,所述表型数据文件包括以行列形式排布的多个表型变量;
待分析数据生成模块(7),与所述数据处理模块(14)连接,所述待分析数据生成模块(7)具体包括:
指令接收单元(71),用于接收外部输入的组学单维相关分析指令、组学多维相关分析指令或组学与表型相关分析指令;
协变量判断单元(78),与所述指令接收单元(71)连接,用于判断所述组学单维相关分析指令、组学多维相关分析指令或组学与表型相关分析指令是否有加载协变量;
组学单维数据对生成单元(72),连接所述指令接收单元(71),用于根据所述组学单维相关分析指令,将多种类型的所述组学数据文件的所述组学变量中的两类组学变量加入一变量集合,并将所述变量集合中的各个所述组学变量进行两两组合生成多个组学单维数据对;
组学数据降维单元(73),连接所述指令接收单元(71),用于根据所述组学多维相关分析指令和组学与表型相关分析指令,将每一种类型的所述组学数据文件中的所述组学变量进行降维处理得到与该种类型相对应的多个组合变量,每一个所述组合变量由每一种类型的所述组学数据文件中的部分或者全部所述组学变量通过加权求和方式得到;
表型判断单元(76),与所述指令接收单元(71)连接,用于判断所述组学多维相关分析指令是否加载有表型;
筛选单元(77),分别与所述表型判断单元(76)、组学数据降维单元(73)和所述协变量判断单元(74)连接,用于当组学多维相关分析指令存在所述表型且不存在协变量时,采用斯皮尔曼相关分析法筛选出与所述表型显著相关的所述组合变量;当组学多维相关分析指令存在所述表型且存在协变量时,采用斯皮尔曼偏相关分析法筛选出与所述表型显著相关的所述组合变量;
组合变量数据对生成单元(74),连接所述组学数据降维单元(73),用于将筛选出与所述表型显著相关的一种类型的所述组合变量分别和筛选出与所述表型显著相关的另一种类型的所述组合变量进行两两组合生成多个所述组合变量数据对;
组学与表型数据对生成单元(75),连接所述组学数据降维单元(73),用于将所述组学数据降维单元(73)中进行降维后的多种类型的各所述组合变量分别与所述表型数据文件进行两两组合生成多个组学与表型数据对;
组学间单维分析模块(8),连接所述待分析数据生成模块(7),用于对各所述组学单维数据对进行相关分析得到各所述组学单维数据对的第一相关关系和对应的第一相关性参数的第一相关分析结果并输出;
组学间多维分析模块(9),连接所述待分析数据生成模块(7),用于对各所述组合变量数据对进行相关分析得到所述各组合变量数据对的第二相关关系和对应的第二相关性参数的第二相关分析结果并输出;
组学与表型间分析模块(10),连接所述待分析数据生成模块(7),用于对各所述组学与表型数据对进行相关分析得到各所述组学与表型数据对的第三相关关系和对应的第三相关性参数的第三相关分析结果并输出。


2.如权利要求1所述的一种多组学数据集间关联分析的集成系统,其特征在于,所述服务器(12)还包括可视化分析模块(11),分别连接所述组学间单维分析模块(8)、组学间多维分析模块(9)和组学与表型间分析模块(10),所述可视化分析模块(11)具体包括:
相关性网络单元(111),用于获取所述第一相关分析结果、所述第二相关分析结果或所述第三相关分析结果,并根据所述第一相关分析结果、所述第二相关分析结果或所述第三相关分析结果生成相关性网络图并输出;
节点统计单元(112),连接所述相关性网络单元(111),用于按照预设规则对所述相关性网络图中的各节点进行重要性排序并生成重要性排序表并输出;
相关性聚类单元(113),用于获取所述第一相关分析结果、所述第二相关分析结果或所述第三相关分析结果,并根据所述第一相关分析结果、所述第二相关分析结果或所述第三相关分析结果生成相关性聚类图并输出;
相关性拟合单元(114),用于获取所述第一相关分析结果、所述第二相关分析结果或所述第三相关分析结果,并根据所述第一相关分析结果、所述第二相关分析结果或所述第三相关分析结果生成相关性拟合曲线并输出。


3.如权利要求1所述的一种多组学数据集间关联分析的集成系统,其特征在于,所述组学间单维分析模块(8)包括:
第一线性关系判断单元(81),用于判断所述组学单维数据对是否存在线性相关关系;
第一线性相关分析单元(82),分别与所述第一线性关系判断模块(81)连接,用于当所述组学单维数据对存在线性相关且没有所述协变量存在时,采用一元线性回归相关分析法或者斯皮尔曼相关分析法对各所述组学单维数据对进行分析,或者当所述组学单维数据对存在线性相关且存在所述协变量时,采用多元线性回归相关分析法或者斯皮尔曼偏相关分析法对各所述组学单维数据对进行分析,得到各所述组学单维数据对的所述第一相关关系及对应的所述第一相关性参数;所述第一相关性参数包括线性拟合优度和相关显著程度值;
第一线性显著判断单元(83),与所述第一线性相关分析单元(82)连接,用于将所述组学单维数据对的所述第一相关性参数的所述线性拟合优度、相关显著程度值与预先设置的第一阈值进行比较,当所述线性拟合优度大于所述第一阈值,且所述相关显著程度值小于所述第一阈值时,第一判定结果表示所述组学单维数据对线性相关关系显著,并用于当所述第一判定结果为所述组学单维数据对的线性相关关系显著时,直接输出所述各所述组学单维数据对的第一相关关系及对应的第一相关性参数;当所述线性拟合优度不大于所述第一阈值,且/或所述相关显著程度值不小于所述第一阈值时,第一判定结果表示所述组学单维数据对的线性相关关系不显著;
第一非线性相关分析单元(84),连接所述第一线性显著判断单元(83),用于当所述第一判定结果为所述组学单维数据对的线性相关关系不显著且没有所述协变量存在时,采用最大信息系数分析法对各所述组学单维数据对进行分析,或者当所述第一判定结果为所述组学单维数据对的线性相关关系不显著且存在所述协变量时,去除所述协变量的影响后采用所述最大信息系数分析法对各所述组学单维数据对进行分析,得到第一非线性分析结果,根据所述第一非线性分析结果对各所述组学单维数据对进行非线性拟合,得到各所述组学单维数据对的非线性拟合方程及对应的非线性拟合曲线和非线性拟合优度并输出。


4.如权利要求1所述的一种多组学数据集间关联分析的集成系统,其特征在于,所述组学间多维分析模块(9)包括:
第二线性关系判断单元(91),用于判断所述组合变量数据对是否存在线性相关关系;
第二线性相关分析单元(92),分别与所述第二线性关系判断模块(91)连接,用于当所述组合变量数据对存在线性相关且没有所述协变量存在时,采用一元线性回归相关分析法或者斯皮尔曼相关分析法对各所述组合变量数据对进行分析,或者当所述组合变量数据对存在线性相关且存在所述协变量时,采用多元线性回归相关分析法或者斯皮尔曼偏相关分析法对各所述组合单维数据对进行分析,得到各所述组合变量数据对的所述第二相关关系及对应的所述第二相关性参数;所述第二相关性参数包括线性拟合优度和相关显著程度值;
第二线性显著判断单元(93),与所述第二线性相关分析单元(92)连接,用于将所述组合变量数据对的所述第二相关性参数的所述线性拟合优度、相关显著程度值与预先设置的第二阈值进行比较,当所述线性拟合优度大于所述第二阈值,且所述相关显著程度值小于所述第二阈值时,第二判定结果表示所述组合变量数据对线性相关关系显著;当所述线性拟合优度不大于所述第二阈值,且/或所述相关显著程度值不小于所述第二阈值时,第二判定结果表示所述组合变量数据对的线性相关关系不显著;当所述第二判定结果为所述组合变量数据对的线性相关关系显著时,直接输出所述各所述组合变量数据对的第二相关关系及对应的第二相关性参数;
第二非线性相关分析单元(94),分别连接所述第二线性显著判断单元(93),用于当所述第二判定结果为所述组合变量数据对的线性相关关系不显著且没有所述协变量存在时,采用最大信息系数分析法对各所述组合变量数据对进行分析,或者当所述第二判定结果为所述组合变量数据对的线性相关关系不显著且存在所述协变量时,去除所述协变量的影响后采用所述最大信息系数分析法对各所述组合变量数据对进行分析,得到第二非线性分析结果,根据所述第二非线性分析结果对各所述组合变量数据对进行非线性拟合,得到各所述组合变量数据对的非线性拟合方程及对应的非线性拟合曲线和非线性拟合优度并输出;
排序单元(95),与所述第二线性显著判断单元(93)连接,用于筛选出相关关系显著的所述组合变量数据对,将降维前的所述组学变量按照对组合变量数据对的贡献程度进行降序排列并输出。


5.如权利要求1所述的一种多组学数据集间关联分析的集成系统,其特征在于,所述组学与表型间分析模块(10)包括:
第三线性关系判断单元(101),用于判断所述组学与表型数据对是否存在线性相关关系;
第三线性相关分析单元(102),分别与所述第三线性关系判断模块(101)连接,用于当所述组学与表型数据对存在线性相关且没有所述协变量存在时,采用一元线性回归相关分析法或者斯皮尔曼相关分析法对各所述组学与表型数据对进行分析,或者当所述组学与表型数据对存在线性相关且存在所述协变量时,采用多元线性回归相关分析法或者斯皮尔曼偏相关分析法对各所述组学单维数据对进行分析,得到各所述组学与表型数据对的所述第三相关关系及对应的所述第三相关性参数;所述第三相关性参数包括线性拟合优度和相关显著程度值;
第三线性显著判断单元(103),与所述第三线性相关分析单元(102)连接,用于将所述组学与表型数据对的所述第三相关性参数的所述线性拟合优度、相关显著程度值与预先设置的第三阈值进行比较,当所述线性拟合优度大于所述第三阈值,...

【专利技术属性】
技术研发人员:贾伟陈天璐梁丹丹孙涛
申请(专利权)人:上海市第六人民医院
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1