System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于人群队列多组学数据的疾病数据分析方法及系统技术方案_技高网

一种基于人群队列多组学数据的疾病数据分析方法及系统技术方案

技术编号:42065645 阅读:4 留言:0更新日期:2024-07-19 16:49
本发明专利技术提供一种基于人群队列多组学数据的疾病数据分析方法及系统,涉及医疗数据分析技术领域。所述方法包括:对收集的历史多组学数据进行数据预处理;根据数据预处理后的历史多组学数据建立综合分析数据框架,并通过数据之间的关联性和相互作用进行数据集成;利用相关性分析方法对数据集成后的历史多组学数据进行特征选择,并通过特征选择的结果构建生物网络模型;通过训练数据对生物网络模型进行模型训练获取生物网络模型结构评估指数,同时通过测试数据对生物网络模型的性能进行测试获取生物网络模型性能评估指数;通过满足预设要求的生物网络模型对收集的患者多组学数据进行分析得到患者多组学评估数据。本发明专利技术可提高数据分析效率。

【技术实现步骤摘要】

本专利技术涉及医疗数据分析,特别是指一种基于人群队列多组学数据的疾病数据分析方法及系统


技术介绍

1、随着大型人群队列研究成为流行病学研究的主旋律之一,人群队列多组学数据因其全面性和综合性、医疗个性化和数据交叉验证等优点广泛应用于重大慢病、肿瘤和遗传病的预防、诊断和新药研发等领域中。目前,医学“重临床、轻数据”的现象比较普遍,医疗数据呈现出数量大、质量差的特征,缺乏统一标准,医疗机构间数据孤岛等问题,疾病数据分析的困难在很大程度上滞后了健康医疗大数据的发展。

2、现有技术中,通过与用户交互的方式收集用户对一个或多个组学的不同数据分析需求,利用不同组学数据的相互映射关系,实现多组学数据的不同分析。例如,cn113377765a公开的一种多组学数据分析系统及其数据转换方法,包括:交互模块用于向用户提供交互式表单以收集其对属于一个或多个组学数据库的数据分析需求信息;处理模块用于根据所述数据分析需求信息从一个或多个组学数据库中,提取或转换与分析需求信息相匹配的关联数据并将其返回给交互模块;组学数据库包括基因组学数据库、转录组学数据库、表观组学数据库和蛋白组学数据库;cn117591953a公开的基于多组学数据的癌症分类方法、系统及电子设备,包括:获取不同患者癌细胞即样本的多种组学数据;构建每种组学数据的样本加权相似度矩阵;根据各样本的每种组学数据与对应的样本加权相似度矩阵,构建用于训练的图数据;将每种组学的图数据输入至对应的图注意力网络中,融合邻居节点信息,更新节点的向量表示;将图注意力网络最后一层的隐藏层输出送入深度神经网络,将特征维度投影到分类数目上,从而构建分类器以得到每种组学数据的基础预测结果;将多种组学数据的基础预测结果视为不同视图下的预测,利用注意力机制计算得到每个分类器预测结果的权重,加权融合得到最终预测结果。

3、然而,上述现有技术还存在以下问题:通过构建分类器以得到每种组学数据的基础预测结果,将多种组学数据的基础预测结果视为不同视图下的预测,利用注意力机制计算得到每个分类器预测结果的权重,加权融合得到最终预测结果,对结果处理过程复杂,存在数据分析效率低的问题。


技术实现思路

1、针对上述问题,本专利技术的目的在于提供一种基于人群队列多组学数据的疾病数据分析方法及系统,以解决现有技术中数据分析效率低的问题,实现数据分析效率的提高。

2、为解决上述技术问题,本专利技术提供如下技术方案:

3、一方面,提供了一种基于人群队列多组学数据的疾病数据分析方法,所述方法包括以下步骤:

4、s1,对收集的历史多组学数据进行数据预处理,所述数据预处理包括数据清洗、去除异常值、处理缺失数据和处理重复数据,所述历史多组学数据包括历史基因组学数据、历史转录组学数据、历史蛋白质组学数据和历史代谢组学数据;

5、s2,根据数据预处理后的历史多组学数据建立综合分析数据框架,并通过数据之间的关联性和相互作用进行数据集成,所述综合分析数据框架用于批量处理历史多组学数据并将历史多组学数据进行整合;

6、s3,利用相关性分析方法对数据集成后的历史多组学数据进行特征选择,并通过特征选择的结果构建生物网络模型;

7、s4,根据历史多组学数据的类别信息划分训练数据和测试数据,并通过训练数据对生物网络模型进行模型训练获取生物网络模型结构评估指数,同时通过测试数据对生物网络模型的性能进行测试获取生物网络模型性能评估指数,所述生物网络模型结构评估指数用于评估生物网络模型的结构,所述生物网络模型性能评估指数用于评估生物网络模型的性能;

8、s5,通过满足预设要求的生物网络模型对收集的患者多组学数据进行分析得到患者多组学评估数据,并对患者多组学评估数据进行可视化展示,所述患者多组学数据包括患者基因组学数据、患者转录组学数据、患者蛋白质组学数据和患者代谢组学数据,所述患者多组学评估数据表示通过患者多组学数据评估的生物性能情况。

9、可选地,所述综合分析数据框架的具体建立步骤如下:

10、对数据预处理后的历史多组学数据进行初步分析,并根据数据特点确定综合分析数据框架的结构;

11、根据确定的综合分析数据框架的结构将历史多组学数据进行整合,并将整合后的数据填充到对应的位置。

12、可选地,所述特征选择的具体方法如下:

13、从数据集成后的历史多组学数据中提取特征,并使用相关性分析方法量化提取的特征的关联程度得到特征关联系数,所述特征关联系数用于衡量提取的特征之间的关联程度;

14、根据得到的特征关联系数对提取的特征进行排序获取特征子集,并使用特征子集构建生物网络模型;

15、根据交叉验证方法评估生物网络模型的特征选择能力得到特征参数,并判断得到的特征参数是否满足预设阈值,如果满足,表明特征选择结束,否则重新进行特征选择直至对应的特征参数满足预设阈值。

16、可选地,所述生物网络模型结构评估指数的具体获取方法如下:

17、通过对生物网络模型的连接方式进行分析的结果设置预设网络拓扑数据,并通过对生物网络模型的输入特征信息进行分析设置预设功能特征数据,所述预设网络拓扑数据用于对生物网络模型的网络拓扑结构进行描述,所述预设功能特征数据用于描述生物网络模型提取和选择输入特征信息的能力;

18、使用训练数据对生物网络模型进行模型训练以获得模型网络拓扑数据和模型功能特征数据,结合对应的预设网络拓扑数据和预设功能特征数据获取生物网络模型结构评估指数。

19、可选地,所述生物网络模型结构评估指数采用以下公式进行计算:

20、;

21、式中,wq表示生物网络模型结构评估指数,e表示自然常数,p0为预设网络拓扑数据,p表示模型网络拓扑数据,t0为预设功能特征数据,t为模型功能特征数据,a表示模型网络拓扑数据对生物网络模型结构评估指数的影响程度,b表示模型功能特征数据对生物网络模型结构评估指数的影响程度。

22、可选地,所述生物网络模型性能评估指数采用以下公式进行计算:

23、;

24、式中,k表示生物网络模型性能评估指数,e表示自然常数,α表示生物网络模型的准确度,β表示生物网络模型的精确度,γ表示生物网络模型的召回率,α0表示的生物网络模型的准确度阈值,β0表示生物网络模型的精确度阈值,γ0表示生物网络模型的召回率阈值,δα为准确度参考误差,δβ为精确度参考误差,δγ为召回率参考误差。

25、可选地,所述患者多组学评估数据的具体获取如下:

26、对历史多组学数据进行基因分组得到历史基因组,并通过生物网络模型对得到的历史基因组中的历史多组学数据进行信息评估获取对应的基因组学信息数据参考值、转录组学信息数据参考值、蛋白质组学信息数据参考值和代谢组学信息数据参考值;

27、对患者多组学数据进行基因分组得到基因组,并通过生物网络模型对得到的基因组中的患者多组学数据进行本文档来自技高网...

【技术保护点】

1.一种基于人群队列多组学数据的疾病数据分析方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于人群队列多组学数据的疾病数据分析方法,其特征在于,所述综合分析数据框架的具体建立步骤如下:

3.根据权利要求1所述的基于人群队列多组学数据的疾病数据分析方法,其特征在于,所述特征选择的具体方法如下:

4.根据权利要求1所述的基于人群队列多组学数据的疾病数据分析方法,其特征在于,所述生物网络模型结构评估指数的具体获取方法如下:

5.根据权利要求4所述的基于人群队列多组学数据的疾病数据分析方法,其特征在于,所述生物网络模型结构评估指数采用以下公式进行计算:

6.根据权利要求1所述的基于人群队列多组学数据的疾病数据分析方法,其特征在于,所述生物网络模型性能评估指数采用以下公式进行计算:

7.根据权利要求1所述的基于人群队列多组学数据的疾病数据分析方法,其特征在于,所述患者多组学评估数据的具体获取如下:

8.根据权利要求7所述的基于人群队列多组学数据的疾病数据分析方法,其特征在于,所述患者多组学评估数据采用以下公式进行计算:

9.根据权利要求1所述的基于人群队列多组学数据的疾病数据分析方法,其特征在于,所述可视化展示的具体过程如下:

10.一种基于人群队列多组学数据的疾病数据分析系统,所述系统用于实现如权利要求1至9中任一项所述的方法,其特征在于,所述系统包括:数据预处理模块、分析框架建立模块、特征选择模块、模型评估模块和患者多组学数据评估模块;

...

【技术特征摘要】

1.一种基于人群队列多组学数据的疾病数据分析方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于人群队列多组学数据的疾病数据分析方法,其特征在于,所述综合分析数据框架的具体建立步骤如下:

3.根据权利要求1所述的基于人群队列多组学数据的疾病数据分析方法,其特征在于,所述特征选择的具体方法如下:

4.根据权利要求1所述的基于人群队列多组学数据的疾病数据分析方法,其特征在于,所述生物网络模型结构评估指数的具体获取方法如下:

5.根据权利要求4所述的基于人群队列多组学数据的疾病数据分析方法,其特征在于,所述生物网络模型结构评估指数采用以下公式进行计算:

6.根据权利要求1所述的基于人群队列多组学数据的疾病数据分析方...

【专利技术属性】
技术研发人员:栾哲陈怡张瀚文吴俊嶺赵志壮孙刚王淑芳
申请(专利权)人:中国人民解放军总医院第一医学中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1