System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及人工智能中的医疗数据处理,特别涉及融合图像识别、大模型和prs的疾病预测方法及系统,尤其涉及一种融合图像识别模型、多模态大语言模型和prs的疾病预测系统及方法。
技术介绍
1、多基因风险分数(prs)是一种评估个体遗传风险的方法,主要用于预测复杂疾病的发病风险。一般情况下,对于单基因疾病(例如:孟德尔遗传病)来说,只有单个或少数基因对表型有很大的影响,与之相对,对于复杂疾病来说,通常有大量的遗传位点对表型有较小的影响,目前gwas研究多基于此类无限小的假设,这种情况下单个变异不足以用来评估个体对某一复杂疾病的风险,因此,为了找到一个能够评估个体疾病风险的值,prs(多基因风险评分)应运而生,prs的概念简单说就是,总和多个遗传变异与表型关系的数值。目前,利用prs预测疾病风险的主要实现方案包括:(1)全基因组关联研究(gwas):通过大规模人群研究,识别与特定疾病相关的遗传变异,这些研究为prs的计算提供了基础数据;(2)遗传变异的选择:从gwas结果中选择统计学显著的单核苷酸多态性,通常使用p值或效应量作为选择标准;(3)风险分数计算:将选定的snp与其效应大小相乘,然后求和,得到个体的prs值,计算公式通常为:prs = σ(βi * snpi),其中,βi是每个snp的效应大小,snpi是个体在该位点的等位基因数量(0,1或2);(4)模型优化:使用如ld pruning、clumping等方法优化snp选择,以减少连锁不平衡的影响;(5)风险预测:将计算得到的prs与其他风险因素(如年龄、性别、生活方式等)
2、虽然利用prs能够实现对疾病的风险预测,但在实际应用过程中存在以下不足之处:(1)预测效果较差:因为prs假设潜在的模型是加性模型(additive model),因此prs可以被认为是多个独立的遗传信号的总和,那么根据中心极限定理,prs也近似服从正态分布,prs的这种假设导致其预测性能受限,对于影响因素复杂的疾病而言,其分布特征并非一定服从正态分布;另外,因为计算prs需要考虑snp的数量以及snp的施加权重,现有技术对于这两方面的选择一般取决于gwas研究,而gwas研究一般只针对一种表型或者一种疾病特征,对应筛选出snp数量以及其权重,这种策略限制了如果表型b与表型a是关联的,同时又存在一些snp被表型a筛选掉,而被表型b保留下来的情况,这种情况就会欠缺考虑其他snp对于该疾病的影响;(2)单一标签预测:现有技术中的一种prs预测模型只能对一种表型或疾病的风险进行预测,其标签也是单一维度的,缺乏多维度标签与预测的功能;(3)数据可获取性:现有技术的方案需要获取足够权威可信的gwas队列基因型全量数据是相对困难的,一般只能获取gwas summary,即snp位点以及其权重信息,而采用较小队列的数据训练的prs预测模型存在预测效果不佳的问题;(4)gwas队列偏向性:单一gwas队列数据训练的prs预测模型,由于人群队列较为单一,具有基因型的偏向性,导致实际应用prs预测模型时,其预测效果也存在偏向性;(5)队列人群数量限制:单一gwas队列数据训练的prs预测模型,由于人群队列数量有限,其训练的prs预测模型的预测结果不一定可靠。
3、为此,提出了融合图像识别、大模型和prs的疾病预测方法及系统。
技术实现思路
1、基于此,有必要针对上述技术问题,提供融合图像识别、大模型和prs的疾病预测方法及系统。
2、根据本专利技术的第一方面,提供了融合图像识别、大模型和prs的疾病预测方法,包括:获取不同来源的多个初始gwas芯片基因型数据并进行预处理,得到gwas芯片基因型汇总数据,每个所述初始gwas芯片基因型数据包括多张芯片基因型数据,所述芯片基因型数据是通过采集不同样本得到的,所述样本为不同时间段的不同人群的基因型数据;获取亚洲人群的gwas summary数据,所述gwas summary数据包含至少一种与用于指代每个样本患有目标疾病的表型相关的gwas summary子数据,以及与用于指代对应样本患有另外至少一种疾病的表型相关的gwas summary子数据,基于gwas芯片基因型汇总数据,筛选初始snp位点数据,对初始snp位点数据进行正负链转换,得到转换后的目标snp位点数据,基于gwassummary数据中目标snp位点数据的效应大小,计算prs分值,并形成prs矩阵;基于三种映射模型,分别对prs矩阵进行维度转化处理,得到每种映射模型对应的多个初始映射prs分值,并对每个初始映射prs分值进行归一化处理,得到每种映射模型对应的多个归一化映射prs分值,所述归一化映射prs分值的取值范围均在[0,255]区间内;基于r、g、b的顺序对每种映射模型对应的多个归一化映射prs分值进行叠加处理,得到对应每个样本的多个像素数据,基于多个像素数据,生成对应样本的prs图像数据;训练并验证图像识别模型,得到验证后的图像识别模型;训练并验证多模态大语言模型,得到验证后的多模态大语言模型;基于目标患者的prs图像数据输入至验证后的图像识别模型进行疾病预测,得到对应目标疾病的0/1型的第一疾病预测结果,并将目标患者的prs图像数据、元数据信息和多重标签数据对应的prompt提示文本输入至验证后的多模态大语言模型进行多种疾病预测,得到对应多重标签数据的是/否型的第二疾病预测结果。
3、可选地,所述获取不同来源的多个初始gwas芯片基因型数据并进行预处理,得到gwas芯片基因型汇总数据,包括:获取不同来源的多个初始gwas芯片基因型数据,每个所述初始gwas芯片基因型数据包括多张芯片基因型数据,所述芯片基因型数据是通过采集不同样本得到的,所述样本为不同时间段的不同人群的基因型数据,每张芯片基因型数据均为表格数据结构,其中,每张芯片基因型数据的每一行对应一个snp位点数据,每张芯片基因型数据的列由id探针组和不同样本的基因型数据组成;基于id探针组,对每个初始gwas芯片基因型数据中包含的多张芯片基因型数据进行交集合并处理,得到多个一级gwas芯片基因型合并数据;基于芯片编码和基因组中的变异位点rsid之间的对应关系,将每个一级gwas芯片基因型合并数据中的每一行snp位点数据与相应的变异位点rsid进行映射处理,并根据相同的变异位点rsid,将每个一级gwas芯片基因型合并数据中的相同的snp位点数据进行交集合并处理,得到多个二级gwas芯片基因型合并数据;根据相同的变异位点rsid,对多个二级gwas芯片基因型合并数据交集合并处理,得到三级gwas芯片基因型合并数据;对三级gwas芯片基因型合并数据进行空值处理,得到gwas芯片基因型汇总数据。
4、可选地,所述基于gwas芯片基因型汇总数据,筛选初始snp位点数据,包括:基于gwas芯片基因型汇本文档来自技高网...
【技术保护点】
1.融合图像识别、大模型和PRS的疾病预测方法,其特征在于,包括:
2.根据权利要求1所述的融合图像识别、大模型和PRS的疾病预测方法,其特征在于,所述获取不同来源的多个初始GWAS芯片基因型数据并进行预处理,得到GWAS芯片基因型汇总数据,包括:
3.根据权利要求1所述的融合图像识别、大模型和PRS的疾病预测方法,其特征在于,所述基于GWAS芯片基因型汇总数据,筛选初始SNP位点数据,包括:
4.根据权利要求1所述的融合图像识别、大模型和PRS的疾病预测方法,其特征在于,所述基于GWAS Summary数据中目标SNP位点数据的效应大小,计算PRS分值,并形成PRS矩阵,包括:
5.根据权利要求1所述的融合图像识别、大模型和PRS的疾病预测方法,其特征在于,所述基于三种映射模型,分别对PRS矩阵进行维度转化处理,得到每种映射模型对应的多个初始映射PRS分值,并对每个初始映射PRS分值进行归一化处理,得到每种映射模型对应的多个归一化映射PRS分值,包括:
6.根据权利要求1所述的融合图像识别、大模型和PRS的疾病预测方法
7.根据权利要求1所述的融合图像识别、大模型和PRS的疾病预测方法,其特征在于,所述训练并验证多模态大语言模型,得到验证后的多模态大语言模型,包括:
8.融合图像识别、大模型和PRS的疾病预测系统,其特征在于,包括:
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可以在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。
...【技术特征摘要】
1.融合图像识别、大模型和prs的疾病预测方法,其特征在于,包括:
2.根据权利要求1所述的融合图像识别、大模型和prs的疾病预测方法,其特征在于,所述获取不同来源的多个初始gwas芯片基因型数据并进行预处理,得到gwas芯片基因型汇总数据,包括:
3.根据权利要求1所述的融合图像识别、大模型和prs的疾病预测方法,其特征在于,所述基于gwas芯片基因型汇总数据,筛选初始snp位点数据,包括:
4.根据权利要求1所述的融合图像识别、大模型和prs的疾病预测方法,其特征在于,所述基于gwas summary数据中目标snp位点数据的效应大小,计算prs分值,并形成prs矩阵,包括:
5.根据权利要求1所述的融合图像识别、大模型和prs的疾病预测方法,其特征在于,所述基于三种映射模型,分别对prs矩阵进行维度转化处理,得到每种映射模型对应的多个初始映射prs分值,并对每个初始映射prs...
【专利技术属性】
技术研发人员:张渤,李林,许娟,
申请(专利权)人:神州医疗科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。