【技术实现步骤摘要】
一种基于微生物组测序数据预测肠道年龄指数的人工智能模型和方法
[0001]本专利技术涉及一种基于肠道菌群数据来预测肠道年龄,特别涉及一种通过16s rRNA测序数据预测肠道年龄和计算肠道年龄指数(Gut Age Index,GAI)的人工智能机器学习算法。
技术介绍
[0002]人类肠道微生物群落是由各种细菌、真菌和病毒等微生物组成的复杂生态系统,其数量和多样性与人体健康状况密切相关。近年来,随着高通量测序技术的广泛应用,人们对肠道微生物群落的结构和功能有了更深入的了解。一系列研究表明,肠道微生物群落在人体代谢、免疫调节、营养吸收等方面发挥着重要作用,而肠道微生物失调则会导致多种疾病的发生和发展,如肠道炎症、自身免疫病、肥胖症、糖尿病、心血管疾病及精神类疾病等。因此,对肠道微生物群落的研究已成为当前热门的研究领域之一。
[0003]传统的方法,如细菌培养和传统的DNA测序等,存在一定的局限性,难以对肠道微生物群落的多样性和复杂性进行全面的评估。相比之下,高通量测序技术如16S rRNA测序和宏基因组测序等,具有高通量、高精度、高效性等技术优势,已成为研究肠道微生物群落的主要手段之一。同时,随着机器学习算法的快速发展和应用,研究人员可以将肠道微生物测序数据与机器学习算法相结合,以更准确、更全面地评估肠道健康状况和慢性疾病风险。随着年龄的增长,人体内的肠道菌群会发生变化,这种变化与各种慢性疾病的发生风险密切相关。
[0004]当前,通过对肠道菌群进行测序,可以获得大量的菌群信息,但如何利用这些信息来实现个 ...
【技术保护点】
【技术特征摘要】
1.一种基于微生物组测序数据预测肠道年龄和计算肠道年龄指数的方法,所述方法包括以下步骤:步骤一:获取不同年龄的健康成年人的肠道菌群数据样本作为原始数据,同时收集与数据样本相对应的宿主的背景信息;步骤二:对获取的原始数据进行预处理,所述预处理包括对宿主背景信息整理以及原始数据的质量控制,以及肠道菌群物种和代谢通路的组成及相对丰度的注释;其中,相对丰度是指肠道菌群物种及代谢通路两者各自的相对丰度;步骤三:采用最佳算法对肠道菌群特征的相对丰度信息表进行特征选择;采用特征选择后的肠道菌群物种构建健康人类年龄预测模型,使用随机搜索方法筛选出人类年龄预测模型中,每一类模型对应的最佳年龄预测模型及其超参数组合,选择最优算法,构建得到人工智能机器学习肠道年龄预测模型;步骤四:利用步骤三构建的人工智能机器学习肠道年龄预测模型,基于健康队列计算校正值,并对待预测的数据样本进行肠道年龄校正,进一步计算计算肠道年龄指数,肠道年龄指数GAI为预测肠道年龄y和实际年龄x之间的差异,即GAI=y
‑
x。2.如权利要求1所述的方法,其特征在于所述步骤一包括以下步骤:步骤Al:基于广东省肠道微生物组计划构建肠道菌群数据集以及相关宿主背景信息,包括年龄以及国家水平的地域特征;步骤A2:使用扩增子目的片段测序技术进行测序并分析,收集成年人类便样本进行测序并收集相关宿主背景信息,所述目的片段包含16S rDNA中V4可变区的基因序列。3.如权利要求1所述的方法,其特征在于所述步骤二包括以下步骤:步骤B1:对于收集获得的数据样本对应的宿主的背景信息进行过滤,选择18岁以上的成年人作为研究对象;获取健康样本和非健康样本的肠道菌群16S rRNA测序数据作为肠道年龄模型训练样本;步骤B2:对于获得的肠道菌群物种的原始数据,使用Qiime软件包对测序数据进行数据预处理,包括以下步骤:(B2
‑
1)对于每个样本,首先将每个序列从200'端修剪到5bp,并使用SeqPrep基于两个对端序列之间大约100bp的重叠来合并对端序列;合并的测序文件要求跨越整个16SrRNA基因V4区域,并且由Qiime进行质量控制;根据对端条形码信息拆分测序文件,基于以下原则:两端的条形码应与一个样品完全匹配,并且条形码和引物区域不应允许出现错误;使用专业的测序质量评估工具FastQC对测序数据进行检查,剔除质量评分小于20的序列;(B2
‑
2)去除嵌合体序列:采用DADA2来识别和去除嵌合体序列;(B2
‑
3)去除冗余序列:使用去冗余工VSEARCH来检测和去除冗余序列;(B2
‑
4)OTU聚类:利用Qiime2软件对处理后的序列数据进行OTU,使用基于97%序列相似性进行聚类;(B2
‑
5)最后,合并每个拆分测序数据的所有BIOM文件,以进行下游生物统计分析。4.如权利要求1所述的方法,其特征在于所述步骤三包括如下步骤:步骤C1:对注释获得的肠道菌群物种组成进行归一化处理;步骤C2:对归一化后的肠道菌群物种的相对丰度信息表使用pycaret包进行机器学习建模,根据健康人群的肠道菌群预测肠道年龄:首先将健康队列按照9:1的比例划分为建模
队列和独立验证集,然后将建模队列进一步按照7:3的比例划分为训练集和验证集;步骤C3:基于训练集,分别使用20种机器学习算法进行训练,包括Lightgbm、CatBoost回归器、随机森林回归器、梯度提升回归器、AdaBoost回归器、极端梯度提升器、Extre Trees回归器、贝叶斯岭回归器、岭回归器、被动攻击回归器、套索...
【专利技术属性】
技术研发人员:李明定,鲍志炜,
申请(专利权)人:浙江迈亚塔菌检智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。