一种基于微生物组测序数据预测肠道年龄指数的人工智能模型和方法技术

技术编号:39156156 阅读:16 留言:0更新日期:2023-10-23 15:00
本发明专利技术提供了一种基于微生物组测序数据预测肠道年龄指数的人工智能模型和方法;通过机器学习算法和统计偏差校正方法,构建的人工智能机器学习肠道年龄预测模型,并基于健康队列计算校正值,对待预测的数据样本进行肠道年龄校正,从而计算计算肠道年龄指数;预测肠道年龄和GAI可用于肠道健康状况的评估和慢性疾病的预测等领域;本发明专利技术的临床前验证结果表明其具有较高的准确率,GAI在20种常见慢性疾病中的计算准确率在65.9%到74.8%之间,如代谢综合征、肥胖症和心血管疾病等,其中动脉硬化的准确率高达74.8%;该方法还具有特征性好,普适性强等优点,在大健康领域具有较强的应用价值。价值。价值。

【技术实现步骤摘要】
一种基于微生物组测序数据预测肠道年龄指数的人工智能模型和方法


[0001]本专利技术涉及一种基于肠道菌群数据来预测肠道年龄,特别涉及一种通过16s rRNA测序数据预测肠道年龄和计算肠道年龄指数(Gut Age Index,GAI)的人工智能机器学习算法。

技术介绍

[0002]人类肠道微生物群落是由各种细菌、真菌和病毒等微生物组成的复杂生态系统,其数量和多样性与人体健康状况密切相关。近年来,随着高通量测序技术的广泛应用,人们对肠道微生物群落的结构和功能有了更深入的了解。一系列研究表明,肠道微生物群落在人体代谢、免疫调节、营养吸收等方面发挥着重要作用,而肠道微生物失调则会导致多种疾病的发生和发展,如肠道炎症、自身免疫病、肥胖症、糖尿病、心血管疾病及精神类疾病等。因此,对肠道微生物群落的研究已成为当前热门的研究领域之一。
[0003]传统的方法,如细菌培养和传统的DNA测序等,存在一定的局限性,难以对肠道微生物群落的多样性和复杂性进行全面的评估。相比之下,高通量测序技术如16S rRNA测序和宏基因组测序等,具有高通量、高精度、高效性等技术优势,已成为研究肠道微生物群落的主要手段之一。同时,随着机器学习算法的快速发展和应用,研究人员可以将肠道微生物测序数据与机器学习算法相结合,以更准确、更全面地评估肠道健康状况和慢性疾病风险。随着年龄的增长,人体内的肠道菌群会发生变化,这种变化与各种慢性疾病的发生风险密切相关。
[0004]当前,通过对肠道菌群进行测序,可以获得大量的菌群信息,但如何利用这些信息来实现个性化健康预测和管理仍是一个重要的科学问题。传统的肠道菌群分析方法仅仅是描述菌群丰度或多样性,缺乏对菌群的定量化评估。因此,需要一种新的方法,以更精准的方式评估肠道健康状况,以实现个性化的健康管理和生活指导。

技术实现思路

[0005]本专利技术的目的在于提供一种基于肠道菌群、通过机器学习算法,预测个人肠道年龄的模型和方法,以此来评估肠道菌群是否健康。本专利技术方法利用16S rRNA测序数据和机器学习算法,预测个体的肠道年龄并计算肠道年龄指数。本专利技术的肠道年龄预测模型和肠道年龄指数计算公式也可以独立应用于肠道健康状况的评估和慢性疾病的预测等领域。
[0006]为达到上述目的,本专利技术采用了以下技术方案:
[0007]一种基于微生物组测序数据预测肠道年龄和计算肠道年龄指数(Gut Age Index,GAI)的方法,所述方法包括以下步骤:
[0008]步骤一:获取不同年龄的健康成年人的肠道菌群数据样本作为原始数据,同时收集与数据样本相对应的宿主的背景信息;
[0009]步骤二:对获取的原始数据进行预处理,所述预处理包括对宿主背景信息整理以
rRNA基因测序数据可能包含嵌合体序列,即由多个不同的16SrRNA基因片段组成的序列。这些嵌合体序列可能导致分析结果的误解和不准确性。因此,本专利技术采用了DADA2来识别和去除嵌合体序列,以确保分析的准确性。
[0024](B2

3)去除冗余序列:使用去冗余工VSEARCH来检测和去除冗余序列;在数据处理的过程中,可能存在重复的序列,这些序列对后续分析没有额外的信息贡献,并且可能导致结果的偏差。因此,本专利技术使用去冗余工VSEARCH来检测和去除冗余序列,以减少数据集的复杂性。
[0025](B2

4)OTU聚类:利用Qiime2软件对处理后的序列数据进行OTU,优选使用基于97%序列相似性进行聚类。
[0026]进一步,使用Qiime工作流脚本pick_closed_reference_otus.py来执行基于参考数据库的OTU聚类,并使用USEARCH6.1作为针对GreenGenes数据库v13_8的参考比对,使用默认的97%相似性阈值进行聚类;
[0027]系统发育关系和代表性OTU序列的分类关系是默认使用GreenGenes数据库确定的。
[0028](B2

5)最后,合并每个拆分测序数据的所有BIOM文件,以进行下游生物统计分析。
[0029]进一步地,所述步骤三中,具体包括如下步骤:
[0030]步骤C1:对经过数据处理而获得的肠道菌群物种组成进行归一化处理,即将所有的数据映射到特定的数值范围内,优选的,本专利技术使用相对丰度方法进行归一化;
[0031]步骤C2:对归一化后的肠道菌群物种的相对丰度信息表使用pycaret包进行机器学习建模,根据健康人群的肠道菌群预测肠道年龄:首先将健康队列按照9:1的比例划分为建模队列和独立验证集,然后将建模队列进一步按照7:3的比例划分为训练集和验证集;
[0032]步骤C3:基于训练集,分别使用20种机器学习算法进行训练,包括Lightgbm、CatBoost回归器、随机森林回归器、梯度提升回归器、AdaBoost回归器、极端梯度提升器、Extre Trees回归器、贝叶斯岭回归器、岭回归器、被动攻击回归器、套索回归器、套索最小角回归器、弹性网、虚拟回归器、K邻域回归、正交匹配追踪、决策树回归、线性回归、Huber回归和最小角回归;基于平均绝对误差(MAE)选择最佳模型,并基于验证集使用随机搜索方法确定模型超参数;最终基于独立验证集使用每个模型的最优超参数,使用平均绝对误差(MAE)和Spearman相关系数,根据预测年龄与实际年龄之间的相关性来评估模型的肠道年龄预测的准确性,选择最优算法,构建得到人工智能机器学习肠道年龄预测模型。
[0033]本专利技术最终选择LightGBM算法及其超参数来构建健康人群的人工智能机器学习肠道年龄预测模型。
[0034]进一步地,所述步骤四中,具体包括如下步骤:
[0035]步骤D1:定义肠道年龄指数(GAI)计算为预测年龄(y)和实足年龄(x)之间的差异,即y

x。
[0036]步骤D2:为校正偏差校正,首先计算健康人类的训练集中每个年龄组的平均GAI,范围包括18

20、20

25、25

30、...、75

89岁,以获得每个年龄阶段的平均GAI作为校正值;减去这些调整值来对预测的GAI进行去偏,使得GAI的分散在所有年龄组中均值为零。
[0037]与许多其他遵循残差化方法调整偏差的研究不同,本专利技术使用了一种非参数方法,该方法减轻了线性假设,因此对模型错误指定提供了更强的鲁棒性。
[0038]步骤D3:对于待预测的数据样本的肠道菌群物种组成,使用步骤C3获得的最佳人工智能机器学习肠道年龄预测模型进行预测,获得数据样本根据肠道微生物组数据的年龄预测结果,并使用步骤D1计算GAI,并且,基于步骤D2的校正值对GAI进行校正,并输出待预测的数据样本对应的成年人的最终GAI。
[0039]本专利技术还提供一种预测肠道年龄的方法,所述方法是:将待测样本的肠道菌群16S rRNA测序数据输入肠道年龄预测模型,进行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于微生物组测序数据预测肠道年龄和计算肠道年龄指数的方法,所述方法包括以下步骤:步骤一:获取不同年龄的健康成年人的肠道菌群数据样本作为原始数据,同时收集与数据样本相对应的宿主的背景信息;步骤二:对获取的原始数据进行预处理,所述预处理包括对宿主背景信息整理以及原始数据的质量控制,以及肠道菌群物种和代谢通路的组成及相对丰度的注释;其中,相对丰度是指肠道菌群物种及代谢通路两者各自的相对丰度;步骤三:采用最佳算法对肠道菌群特征的相对丰度信息表进行特征选择;采用特征选择后的肠道菌群物种构建健康人类年龄预测模型,使用随机搜索方法筛选出人类年龄预测模型中,每一类模型对应的最佳年龄预测模型及其超参数组合,选择最优算法,构建得到人工智能机器学习肠道年龄预测模型;步骤四:利用步骤三构建的人工智能机器学习肠道年龄预测模型,基于健康队列计算校正值,并对待预测的数据样本进行肠道年龄校正,进一步计算计算肠道年龄指数,肠道年龄指数GAI为预测肠道年龄y和实际年龄x之间的差异,即GAI=y

x。2.如权利要求1所述的方法,其特征在于所述步骤一包括以下步骤:步骤Al:基于广东省肠道微生物组计划构建肠道菌群数据集以及相关宿主背景信息,包括年龄以及国家水平的地域特征;步骤A2:使用扩增子目的片段测序技术进行测序并分析,收集成年人类便样本进行测序并收集相关宿主背景信息,所述目的片段包含16S rDNA中V4可变区的基因序列。3.如权利要求1所述的方法,其特征在于所述步骤二包括以下步骤:步骤B1:对于收集获得的数据样本对应的宿主的背景信息进行过滤,选择18岁以上的成年人作为研究对象;获取健康样本和非健康样本的肠道菌群16S rRNA测序数据作为肠道年龄模型训练样本;步骤B2:对于获得的肠道菌群物种的原始数据,使用Qiime软件包对测序数据进行数据预处理,包括以下步骤:(B2

1)对于每个样本,首先将每个序列从200'端修剪到5bp,并使用SeqPrep基于两个对端序列之间大约100bp的重叠来合并对端序列;合并的测序文件要求跨越整个16SrRNA基因V4区域,并且由Qiime进行质量控制;根据对端条形码信息拆分测序文件,基于以下原则:两端的条形码应与一个样品完全匹配,并且条形码和引物区域不应允许出现错误;使用专业的测序质量评估工具FastQC对测序数据进行检查,剔除质量评分小于20的序列;(B2

2)去除嵌合体序列:采用DADA2来识别和去除嵌合体序列;(B2

3)去除冗余序列:使用去冗余工VSEARCH来检测和去除冗余序列;(B2

4)OTU聚类:利用Qiime2软件对处理后的序列数据进行OTU,使用基于97%序列相似性进行聚类;(B2

5)最后,合并每个拆分测序数据的所有BIOM文件,以进行下游生物统计分析。4.如权利要求1所述的方法,其特征在于所述步骤三包括如下步骤:步骤C1:对注释获得的肠道菌群物种组成进行归一化处理;步骤C2:对归一化后的肠道菌群物种的相对丰度信息表使用pycaret包进行机器学习建模,根据健康人群的肠道菌群预测肠道年龄:首先将健康队列按照9:1的比例划分为建模
队列和独立验证集,然后将建模队列进一步按照7:3的比例划分为训练集和验证集;步骤C3:基于训练集,分别使用20种机器学习算法进行训练,包括Lightgbm、CatBoost回归器、随机森林回归器、梯度提升回归器、AdaBoost回归器、极端梯度提升器、Extre Trees回归器、贝叶斯岭回归器、岭回归器、被动攻击回归器、套索...

【专利技术属性】
技术研发人员:李明定鲍志炜
申请(专利权)人:浙江迈亚塔菌检智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1