基于非参数检验的差异基因识别方法技术

技术编号：43290238 阅读：35 留言：0更新日期：2024-11-12 16:10

本发明专利技术公开基于非参数检验的差异基因识别方法，获取实验组和对照组的基因表达矩阵；计算基因在实验组中的基因表达水平序列和在对照组中的基因表达水平序列之间的MMD无偏经验估计作为基因的原始MMD无偏经验估计；将基因在实验组中的基因表达水平序列和在对照组中的基因表达水平序列中的基因表达水平合并再随机打乱重排后，计算MMD无偏经验估计作为新的MMD无偏经验估计，计算基因的显著性参数，根据显著性参数判断差异表达基因。本发明专利技术本方法不依赖特定的数据分布假设，能够更灵活地处理时间点稀少或者基因表达水平波动大的数据集。适用于各种类型的基因表达数据，提高分析的灵活性和适用性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于生物信息学。具体涉及基于非参数检验的差异基因识别方法，适用于基因识别。

技术介绍

1、由于基因表达调控是一个动态过程，因此表征基因表达的全基因组动态调控对于理解生物过程中的转录组变化至关重要。时间序列rna-seq数据通过在不同时间点收集同一受试体的生物样本的基因表达水平，使我们能够研究基因表达的动态行为。借助高通量转录组学的优势，时间序列rna-seq数据的获取有了显著增加，使得时间序列基因表达实验越来越普遍。这类实验的主要目标是识别两种条件之间差异表达的基因。这一过程至关重要，因为通过时间序列分析检测差异表达基因不仅促进了对时间变化条件和刺激下基因调控机制的深入理解，还为发现新的生物标记物提供了可能。由于实验成本高或独特的个体生物样本数量有限，时间序列rna-seq数据集通常包含很少的时间点和生物重复。然而，识别与生物过程相关的差异表达基因的基本科学需求并没有减少。因此，迫切需要从时间点和重复性都很少的数据集中可靠地检测差异表达基因。此外，由于实验设计的多样性产生了不同类型的数据，迫切需要灵活的差异表达分析方法来处理任何实验的数据。

2、针对时间序列rna-seq数据集，已经开发了几种差异表达分析方法。例如，nextmasigpro-glm旨在识别rna-seq数据中多个实验时间点或条件下的显著差异表达谱，该模型利用负二项广义线性模型来适应基因表达随时间变化的复杂性和动态。splinetc是一个专门为时间序列分析设计的r包。它利用样条函数平滑地建模和分析数据的时间趋势。这种方法对于理解基因表达随时间

技术实现思路

1、本专利技术的目的在于针对现有技术存在的上述问题，提供基于非参数检验的差异基因识别方法，通过应用基于核函数的非参数统计检验，即最大均值差异(mmd)，对时间序列rna-seq数据中的差异表达基因进行识别分析。

2、本专利技术的上述目的通过以下技术手段实现：

3、基于非参数检验的差异基因识别方法，包括以下步骤：

4、步骤1：获取实验组和对照组的基因表达矩阵，基因表达矩阵的每一列代表一个时间点，基因表达矩阵的每一行的各个元素构成行对应的基因的基因表达水平序列；

5、步骤2：计算基因i在实验组中的基因表达水平序列和在对照组中的基因表达水平序列之间的mmd无偏经验估计，作为基因i的原始mmd无偏经验估计；

6、步骤3：将基因i在实验组中的基因表达水平序列和在对照组中的基因表达水平序列中的基因表达水平合并再随机打乱重排后，生成基因i在实验组中的新的基因表达水平序列和在对照组中的新的基因表达水平序列并计算mmd无偏经验估计作为新的mmd无偏经验估计，根据原始mmd无偏经验估计和新的mmd无偏经验估计计算基因i的显著性参数padj，若基因i的显著性参数padj小于显著性阈值，则认为基因i为差异表达基因。

7、如上所述步骤1中获取实验组和对照组的基因表达矩阵包括以下步骤：收集实验组和对照组在同一温度环境下，且具有多个时间点的rna-seq原始数据，经过数据预处理分别得到实验组和对照组的基因表达矩阵。

8、如上所述步骤2和步骤3中的mmd无偏经验估计基于以下公式计算：

9、

10、其中，mmd2(xi,yi)为基因i的mmd无偏经验估计，xi为基因i在实验组中m个时间点下的基因表达水平序列，为基因i在实验组的基因表达矩阵中第1个时间点到第m个时间点下的基因表达水平，yi为基因i在对照组中n个时间点下的基因表达水平序列，为基因i在对照组的基因表达矩阵中第1个时间点到第n个时间点下的基因表达水平，m为实验组的基因表达矩阵的时间点总数，n为对照组的基因表达矩阵的时间点总数，iu1和iu2为实验组的时间点的序号变量，iv1和iv2为对照组的时间点的序号变量，k为内积函数。

11、如上所述基因i的显著性参数padj基于以下公式计算：

12、

13、其中，r为随机打乱重排的次数序号，r为随机打乱重排的总次数，i(·)为指示函数，记基因i在实验组中的基因表达水平序列和在对照组中的基因表达水平序列中的基因表达水平合并再随机打乱重排后：新的实验组的基因表达水平序列为xir，新的对照组的基因表达水平序列为yir，计算的新的mmd无偏经验估计为mmd2[xir,yir]。

14、如上所述指示函数的括号中内容表示条件，当条件成立时，指示函数的值为1，当条件不成立时，指示函数的值为0。

15、一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述差异基因识别方法的步骤。

16、一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述差异基因识别方法的步骤。

17、一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述差异基因识别方法的步骤。

18、本专利技术相对于现有技术，具有以下有益效果：

19、本方法不依赖特定的数据分布假设，能够更灵活地处理时间点稀少或者基因表达水平波动大的数据集。本方法通过mmd无偏经验估计可以更好地捕捉基因表达水平在实验组和对照组下的非线性动态变化。根据基因表达数据的非均匀性和复杂性，可以选择不同类型的核函数(如线性、多项式、径向基函数)，使本方法适用于各种类型的基因表达数据，提高分析的灵活性和适用性。

本文档来自技高网...

【技术保护点】

1.基于非参数检验的差异基因识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述基于非参数检验的差异基因识别方法，其特征在于，所述步骤1中获取实验组和对照组的基因表达矩阵包括以下步骤：收集实验组和对照组在同一温度环境下，且具有多个时间点的RNA-seq原始数据，经过数据预处理分别得到实验组和对照组的基因表达矩阵。

3.根据权利要求1所述基于非参数检验的差异基因识别方法，其特征在于，所述步骤2和步骤3中的MMD无偏经验估计基于以下公式计算：

4.根据权利要求3所述基于非参数检验的差异基因识别方法，其特征在于，所述基因i的显著性参数Padj基于以下公式计算：

5.根据权利要求4所述基于非参数检验的差异基因识别方法，其特征在于，所述指示函数的括号中内容表示条件，当条件成立时，指示函数的值为1，当条件不成立时，指示函数的值为0。

6.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的差异基因识别方法的步骤。

7.一种计算机

8.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至5中任一项所述的差异基因识别方法的步骤。

...

【技术特征摘要】

1.基于非参数检验的差异基因识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述基于非参数检验的差异基因识别方法，其特征在于，所述步骤1中获取实验组和对照组的基因表达矩阵包括以下步骤：收集实验组和对照组在同一温度环境下，且具有多个时间点的rna-seq原始数据，经过数据预处理分别得到实验组和对照组的基因表达矩阵。

3.根据权利要求1所述基于非参数检验的差异基因识别方法，其特征在于，所述步骤2和步骤3中的mmd无偏经验估计基于以下公式计算：

4.根据权利要求3所述基于非参数检验的差异基因识别方法，其特征在于，所述基因i的显著性参数padj基于以下公式计算：

5.根据权利要求4所...

【专利技术属性】
技术研发人员：张秀军，刘康晨，
申请(专利权)人：中国科学院武汉植物园，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人