System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 时间特性预测器制造技术_技高网

时间特性预测器制造技术

技术编号:41378291 阅读:4 留言:0更新日期:2024-05-20 10:21
提供了获得用于基于基因转录数据预测时变特性的预测器的计算机实现的方法。该方法包括接收包括从具有不同值的时变特性的相应的细胞样本获得的数据样本的数据集,每个数据样本包括一定数目的转录水平以及针对每个数据样本的细胞样本的时变特性的相应的实际值,其中每个转录水平是个体基因转录物的转录水平或个体基因的多个基因转录物的池化转录水平;生成嵌入数据集,该嵌入数据集包括针对每个数据样本的嵌入样本,其中嵌入样本的维度的数目小于转录水平的数目;将嵌入数据集作为输入应用到预测器,以针对每个嵌入样本产生时变特性的预测值;以及通过调整预测器的预测系数以减少时变特性的相应的预测值与实际值之间的预测误差的误差测量,获得预测器。时变特性可以是年龄,例如疾病、病况或病症的进展、或生物学年龄。

【技术实现步骤摘要】
【国外来华专利技术】

本公开涉及用于获得用于预测来自基因转录物的时变特性的预测器的计算机实现方法以及对应的计算机程序产品、计算机可读介质和系统。具体地但非排他地,本公开涉及用于疾病、病况或病症的进展、生物学年龄或实足年龄的预测器。本公开的另一个非排他性方面涉及估计对不同基因或基因转录物的预测的贡献。


技术介绍

1、许多疾病具有衰老成分,例如帕金森病、阿尔茨海默病和骨关节炎。越来越有兴趣寻找通过新疗法诱导细胞和组织再生的方法,这些新疗法可以释放非常年轻的细胞中存在的潜在再生能力。在过去五年中,在部分表观遗传重编程的领域中的科学已经取得了许多进展,该领域前景广阔。

2、此前已知的诱导细胞变换为更年轻状态的唯一综合方法是创建ipsc(例如使用山中(yamanake)因子)。不幸的是,经历这种向多能性转变的细胞也会改变它们的身份,因此该技术不能用于创建抗衰老疗法,也不能用于延长健康寿命。

3、现在从部分表观遗传重编程的研究中得知,年龄逆转成分可以与细胞身份成分解耦合,并且目前正在努力将该过程变换为临床。

4、衰老时钟是一种了解如何驱动细胞再生过程的优雅方式。第一衰老时钟是由horvath等人开发的(例如参见us20160222448a1和us20190185938a1)并且是基于甲基化水平,因此被描述为表观遗传时钟。尽管表观遗传时钟能够高度准确地预测年龄,但它也有一些局限性,包括难以做出生物学推论,以及目前无法验证或针对个体位点以获得潜在的治疗益处。因此,注意力转向了转录组时钟,它根据rna表达水平预测年龄。例如在us10325673b2中和由holzscheck等人(npj aging mech dis 7,15(2021))已经描述转录组时钟。然而,这些转录组时钟的一个显著特征是它们在对应的基因通路的总和的转录水平上运行,因此需要预先了解基因通路才能制作此类时钟。专利技术人已经认识到这具有许多缺点,如下所述。因此,本领域需要一种克服这些限制的时钟(衰老的预测器)。


技术实现思路

1、本专利技术的各方面在所附独立权利要求中阐述。一些实施例的可选特征在从属权利要求中阐述。

2、本公开提供了一种获得用于基于基因转录数据(即,rna表达水平)预测时变特性的预测器的计算机实现方法。衰老时钟是时变特性(年龄)的预测器的示例,但是应当理解,本公开不限于年龄作为时变特性并且适用于其他时变特性。

3、该方法包括接收数据集,该数据集包括从具有不同值的时变特性的相应的细胞样本获得的数据样本。细胞样本可以是单个细胞或多个细胞的集合,转录水平在其上被池化以形成数据样品。例如,细胞样本可以从体外细胞培养获得。替代的,细胞样本可以从个体获得,例如通过活组织检查。获得细胞样本的步骤通常不构成该方法的一部分。每个数据样本包括一定数目的转录水平。每个数据样本还包括针对每个数据样本的细胞样本的时变特性的相应的实际值。时变特性可以是疾病或病症的进展或阶段、生物学年龄或实足年龄,例如癌症或神经退行性病症(诸如阿尔茨海默病或帕金森病)等。因此可以看出,虽然相应的细胞样本具有不同值的时变特性,但是相应的细胞样本可以全部同时采集,但是代表例如疾病或病症的不同进展阶段。时变特性可以是关于从其已经获得细胞样本的一个或多个生物体或受试方的。

4、每个转录水平是个体基因转录物的转录水平或个体基因的多个基因转录物的池化转录水平。因此,可以根据相应的细胞样本中的多个个体基因或多个基因转录物的相应转录计数获得转录水平。例如,在一些实施方式中,转录计数可以使用诸如rna-seq等转录组技术来获得。

5、由于该方法对多个个体基因转录物或多个基因进行操作,因此可以避免与通路的定义和选择相关联的任何偏差。此外,在一些实施方式中,可以发现涉及带来时变特性的新基因。由于不需要基因通路或生物活性的知识,与现有技术的现有方法不同,从细胞样本中的基因转录物的转录计数得到的转录水平可以用于分析,而不需要使用基因通路或生物活性的知识。

6、该方法包括根据个体转录水平生成嵌入数据集,该嵌入数据集包括针对每个数据样本的嵌入样本。嵌入样本的维度的数目小于转录水平的数目,使得嵌入提供了降维。在一些实施方式中,嵌入样本的维度的数目可以基于具有不同相应的维度的数目的嵌入数据集相应的预测性能来选择。有利的是,通过减少维度的数目,提高了计算效率并且可以帮助减少由技术噪声驱动的方差量。这在单细胞样本的情况下可能特别有利,这是因为与生物信号相比,技术噪音可能很大。

7、在一些实施方式中,该方法可以包括对数据集应用变换以生成嵌入数据集。该变换可以通过对数据集进行操作来获得,例如通过对数据集的协方差矩阵进行操作。在一些实施方式中,该变换可以在不使用基因通路的知识的情况下被获得。

8、在一些实施方式中,该嵌入可以包括转录数据集的线性变换以生成嵌入数据集,并且在一些特定的实施方式中,嵌入数据集包括转录数据集的主成分的子集。在一些实施方式中,可以使用非线性映射。

9、在一些实施方式中,该方法可以包括对预测系数应用逆映射以将预测系数投影到转录数据集的维度上。逆映射从嵌入细胞样本映射到对应的细胞样本。以这种方式,可以针对每个基因或转录物得到对预测时变特性的值的贡献的测量。在一些情况下,变换的(可能近似的)逆映射可以用于(至少近似地)将预测系数投影到数据集维度上。在线性变换的情况下,逆映射可以是通过矩阵求逆找到的逆映射。在某些情况下,诸如pca,由于特征向量的矩阵中的特征向量是正交的,因此逆映射可以是线性变换的转置或线性变换本身。在一些实施方式中,变换可以是非线性的以及该变换的逆运算,从嵌入数据样本映射到对应的数据样本的逆映射可以用于至少近似地将预测系数投影或转换为数据集维度。逆映射可以是近似的,例如通过数值优化找到的。系数的逆映射可以充当转录数据集的维度的重要性的测量,即每个对应的基因或转录物对于预测的重要性。因此,逆映射可以用于指导数据驱动的基因或转录物的发现,这些基因或转录物关联于驱动对生物学年龄、实足年龄和/或疾病的预测的贡献。每个基因或转录物的系数可以在基因集的富集分析中聚集,以指导为预测生物学年龄、实足年龄和/或疾病做出贡献的生物通路、过程和功能的发现。

10、然后,将嵌入数据集作为输入应用到预测器,以产生针对每个嵌入样本的时变特性的预测值,并且调整预测器的预测系数,以减少时变特性的相应的预测值与实际值之间的预测误差的测量。在一些实施方式中,还可以不在使用任何基因通路或生物活性信息的情况下获得预测器。在一些实施方式中,首先可以以这种方式获得预测器,然后可以使用基因通路或生物活性的现有知识或者从预测器的预测系数得到的生物知识来优化预测器。

11、在一些实施方式中,嵌入数据集可以被缩放以具有跨维度基本恒定的方差。例如,与未加权的pca回归相反,这增强了嵌入数据集的较低方差维度对预测系数调整的初始贡献。专利技术人已经认识到,高方差成分不一定与时变特性相关,而是可能代表生物或技术变异的其他来源。通过对所有成本文档来自技高网...

【技术保护点】

1.一种获得用于基于基因转录数据预测时变特性的预测器的计算机实现方法,所述方法包括:

2.根据权利要求1所述的方法,包括:对所述数据集应用变换以生成所述嵌入数据集,所述方法还包括:通过对所述数据集进行操作来获得所述变换。

3.根据权利要求2所述的方法,包括:不使用基因通路的知识来获得所述变换。

4.根据权利要求2或3所述的方法,包括:通过对所述数据集的协方差矩阵进行操作来获得所述变换。

5.根据任一前述权利要求所述的方法,包括:缩放所述嵌入数据集以具有跨维度基本恒定的方差。

6.根据任一前述权利要求所述的方法,包括:对所述转录数据集应用线性变换以生成所述嵌入数据集。

7.根据权利要求6所述的方法,其中所述嵌入数据集包括所述转录数据集的主成分的子集。

8.根据任一前述权利要求所述的方法,包括:对所述预测系数应用从所述嵌入数据样本映射到所述数据样本的逆映射,以将所述预测系数投影到所述数据集的所述维度上,从而得到对预测针对每个基因或转录物的所述时变特性的值的贡献的测量。

9.根据上述任一项权利要求所述的方法,其中所述预测器是线性预测器。

10.根据任一前述权利要求所述的方法,还包括:

11.根据权利要求1到10中任一项所述的方法,还包括:

12.根据任一前述权利要求所述的方法,其中所述嵌入样本的所述维度的所述数目是基于具有不同的相应数目的维度的嵌入数据集的相应的预测性能来选择的。

13.根据任一前述权利要求所述的方法,其中所述时变特性是已经从其中获得所述细胞样本的一个或多个生物体或受试方的时变特性,并且还包括生成标识所述一个或多个生物体或受试方的所述时变特性的值的报告。

14.根据任一前述权利要求所述的方法,其中所述细胞样本均为单个细胞的单细胞样本。

15.根据任一前述权利要求所述的方法,其中所述时变特性是病症或疾病的进展状态、生物学年龄或实足年龄,可选地其中所述病症或疾病是神经退行性疾病或癌症,可选地其中所述神经退行性疾病是阿尔茨海默病或帕金森病。

16.根据任一前述权利要求所述的方法,其中所述转录水平以及在存在情况下的所述另外的转录水平,在不使用基因通路的知识的情况下已经由所述细胞样本中基因转录物的转录计数得到。

17.根据权利要求16所述的方法,包括:在不使用基因通路的知识的情况下生成所述嵌入数据集和/或在不使用基因通路的知识的情况下应用所述嵌入数据集并且获得所述预测器。

...

【技术特征摘要】
【国外来华专利技术】

1.一种获得用于基于基因转录数据预测时变特性的预测器的计算机实现方法,所述方法包括:

2.根据权利要求1所述的方法,包括:对所述数据集应用变换以生成所述嵌入数据集,所述方法还包括:通过对所述数据集进行操作来获得所述变换。

3.根据权利要求2所述的方法,包括:不使用基因通路的知识来获得所述变换。

4.根据权利要求2或3所述的方法,包括:通过对所述数据集的协方差矩阵进行操作来获得所述变换。

5.根据任一前述权利要求所述的方法,包括:缩放所述嵌入数据集以具有跨维度基本恒定的方差。

6.根据任一前述权利要求所述的方法,包括:对所述转录数据集应用线性变换以生成所述嵌入数据集。

7.根据权利要求6所述的方法,其中所述嵌入数据集包括所述转录数据集的主成分的子集。

8.根据任一前述权利要求所述的方法,包括:对所述预测系数应用从所述嵌入数据样本映射到所述数据样本的逆映射,以将所述预测系数投影到所述数据集的所述维度上,从而得到对预测针对每个基因或转录物的所述时变特性的值的贡献的测量。

9.根据上述任一项权利要求所述的方法,其中所述预测器是线性预测器。

10.根据任一前述权利要求所述的方法,还包括:...

【专利技术属性】
技术研发人员:B·斯温
申请(专利权)人:转换生物科学有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1