与基于网络的生物标记签名相关的系统和方法技术方案

技术编号:11587138 阅读:112 留言:0更新日期:2015-06-10 20:20
本文中提供了用于产生用于表型预测的分类器的系统和方法。表示生物系统的计算因果网络模型包括多个节点和连接节点对的多个边。接收与第一生物实体子集在第一组条件下获得的活动相应的第一数据集合,并且接收与第一生物实体子集在第二组条件下获得的活动相应的第二数据集合。计算活动度量集合,该活动度量集合表示关于第一节点子集的第一数据集合和第二数据集合之间的差别。产生未被测量的第二节点子集的活动值集合。基于活动度量集合、活动值集合或这两者产生用于表型的分类器。

【技术实现步骤摘要】
【国外来华专利技术】相关申请的引用本申请依据35U.S.C.§119要求于2012年6月21日提交的标题为“Systems and Methods Relating to Network-Based Biomarker Signatures”的美国临时专利申请No.61/662,806和于2012年7月16日提交的标题为“Systems and Methods Relating to Network-Based Biomarker Signatures”的美国临时专利申请No.61/671,954的优先权,以上每篇申请的全部内容并入本文。
技术介绍
在过去的十年中,与传统的剂量相关的疗效和毒性测定相结合的对于核酸、蛋白质和代谢物水平的高吞吐量测量已经作为用于阐明许多生物过程的作用机制的手段出现。研究者试图将来自这些迥然不同的测量的信息与来自科学文献的关于生物路径的知识组合以组装有意义的生物模型。为此,研究者已经开始使用可以挖掘大量数据的数学和计算技术(诸如聚类和统计方法)来识别可能的生物作用机制。由于典型的基因表达数据中的信噪比很高、个体之间的基因型可变性、以及通常测量的基因的数量相对于患者的数量而言很多,找到对于诊断工具足够可靠的基因签名是非常具有挑战性的。以前的工作探讨了以下步骤的重要性:揭示由对于生物过程的一个或多个扰动而造成的基因表达变化的特征签名,随后作为对该过程的特定活动振幅的度量、对该签名在附加的数据集合中的存在进行评分。关于这方面的大多数工作涉及识别与疾病表型相关的签名并且对这些签名进行评分。这些表型推导的签名提供重要的分类能力,但是缺乏单个特定扰动与签名之间的机械或因果关系。因此,这些签名可以表示多个截然不同的未知的扰动,这些未知的扰动通过通常未知的机制(一种或多种)导致相同的疾病表型或者由相同的疾病表型而造成。一个挑战在于理解生物系统中的各种单个的生物实体的活动如何使得能够激活或抑制不同的生物机制。因为单个的实体(诸如基因)可能涉及多个生物过程(例如,炎症和细胞增殖),所以对基因的活动的测量不足以识别触发该活动的基础生物过程。当前技术均尚未应用于在微观尺度上识别负责生物实体的活动的基础机制,也尚未提供对不同的生物机制的激活的定量评定,在所述不同的生物机制中,这些实体在对潜在有害的动因(agent)和实验条件作出响应时起作用。因此,需要改进的用于考虑到生物机制来对全系统生物数据进行分析并且当系统对动因或环境变化做出响应时量化生物系统中的变化的系统和方法。
技术实现思路
本文中描述了用于识别生物实体(例如,基因和蛋白质)以及它们的表示感兴趣表型的性质的系统、计算机程序产品和方法。所述系统、计算机程序产品和方法是基于多个生物实体的被测活动和促成感兴趣表型的生物系统的网络模型,该网络模型描述该生物系统中的各个生物实体之间的关系。这些基于网络的方法利用因果生物网络模型,除了其他数据源之外,这些因果生物网络模型表示研究文献和所发布的数据集合中所识别的“原因与结果”机制的知识。例如,在一些因果生物网络模型中,基因转录中的变化被建模为该模型中所表示的其他生物过程的结果。在一些实现方式中,生物系统的网络模型使用生物表达语言(“BEL”)来进行描述,BEL是由马萨诸塞州的剑桥的Selventa开发的用于生物网络表示的开源框架。本文中所描述的基于网络的方法使用高吞吐量数据集合和因果生物网络模型来定量地评估样本(例如,患者)内的生物网络的扰动。在一些实现方式中,该评估包括将所述网络内的生物实体的被观测的活动度量(例如,基因的表达水平)转换为关于所述网络内的其他生物实体的推断活动值。所述网络中的生物实体的所测量的和所推断的活动然后可以用于表示生物事件或机制与在细胞、组织或器官水平上观察到的表型的相关性。活动和它们的附随统计数据提供生物网络的与感兴趣表型相关的变化或扰动程度的可量化度量,并且指示所述网络中的生物实体的性质的变化如何传播通过网络拓扑结构。后者可以帮助构建实现比已知的分类器更高精度的知识驱动的分类器,从而提供对感兴趣生物现象的更好概括。如本文中所使用的,活动值可以用于从生物实体列表识别可以用作生物签名的实体子集,该生物签名在生物学上是有意义的而且是可解释的,并且在其用作诊断或预报工具时是鲁棒的而且高效率的。在一些方面,本文中提供了用于对处置数据进行处理以识别表示感兴趣表型的生物实体的计算机化方法和系统。处理装置提供表示促成表型的生物系统的计算因果网络模型。计算因果网络模型包括表示生物系统中的生物实体的多个节点。例如,节点可以对应于化合物、DNA、RNA、蛋白质、肽、抗体、细胞、组织或器官。网络模型还包括多个边,这些边连接所述多个节点之中的节点对,并且表示这些节点所表示的生物实体之间的关系。例如,边可以表示“绑定到”关系、“用…表达”关系、“基于表达谱共同调控”关系、“禁止”关系、“在手稿中共同出现”关系、或“共享结构元素”关系。在计算因果网络模型中,一个或多个边与方向值相关联,该方向值表示节点所表示的生物实体之间的因果激活关系或因果抑制关系,并且每个节点通过边连接到至少一个其他节点。所述处理装置接收(i)与第一生物实体子集的在第一组条件下获得的活动相应的第一数据集合、以及(ii)与第一生物实体子集的在不同于第一组条件的第二组条件下获得的活动相应的第二数据集合。例如,第一组和第二组条件可以分别对应于处置和控制数据,并且活动度量包括倍数变化,该倍数变化是描述节点测量在控制数据与处置数据之间从初始值到最终值变化了多少的数量。第一组和第二组条件与表型相关。所述处理装置还计算对于与第一生物实体子集相应的第一节点子集的活动度量集合,所述活动度量表示第一数据集合与第二数据集合之间的差别。活动度量可以包括由节点所表示的生物实体的处置和控制数据之间的差别的倍数变化或对数。所述处理装置基于计算因果网络模型和活动度量集合来产生第二节点子集的活动值集合,第二节点子集表示促成表型的、但是其活动未被测量的生物实体候选。第二节点子集对应于骨干实体,因为这些节点不被直接测量。相反,第二节点子集的活动值是从第一活动值集合和计算网络模型推断的。所述处理装置还使用机器学习技术来基于活动值集合、活动度量集合或这两者产生用于表型的分类器。在上述方法的某些实施例中,产生分类器的步骤包括:产生将关于第一生物实体子集的活动度量的信息转本文档来自技高网
...

【技术保护点】
一种用于识别表示感兴趣表型的生物实体的计算机化方法,包括以下步骤:(a)在处理装置处提供计算因果网络模型,所述计算因果网络模型表示促成所述表型的生物系统,并且所述计算因果网络模型包括:多个节点,表示所述生物系统中的生物实体;和多个边,连接所述多个节点中的节点对,并且表示由节点表示的生物实体之间的关系;其中,一个或多个边与方向值相关联,所述方向值表示由节点表示的生物实体之间的因果激活关系或因果抑制关系,并且其中每个节点通过边连接到至少一个其他节点;(b)在所述处理装置处接收(i)与第一生物实体子集的在第一组条件下获得的活动相应的第一数据集合、以及(ii)与第一生物实体子集的在不同于第一组条件的第二组条件下获得的活动相应的第二数据集合,其中,所述第一组条件和所述第二组条件与所述表型相关;(c)用所述处理装置计算与所述第一生物实体子集相应的第一节点子集的活动度量集合,所述活动度量表示所述第一数据集合与所述第二数据集合之间的差别;(d)用所述处理装置基于所述计算因果网络模型和所述活动度量集合来产生第二节点子集的活动值集合,所述第二节点子集表示促成所述表型的、但是其活动未被测量的生物实体候选;(e)用所述处理装置使用机器学习技术来基于所述活动度量集合、所述活动值集合或这两者来产生用于所述表型的分类器。...

【技术特征摘要】
【国外来华专利技术】2012.06.21 US 61/662,806;2012.07.16 US 61/671,9541.一种用于识别表示感兴趣表型的生物实体的计算机化方法,包
括以下步骤:
(a)在处理装置处提供计算因果网络模型,所述计算因果网络模型
表示促成所述表型的生物系统,并且所述计算因果网络模型包括:
多个节点,表示所述生物系统中的生物实体;和
多个边,连接所述多个节点中的节点对,并且表示由节点表
示的生物实体之间的关系;
其中,一个或多个边与方向值相关联,所述方向值表示由节
点表示的生物实体之间的因果激活关系或因果抑制关系,并且其中每
个节点通过边连接到至少一个其他节点;
(b)在所述处理装置处接收(i)与第一生物实体子集的在第一组条
件下获得的活动相应的第一数据集合、以及(ii)与第一生物实体子集的
在不同于第一组条件的第二组条件下获得的活动相应的第二数据集
合,其中,所述第一组条件和所述第二组条件与所述表型相关;
(c)用所述处理装置计算与所述第一生物实体子集相应的第一节
点子集的活动度量集合,所述活动度量表示所述第一数据集合与所述
第二数据集合之间的差别;
(d)用所述处理装置基于所述计算因果网络模型和所述活动度量
集合来产生第二节点子集的活动值集合,所述第二节点子集表示促成
所述表型的、但是其活动未被测量的生物实体候选;
(e)用所述处理装置使用机器学习技术来基于所述活动度量集合、
所述活动值集合或这两者来产生用于所述表型的分类器。
2.根据权利要求1所述的计算机化方法,其中,在步骤(e)产生
用于所述表型的分类器包括:
(e1)产生将关于所述第一生物实体子集的活动度量的信息转换为
关于所述第二节点子集的活动值的信息的算子;
(e2)使用所述算子识别所述第二节点子集的子集;和
(e3)将所识别的子集作为输入提供给所述机器学习技术。
3.根据权利要求1-2中的任何一个所述的计算机化方法,其中,
对于多个计算因果网络模型执行步骤(c)和(d),并且将与每个计算因果
网络模型相应的活动值集合聚集成在步骤(e)使用的活动值集合。
4.根据权利要求1-3中的任何一个所述的计算机化方法,其中,
对于多个计算因果网络模型执行步骤(c)、(d)和(e),并且还包括:
(h1)对于每个分类器,识别第二生物实体集合的具有高于阈值的
分类性能统计数据的一个或多个生...

【专利技术属性】
技术研发人员:弗洛里安·马丁阿兰·塞韦尔朱丽娅·亨格曼纽尔·克劳德·派奇
申请(专利权)人:菲利普莫里斯生产公司弗洛里安·马丁阿兰·塞韦尔朱丽娅·亨格曼纽尔·克劳德·派奇
类型:发明
国别省市:瑞士;CH

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1