二分图结构制造技术

技术编号:23903093 阅读:22 留言:0更新日期:2020-04-22 11:59
二分图结构用于更好地存储数据。二分图结构可用于生化数据库中,以高效地存储各种分子以及分子之间可能发生的过程。分子被表示为分子节点,分子节点可具有元数据字段,包括分子名称、分子类型、分子式、序列、分子电荷、一组分子属性和一组组分分子。对分子操作的过程由过程节点表示,过程节点可具有元数据字段,包括过程名称、一组过程角色、一组过程属性和一组子过程。称为角色的边每个将分子节点与过程节点相关联,并表示相关联的分子在相关联的过程中扮演的角色。角色可以包含标识过程中分子的角色类型和化学计量系数的元数据。

Bipartite structure

【技术实现步骤摘要】
【国外来华专利技术】二分图结构
本申请总体上涉及存储的数据的监管(curation)和结构及对其的高效使用。
技术介绍
通常,信息存储在关系数据库中,关系数据库详细描述了数据库中多个对象之间的关系。但是,该信息可以更高效地存储在二分图结构中。
技术实现思路
本文公开了用于高效地存储数据的二分图结构的描述。二分图结构的示例用途是用作表示生化信息的二分生化数据库,生化信息被组织为包含以下两类节点的二分图:分子和过程。每个分子节点表示分子或由一个或多个生化过程所利用的化学元素。分子节点可以表示小分子,例如水、二氧化碳、质子等,也可以表示大分子,例如DNA、RNA和蛋白质。分子节点包含描述该分子的多个元数据字段,包括但不限于分子名称、分子式、核酸序列、氨基酸序列、大分子结构、化学修饰(例如甲基化、磷酸化等)、电子电荷,化学或物理属性(pKa、熔点、溶解度等)以及组分分子。另外,一些非物理属性可以包括在分子节点的元数据中,包括途径信息、药物相互作用、3D结构等。分子节点不必包含每个前述元数据字段的信息。而是,使用在生化环境中与分子的相互作用有关的字段来描述每个分子。例如,小分子最好用其化学组成来描述,因此核酸序列和大分子结构的字段将不适用。另一方面,充当酶催化剂的蛋白质可能在大分子结构、氨基酸序列和结合位点字段中包含信息,但不包含组成信息,因为它在生化环境中对于分子的功能可能是可变的或不重要的。过程节点描述了生化环境中的分子作用,包括但不限于化学反应、调节相互作用、结合、转运或其他作用。如同分子节点,过程节点包括许多描述性元数据字段,这些元数据字段提供有关过程的信息,包括但不限于分子列表及其在过程中的相关联角色、反应速率信息以及过程的能量需求、过程中可能涉及的子过程或其他更详细的信息。除了分子和过程节点外,生化数据库还包含节点之间的边,这些边定义每个分子在每个过程中的角色以及分配给该角色的化学计量系数。每个边将分子节点与过程节点相关联,从而定义数据库的二分结构。每个边还包含表征在相关联的过程中相关联的分子的角色的附加元数据。任何相关的表征都是可能的,包括但不限于反应物/底物、催化剂、产物或辅因子。生化数据库的结构有助于在定义的生化环境中确定分子相互作用或确定一组特定分子相互作用所需的生化环境的高效方法。例如,通过选择定义生化环境的一组分子节点并遍历二分图,可以确定在生化环境中可能发生的一组生化相互作用。替代地,可以选择一组期望的过程节点,并且通过遍历该图,可以确定在所选择的该组过程中扮演角色的对应的一组分子。更一般地,生化数据库提供有关生化环境中各种过程与分子之间关系的洞察。另外,由于二分图中的所有边都将分子节点连接到过程节点,因此可以通过搜索图中的边来更高效地完成出于生化模拟目的的信息检索,而不搜索通过较混乱的图结构中的节点。图的二分性质还可以用于快速识别生化系统中的“死端”分子。死端分子可以是过程的产物,而不在任何其他反应中用作底物或催化剂,或者其可以是反应的底物,而不在生化环境中通过任何其他过程产生。在识别死端分子之后,可以引导附加研究以确定它们在生化环境中如何产生或如何利用它们。二分图结构还可以用于通过从死端分子遍历图并消除从死端分子产生或促成死端分子的过程和分子来从生化环境中删减分子和过程。附图说明图1是示出根据一个实施例的二分生化数据库的框图。图2是示出根据一个实施例的分子节点的示例的框图。图3是示出根据一个实施例的过程节点的示例的框图。图4是示出根据一个实施例的示例生化反应中包括的节点和边的框图。图5是示出根据一个实施例的识别可能在生化环境中发生的过程的方法的流程图。附图仅出于说明的目的描绘了本专利技术的各种实施例。本领域技术人员将从下面的讨论中容易地认识到,在不脱离本文描述的本专利技术原理的情况下,可以采用本文所示结构和方法的替代实施例。具体实施方式一、数据库结构图1是示出根据一个实施例的二分生化数据库的框图。二分生化数据库100包含表示一个或多个生化环境的组成和行为的数据。生化环境的示例可以包括细胞内环境、细胞的特定细胞器中的环境、整个细胞、细胞间环境或生物学中发现的或在生物学模拟中可以想象到的任何类似环境。数据库的二分性质是指构成数据库的两种类型的数据库对象或节点,其可以被分类为“分子节点”102和“过程节点”104。分子节点102可以表示生化环境中存在的任何分子或其他物理粒子,包括原子元素、离子、化合物、核酸、蛋白质和其他大分子。过程节点104可以表示化学反应、蛋白质折叠、转运、调节相互作用、活性位点结合或在生化环境中可能发生的任何其他物理或化学过程。二分生化数据库100以图结构组织,其中,上述提到的两类节点通过边连接。每个边在本文中被称为“角色”128,并将单个分子节点102与过程节点104相关联,从而创建分子102和过程104节点的二分图。可以使用各种的非关系数据库软件选项来实现二分生化数据库100。利用非关系数据库的实施例在允许提高创建表示生化分子和过程的节点的灵活性方面提供优点。生化环境通常包括几种不同类型的分子,例如,除了简单的化合物(例如水和葡萄糖)之外,还包括大分子,例如核酸链和蛋白质。由于分子类型的多样性,可以使用非关系数据库来允许各种文档(例如JSON、XML或其他格式)来表示二分生化数据库100的节点和边。替代地,例如OrientDB、ArangoDB、AllegroGraph或任何其他合适的数据库框架之类的图特定数据库技术可用于实现二分生化数据库100。本领域技术人员将理解,本文所述的数据库结构可使用各种可用的数据库软件选项来实现。二分生化数据库的图结构的其他益处在下面进一步描述。每个分子节点102包含分子元数据字段,该分子元数据字段提供关于节点表示的分子的信息,该信息与所表示的分子在生化环境中的行为有关。这些分子元数据字段可以包括分子名称106、分子类型108、分子式110、分子序列112、分子电荷114、分子属性116和组分分子118。图1示出了分子节点102A、102B、102C至102n,并示出了与分子节点102A对应的元数据字段106A、108A、110A、112A、114A、116A和118A。然而,每个其他所示的分子节点102也可以包含相同或相似的分子元数据字段。分子节点102不需要包含上述每个元数据字段的数据,并且取决于实施例,根据数据库的特定应用的需要,分子节点102中可以包括更少或附加的字段。在一些实施例中,可以将唯一ID分配给每个分子节点102,以在数据库中更容易地查询和参考。由于在生化环境中发现的各种类型的分子在其复杂性和与其他分子相互作用机制上各不相同,因此不同的字段可能适用于每种类型的分子。这样,尽管存在于分子节点102的数据结构中,但上述提到的某些字段对于某种类型的分子节点102可能被留空。在一些实施例中,分子节点102的分子名称字段106包含指示由分子节点102表示的分子的人类可识别的字符串。为分子节点102选择的名称106可以由用户将数据输本文档来自技高网...

【技术保护点】
1.一种用于存储生化信息的系统,包括:/n非暂时性计算机可读存储介质;/n处理器,执行指令以将所述非暂时性计算机可读存储介质配置为存储被结构化为二分图的数据库,该数据库包括:/n多个分子节点,其中,每个分子节点表示生化环境中的分子,并且其中,每个分子节点包括描述所述分子的多个分子元数据字段;/n多个过程节点,其中,每个过程节点表示在生化环境中发生的过程,并且其中,每个过程节点包括多个过程元数据字段,所述多个过程元数据字段至少包括角色字段,其中,所述角色字段定义在所述过程中分子的角色;和/n多个边,其中,每个边将分子节点与过程节点相关联,并且其中,每个边表征在由相关联的过程节点表示的过程中由相关联的分子节点表示的分子的角色,其中,所述边包括在所述过程中所述分子的化学计量系数。/n

【技术特征摘要】
【国外来华专利技术】20170901 US 15/694,5061.一种用于存储生化信息的系统,包括:
非暂时性计算机可读存储介质;
处理器,执行指令以将所述非暂时性计算机可读存储介质配置为存储被结构化为二分图的数据库,该数据库包括:
多个分子节点,其中,每个分子节点表示生化环境中的分子,并且其中,每个分子节点包括描述所述分子的多个分子元数据字段;
多个过程节点,其中,每个过程节点表示在生化环境中发生的过程,并且其中,每个过程节点包括多个过程元数据字段,所述多个过程元数据字段至少包括角色字段,其中,所述角色字段定义在所述过程中分子的角色;和
多个边,其中,每个边将分子节点与过程节点相关联,并且其中,每个边表征在由相关联的过程节点表示的过程中由相关联的分子节点表示的分子的角色,其中,所述边包括在所述过程中所述分子的化学计量系数。


2.根据权利要求1所述的系统,其中,所述分子元数据字段至少包括分子组成字段。


3.根据权利要求1所述的系统,其中,所述分子元数据字段包括以下中的一个或多个:
分子名称字段,
分子类型字段,
分子式字段,
序列字段,
电荷字段,
分子属性字段,或
组分分子字段。


4.根据权利要求1所述的系统,其中,所述角色被表征为以下之一:
底物,
反应物,
催化剂,
辅因子,或
产物。


5.根据权利要求1所述的系统,其中,所述多个分子节点、所述多个过程节点和所述多个边存储在非SQL图数据库中。


6.根据权利要求1所述的系统,其中,所述多个分子节点中的一个或多个表示一个或多个物理环境(settings)中的单个分子。


7.根据权利要求1所述的系统,其中,所述多个过程节点表示化学过程和物理过程。


8.一种非暂时性计算机可读存储介质,存储指令以配置被结构化为二分图的数据库,所述数据库包括:
多个分子节点,其中,每个分子节点表示生化环境中的分子,并且其中,每个分子节点包括描述所述分子的多个分子元数据字段;
多个过程节点,其中,每个过程节点表示在生化环境中发生的过程,并且其中,每个过程节点包括多个过程元数据字段,所述多个过程元数据字段至少包括角色字段,其中,所述角色字段定义在所述过程中分子的角色;和
多个边,其中,每个边将分子节点与过程节点相关联,并且其中,每个边表征在由相关联的过程节点表示的过程中由相关联的分子节点表示的分子的角色,其中,所述边包括在所述过程中所述分子的化学计量系数。


9.根据权利要求8所述的非暂时性计算机可读存储介质,其中,所述分子元数据字段...

【专利技术属性】
技术研发人员:J汤普森F鲁索
申请(专利权)人:X开发有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1