一种基于计算机上与疾病基因相关的药物发掘系统的生成方法和系统。系统包括后端数据存贮服务器,可连接位于因特网或局域网上的生物医学文本数据库服务器,疾病相关基因数据库服务器,及基因或蛋白质相互作用关系数据库。后端数据存贮服务器连接前端的查询服务器,可对用户感兴趣的疾病在现有的数据库资料中进行查询和统计分析,并存储与疾病(致病或易感)基因最相关的蛋白质,与疾病基因最相关的生化药物,和与疾病基因最相关的蛋白质-生化药物连通图谱。所述系统可用于寻找与疾病诱导或治疗相关的生化药物。系统还可用来发现并比较设计药物分子机理或毒理,或辅助定向生成小分子化学药物筛选库。
【技术实现步骤摘要】
本专利技术涉及与疾病基因特异相关的蛋白-药物关联图的数据发掘方法 及软件查询系统。
技术介绍
分子关联图的概念在正在系统生物学中流行。大量的基因组 学和功能基因组信息已产生,这些信息包括全基因组范围内的遗传变异、表观遗传修饰、 mRNA表达谱、蛋白质表达谱、蛋白质翻译后修饰,以及细胞内的代谢谱变化。虽然在每种类 型数据的管理和解释方面可能有所进展,但仍不确定如何开发统一的模式,整合在类似的 生物条件下从不同的分子实体得到的基因组规模的测量信号。在现代药物的发现过程中, 例如,针对不同药物化合物的干扰,或“药物/基因_蛋白关联谱”,基因或蛋白质表达水平 在临床试验之前就可能提供有关药物分子潜在的治疗谱和毒理学谱有价值的信息。“级间” 分子关联与“级内”分子关联(如基因-基因相互作用、药物_药物相互作用,或蛋白-蛋 白相互作用)有很大不同。从药物和/或基因,以及特定的生物背景中广泛的级内分子关联概括出的蛋 白-药物之间的关系可以用分子关联图来表示。分子关联图可以表示药物和多种分子(比 如与许多疾病相关的基因、微小RNA、蛋白,以及代谢物)间的关联。药物与多种生物分子间 的分子关联图可使研究人员同时比较多种候选药物的分子治疗谱或药物毒理学谱。目前生 成分子关联图的方法昂贵且费时。提供高质量的分子关联图(Cmaps),协助研究人员比较多种候选药物或药物靶基 因/蛋白的分子治疗谱或毒理学谱将是有益的。这将增加开发高品质药物的机会,减少药 物开发时间。此外,为了取得更好的数据覆盖面和质量,开发一系列的统计学和计算方法可 以克服生物网络和文献摘要中的高噪音的数据。附图说明图1是本专利技术生成分子关联图的信息示意图。图2是一个疾病相关分子关联图的例子。图3是本专利技术生成疾病相关分子关联图的一个流程示例。图4是本专利技术生成疾病相关分子关联图的另一个流程示例。图5是本专利技术实现基于的计算机结构图解。图6是本专利技术实现基于的计算机功能模块关系图解。图7是实现在计算机上的疾病基因相关药物发掘及相关分子关联图检索系统图解。具体实施例方式下面的详细描述为附图提供了参考。附图中,相似的符号通常标识相似的组件,除 非上下文另有说明。详细描述、图纸及新颖性要点中的说明并非限制。在不偏离这里主体 精神和范围的情况下,其它表现形式和变化也可能被使用。作为一般性的描述和展示,这部 分中的描述和的图片都是经过安排、取代、合并和许多不同的配置设计,所有这些都经过了 仔细考虑。本专利技术涉及生成分子关联图(Cmaps)所用的方法、系统、设备和/或仪器。具体而 言,是关于疾病特异性的蛋白-药物关联作图所用的方法、系统、设备和/或仪器。大规模的分子关联作图项目正在开发中。其中一个例子,包括一个采用基因-表 达谱作为共同词汇来连接小分子、基因和疾病,构建分子关联图的系统方法。这些分子关联 图是经过具有生物活性小分子处理的人培养细胞基因表达图谱的一个参考集。模式匹配软 件可以帮助研究人员检索分子关联图数据。另一个例子包括使用UMLS(统一的医学语言 系统)中的本体论和公开的基因表达数据,与“制高点”关联。(“制高点”一词是表型、疾 病、环境和实验中用到的生物学术语)尽管这两个例子可以使人们能够平行观察分子关联 图谱,但它们的覆盖面和质量受到质疑。第一个例子对每个化合物在每个生物条件下刺激 的所有细胞系进行系统筛选,得到基因表达谱变化数据。这是一个昂贵费时的实验过程,在 获得实际应用所需的足够数据覆盖度之前需要许多年时间和庞大的预算。第二个例子,主 要依靠整合不同的生物样品,不同的实验平台,不同的实验室提供基因表达数据。这通常产 生不兼容的结果,可能需要进行彻底深入的实验验证或知识维护。如专利技术述所述,有可能建立高品质、低成本的分子关联图。要实现这一点,人们可 以利用大量的生物医学文献,正在兴起的生物医学文献挖掘技术。目前在生物医药信息检 索、基因/蛋白鉴定、信息提取、文本聚类和分类、结构化和文本数据整合技术方面的进展, 使生物医学文献知识发现成为可行。有不少成功的例子。FACTA是一个生物医学文献搜索 引擎,用于从PubMed摘要中鉴别生物医学概念(如疾病,基因/蛋白,化学物质)。G2D是 一个根据疾病名称推断关联逻辑链的工具,它还可以根据相似度打分,对基因与疾病的相 关性排序。另一个例子已经鉴定出PubMed摘要中共同发生的疾病名称和组织名称,并将组 织与候选疾病基因连系起来。另一个例子开发了一种方法,探讨药理学药物和疾病之间的 隐含关系。根据指定的疾病名称和用户指定的词条,这些生物医学文献挖掘技术可按重要 性排列出词条(例如,基因,组织和物质等)在疾病中的潜在作用。理论上,使用现有文献 挖掘方法,通过搜索、收集,和对基因-疾病、疾病-药物和基因-药物词条同时出现的“三 角化”构建出分子关联图。但一个挑战是,在发现已知药物新的治疗应用的同时,如何实现 从疾病到药物满意的灵敏度和特异性。只报告蛋白、药物和疾病词条在同一文章中同时被 引用的显著关联是不够的,因为没有提供分子与疾病关联新的知识。未找到许多药物(低 灵敏度)或指示无关药物(低阳性预测值)同样可能发生,专家因此要进行沉重的手工知 识验证。本专利技术提出了生成高覆盖度疾病特异的药物蛋白分子关联图的方法、系统和/或 计算框架。它是通过整合分子相互作用网络挖掘和文本挖掘技术来实现的。通过挖掘相关 研究出版物中关于基因/蛋白、药物和疾病的上下文关联,揭示令人感兴趣的和非显而易 见的模式。通过一个例子,展示所用方法、系统和/或计算框架具有如下特征将用户输入 的种子疾病特异性基因/蛋白与先验知识结合起来。每个种子列表由专家维护,该表是采 用计算方法从大量的组学实验结果(例如,比较疾病样品与正常样品之间基因表达差异的 芯片实验)中提取得到,或从特定疾病的基因/蛋白数据库中自动检索得到。虽然种子质 量可能影响下游分析的质量,这些种子可以作为出发点,不必是完整的或优化的。通过对种 子基因/蛋白进行扩大自动改善初始种子基因/蛋白的质量,并通过变更优先顺序根据功 能对它们进行重排序。因此,用于建立分子关联图的基因/蛋白的最终名单可能与特异疾病高度相关。发现出现在多篇研究论文中跨越多个学科的药物。同时鉴定出对于某种疾病 显著和隐含的蛋白-药物关联需要开发灵敏的药物词条统计方法,它不需要疾病词条同时 出现在同一篇摘要中。将一种疾病广泛的分子关联数据归纳到一个二维矩阵中。二维矩阵 可作为文献中所有蛋白和候选药物的知识图,每个单元格中包含一个统计可信度分值,表 示文献中对于一种基因/蛋白和一种药物研究的程度。在一个例子中,本专利技术不仅可以高灵敏度和特异性从医药文献中检索到疾病相关 的药物,而且可能有机会发现老药物在治疗中的新用途。如果统计推论引擎在PubMed摘 要中建立起药物和大部分疾病相关的基因或蛋白间的显著关联,那么一种药物可能在一种 新的疾病背景中被重新发现。对每种药物的分子关联谱在特定疾病中的应用进行比较和分 类,可为验证新假说提供证据。采用这种方法鉴别用已知药物治疗新疾病(通常称为药物 再利用),可开发非常令人感兴趣的分子关联图。图1描述了一种开发疾病特定性分子关联图的系统。该框架可能包含至少三个组 成部分一个网络构建组本文档来自技高网...
【技术保护点】
一种药物-蛋白连接图作图系统,该系统包括:(a)至少一个与疾病相关的蛋白质的数据库,每个与疾病相关的蛋白数据库中存储与疾病相关的蛋白数据;(b)至少一个药物数据库,每个药物数据库存储药物相关数据;(c)一个连接作图组件,用于分析疾病相关的蛋白数据和药物数据,并输出药物-蛋白连接图。
【技术特征摘要】
...
【专利技术属性】
技术研发人员:陈越,
申请(专利权)人:陈越,
类型:发明
国别省市:11[中国|北京]