基于逆向合成的有机小分子化合物可合成性评价方法涉及计算机辅助药物分子设计领域。建立原料数据库、转换规则数据库和固定路线数据库,应用这三个数据库对目标化合物进行逆向合成分析,自动生成有机小分子化合物的合成路线,在拆分过程中,对逆合成分析树的生成进行优化处理,预先删减逆合成分析树中的节点。合成路线生成后,同时对化合物的拆分难度和合成路线的实现难度进行评价。程序流程包括识别输入分子;读取原料数据库、转换规则数据库和固定路线数据库数据;以优化逆合成分析树方式生成合成路线和对可合成性的评分4个步骤。本发明专利技术解决现有化合物从头设计方法发展的瓶颈问题,有效缩短了运算时间,提供了有效准确的化合物可合成性评价。
【技术实现步骤摘要】
本专利技术涉及计算机辅助药物分子设计领域,特别涉及一种基于逆向合成的有机小分子化合物可合成性评价方法。
技术介绍
自20世纪90年代以来,计算机技术、计算化学、分子生物学、生物信息学等学科的发展大大推动了计算机辅助药物分子设计技术的进步,许多新的计算机辅助药物分子设计方法大量涌现,目前计算机辅助药物分子设计已发展为一个相对完善的新兴研究领域。 计算机辅助药物分子设计方法主要包括分子对接、从头设计、构效关系和药效团模型等方法。在靶分子的三维结构已知的情况下,一般采用分子对接和从头设计方法,分子对接从已知的化合物数据库中寻找能够与靶分子具有最佳几何形状和物理化学性质匹配的有机小分子化合物,其缺点是找到的化合物均为已知,不具有新颖性或已受到专利保护。从头设计是在靶分子的活性位点中直接采用片段生长或组装的方法进行化合物分子的拼接,所设计的化合物具有新颖性。从头设计方法能产生全新的药物分子,但由于这些全新的分子都是不存在的,因此首先需要将其合成出来,然后才能进行后续的药理实验验证。由于分子的产生是不同片段组合的结果,最后得到的分子数目相当庞大。将这些分子全部合成出来进行实验是一个十分消耗人力、财力和时间的过程,几乎不能实现。因此在实际操作时,会从中选出小部分容易合成的分子进行合成。但要从成千上万个化合物中挑选出数十个容易合成的分子,也是一件非常困难且耗时很长的工作。如果能够借助计算机应用技术,解决化合物的可合成性的快速评价无疑具有不可估量的积极作用。
技术实现思路
本专利技术的目的是利用计算机辅助设计,提供一种基于逆向合成的准确快速的有机小分子化合物可合成评价方法,解决现有化合物从头设计方法发展的瓶颈问题。 本专利技术的基本思路是通过分析目标分子结构,将其拆解为更简单、更容易得到的前体。然后,再将前体作为新的目标分子进行逐步拆解,直到最后一步的前体能够直接购买。其中,最后一步的前体叫做原料,中间的前体称为中间体。逆向合成分析结束后,反过来将拆分得到的前体或其等价物通过合成反应再结合起来。根据拆分的结果,逐步逆推,最终得到从原料到目标化合物的合成路线,并在此基础上对化合物的可合成性进行评价。本专利技术在计算机程序控制下自动生成化合物的合成路线。在逆向合成分析生成合成路线的过程中,同时对逆合成分析树进行优化,对无用的合成步骤尽早剔除,以避免无用合成步骤的原料作为目标化合物进行再拆分。在合成路线生成后,对化合物的拆分难度和合成路线的实现难度进行评价,以求准确评价化合物可合成性。 本专利技术的主要理论依据基于以下四点(l)化学家评价化合物可合成性时,会对目标化合物进行拆分并设计合成路线,根据拆分的难易进行评分。同以往使用的基于分子复杂度或基于原料的方法相比,基于逆向合成的评价方法可以得到最准确的结果。(2)随着化学信息学的发展,大量的化合物数据库和有机反应数据库逐渐出现,这些数据库为计算机辅助设计奠定更加丰富、实用的基础。(3)在应用逆向合成方法自动生成合成路线时,能得到一个逆合成分析树,除了顶点,树中的其他节点表示逆向合成分析过程中得到的中间体或者原料。由于目标分子及中间产物可能会有多个拆分点,或者一个拆分点可以有多种转换规则适用,计算机自动拆分化合物时会产生组合爆炸,这也是逆向合成方法应用于可合成性评价时耗时过长的问题。但是,产生的这众多路线中,绝大部分是无用的。因此,在拆分过程中同时对逆合成分析树进行删减,以解决运算时间的问题。(4)化合物的合成难度不仅在于拆分的难度,还在于合成路线的实现难度。同时对这两部分进行评价,能得到更准确的评分结果。 本专利技术的目的是这样达到的收集各种常见的化学试剂建立原料数据库,收集常用的有机合成反应和经典的有机人名反应建立转换规则数据库,收集已报道的化合物分子的合成路线建立固定路线数据库。应用这三个数据库,对目标化合物进行逆向合成分析,自动生成有机小分子化合物的合成路线,在拆分过程中,对逆合成分析树的生成进行优化处理,预先删减逆合成分析树中的节点。在合成路线生成后,同时对化合物的拆分难度和合成路线的实现难度进行评价。程序流程包括以下4个步骤1)识别输入分子;将分子的二维结构转换成唯一的计算机识别的一维的64位字长的哈希数字编码后程序识别;2)读取原料数据库、转换规则数据库和固定路线数据库数据;对于收集的化学试剂数据,用哈希数字编码表示;对于收集的有机反应数据,从反应的转换规则数据库提取出一个反应中心,对于已知化合物分子的合成路线数据,采取先简化再提取反应中心的步骤处理成程序能够使用的数据结构后后再行读取;3)以优化逆合成分析树方式生成合成路线;使用计算机的图匹配算法将化合物的化学结构当成图的数据结构来处理4)对可合成性的评分;对有效合成路线的数目和路线实现难度的综合评分。 识别输入分子的具体步骤是计算机首先读入需要评价的目标分子文件,分子文件用M0L2或者SD文件表示分子的基本信息,包括,原子数目、键的数目、每个原子的的元素类型和三维坐标、每个键的键类型和成键原子,读入基本信息后,判定每个原子是否处于价态的饱和结构,对未饱和的原子自动加氢,加氢后,通过上述基本信息,识别目标分子的拓扑结构、连接度、官能团和环的结构,最后,通过上述所有信息,将分子的二维结构转换成一维的64位字长的哈希数字编码,该编码唯一表示一个分子二维结构,同时一个二维结构也只能转换为一个唯一的数字编码。 读取原料数据库、转换规则数据库和固定路线数据库数据的具体步骤计算机内预先存入收集的各种常见的化学试剂的原料数据库数据,收集的常用的有机合成反应和经典的有机人名反应数据的转换规则数据库数据,收集报道的已知化合物分子的合成路线建立固定路线数据数据,将这三个数据库数据分别按照以下方式转换成程序能够使用的数据结构后再行读取数据 对于收集的化学试剂数据,对其中每个数据按照与识别输入分子相同的方法,转换成64位长的哈希数字编码,同时补充上原料的价格和CAS编号信息; 对于收集的有机反应数据,对其中每个数据,从反应的转换规则数据库提取出一个反应中心,反应中心提取步骤 (1)识别反应位点反应位点仅包含发生改变的化学键和这些化学键直接相连的7原子,通过对比反应中产物和原料的化学结构,找到发生了改变的化学键以及这些化学键直接相连的原子; (2)基本反应中心的延伸将步骤(1)得到的基本反应中心延伸,延伸后的反应中心还包括上述提到的化学环境,即与基本反应中心中的原子相连的官能团; (3)反应中心的抽象将反应实质一样的反应抽象化,抽象化的标准包括 (a)如果一个反应中心包含卤素,但与卤素原子的类型无关,则将该反应中的具体的卤素原子抽象卤素, (b)如果反应中心表示的有机反应反应机理完全相同,则将这些反应用同一个反应中心表示,将反应中心抽象后,删除重复的反应中心; 对于已知化合物分子的合成路线数据,采取将合成路线简化成单步反应再提取反应中心的步骤处理。 在提取出反应中心后,以反应中心为主要信息,补充上反应的原料信息、反应条件信息和产率,作为逆向合成的一条转换规则,同时,对每条反应能否实现的难易程度进行人工打分,将得分信息保存于转换规则中,这些信息将用于后面的拆分过程和最后的可合成性评分。 以优化逆合成分析树方式生成合成路线的具体步骤是使用计算机本文档来自技高网...
【技术保护点】
一种基于逆向合成的有机小分子化合物可合成性评价方法,其特征在于:收集各种常见的化学试剂建立原料数据库,收集常用的有机合成反应和经典的有机人名反应建立转换规则数据库,收集已报道的化合物分子的合成路线建立固定路线数据库;应用这三个数据库,对目标化合物进行逆向合成分析,自动生成有机小分子化合物的合成路线,在拆分过程中,对逆合成分析树的生成进行优化处理,预先删减逆合成分析树中的节点;在合成路线生成后,同时对化合物的拆分难度和合成路线的实现难度进行评价;程序流程包括以下4个步骤:1)识别输入分子;将分子的二维结构转换成唯一的计算机识别的一维的64位字长的哈希数字编码后程序识别;2)读取原料数据库、转换规则数据库和固定路线数据库数据;对于收集的化学试剂数据,用哈希数字编码表示;对于收集的有机反应数据,从反应的转换规则数据库提取出一个反应中心,对于已知化合物分子的合成路线数据,采取先简化再提取反应中心的步骤处理成程序能够使用的数据结构后后再行读取;3)以优化逆合成分析树方式生成合成路线;使用计算机的图的匹配算法将化合物的化学结构当成图的数据结构来处理:4)对可合成性的评分;对有效合成路线的数目和路线实现难度的综合评分。...
【技术特征摘要】
【专利技术属性】
技术研发人员:杨胜勇,黄奇,李琳丽,郑仁林,魏于全,
申请(专利权)人:四川大学,
类型:发明
国别省市:90[中国|成都]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。