System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开涉及药物辅助设计,具体地,涉及一种基于人工智能的分子虚拟筛选方法及相关设备。
技术介绍
1、药物研发是一个庞大而竞争激烈的市场,对于快速发现和开发新药的需求日益增长。传统的药物研发过程需要大量的时间和资源,而且存在着高昂的成本和不确定性。因此,市场对于高效化、智能化和精确化的药物研发方法的需求逐渐增强。近年来,随着计算机性能的不断提升,人工智能在药物设计的应用得到了快速的发展。
2、分子虚拟筛选是药物设计的一个关键步骤,旨在利用计算机技术对大型化合物库进行筛选,以识别潜在的药物候选分子。这种方法可以避免实际合成和测试化合物的高成本和时间消耗,提高药物研发效率和成功率。相关技术中,分子虚拟筛选应用人工智能技术以提高筛选效率和准确性,但受限于人工智能模型输入数据和模型自身可解释性等,分子虚拟筛选的准确性有待进一步提高。
技术实现思路
1、本公开的目的是提供一种基于人工智能的分子虚拟筛选方法及相关设备,旨在扩展输入数据维度和增强模型的可解释性,以提高分子虚拟筛选的准确性。
2、为了实现上述目的,本公开第一方面提供一种基于人工智能的分子虚拟筛选方法,所述方法包括:
3、获取系列配体分子和多个待筛选分子的smiles;
4、基于所述系列配体分子的smiles计算所述系列配体分子的分子描述符、母核结构以及相对于该母核结构的取代基团;
5、选择每个所述配体分子的靶蛋白的3d构象,生成所述配体分子的3d构象并与所述靶蛋白的3d构象进
6、获取每个所述配体分子的分子活性实验数据;
7、将所述配体分子的所述分子描述符、所述母核结构、所述相对于该母核结构的取代基团、所述蛋白-配体相互作用以及对应的所述分子活性实验数据组成训练数据,基于所述训练数据训练xgboost模型并进行调参,得到训练后的xgboost模型;
8、将所述训练后的xgboost模型纳入shap算法进行计算分析,得到所述分子描述符、所述母核结构、所述取代基团、所述蛋白-配体相互作用的shap值,所述shap值用于表示对应数据对分子活性的贡献度;
9、选择分子描述符、母核结构、取代基团、蛋白-配体相互作用中的至少一者作为目标筛选特征,基于所述shap值制定关于所述目标筛选特征的分子筛选规则;
10、基于所述待筛选分子的smiles从所述多个待筛选分子中筛选符合所述分子筛选规则的分子。
11、可选地,所述基于所述系列配体分子的smiles计算所述系列配体分子的分子描述符、母核结构以及相对于该母核结构的取代基团,包括:
12、基于所述系列配体分子的smiles计算所述系列配体分子中每个所述配体分子的分子描述符,所述分子描述符包括分子低维结构信息和分子3d结构信息;
13、基于所述smiles的fmcs算法,对所述系列配体分子进行聚类分析,得到一个或多个类的配体分子集合,并计算每类配体分子集合的最大公共子结构作为该类配体分子集合的母核结构;
14、针对所述每类配体分子集合中的每个配体分子,断裂该配体分子与该类配体分子集合的母核结构的化学键,得到该配体分子相对于该母核结构的取代基团。
15、可选地,所述分子低维结构信息包括分子0d结构信息、分子1d结构信息、分子2d结构信息和分子性质描述符。
16、可选地,所述分子0d结构信息包括分子量、化学键类型,所述分子1d结构信息包括氢键供体数、氢键受体数、极性表面积,所述分子2d结构信息包括分子形状、杂化类型,所述分子性质描述符包括脂溶性、水溶性、类药性。
17、可选地,所述分子3d结构信息包括分子形状、三维原子空间坐标、形状复杂性、最佳拟合平面。
18、可选地,所述shap值用于表示对应数据对分子活性的贡献度,包括:
19、所述shap值为正时,该shap值表示对应数据对分子活性的贡献为正,所述shap值为负时,该shap值表示对应数据对分子活性的贡献为负;所述shap值的绝对值大小表示对应数据对分子活性的贡献度大小。
20、可选地,所述选择分子描述符、母核结构、取代基团、蛋白-配体相互作用中的至少一者作为目标筛选特征,基于所述shap值制定关于所述目标筛选特征的分子筛选规则,包括:
21、选择shap值为正的分子描述符作为目标筛选特征,并确定选择的分子描述符的shap值的目标取值范围作为分子筛选规则的至少一部分。
22、可选地,所述选择分子描述符、母核结构、取代基团、蛋白-配体相互作用中的至少一者作为目标筛选特征,基于所述shap值制定关于所述目标筛选特征的分子筛选规则,包括:
23、从shap值为正的母核结构、取代基团、蛋白-配体相互作用中选择至少一者作为目标筛选特征,制定待筛选分子中需具有该目标筛选特征的规则作为分子筛选规则的至少一部分。
24、本公开第二方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面中任一项所述方法的步骤。
25、本公开第三方面提供一种电子设备,包括:
26、存储器,其上存储有计算机程序;
27、处理器,用于执行所述存储器中的所述计算机程序,以实现上述第一方面中任一项所述方法的步骤。
28、通过上述技术方案,获取待筛选分子和系列配体分子的smiles,然后计算系列配体分子的分子描述符、母核结构、取代基团以及蛋白-配体相互作用的多维度输入数据,并与获取的分子活性试验数据一同训练xgboost模型并进行调参,将训练后的xgboost模型纳入shap算法进行构效关系分析,以解释xgboost模型的各输入数据对分子活性的贡献度,根据解释的贡献度制定分子虚拟筛选规则进行分子虚拟筛选。其中采用了多维度的特征表示系统,为构效关系分析提供更全面和深入的信息支撑,结合高精度的xgboost模型,大幅度提高分子虚拟筛选中构效关系分析的准确性和稳健性,并基于shap算法的解释框架,对模型进行细粒度的解释,便于清晰地了解每个特征对于模型预测的贡献度,进而更好理解模型决策过程,制定更准确的分子筛选规则,提高分子筛选的准确性。
29、本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
本文档来自技高网...【技术保护点】
1.一种基于人工智能的分子虚拟筛选方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于系列配体分子的SMILES计算所述系列配体分子的分子描述符、母核结构以及相对于该母核结构的取代基团,包括:
3.根据权利要求2所述的方法,其特征在于,所述分子低维结构信息包括分子0D结构信息、分子1D结构信息、分子2D结构信息和分子性质描述符。
4.根据权利要求3所述的方法,其特征在于,所述分子0D结构信息包括分子量、化学键类型,所述分子1D结构信息包括氢键供体数、氢键受体数、极性表面积,所述分子2D结构信息包括分子形状、杂化类型,所述分子性质描述符包括脂溶性、水溶性、类药性。
5.根据权利要求2所述的方法,其特征在于,所述分子3D结构信息包括分子形状、三维原子空间坐标、形状复杂性、最佳拟合平面。
6.根据权利要求1所述的方法,其特征在于,所述SHAP值用于表示对应数据对分子活性的贡献度,包括:
7.根据权利要求6所述的方法,其特征在于,所述选择分子描述符、母核结构、取代基团、蛋白-配体相互作
8.根据权利要求6或7所述的方法,其特征在于,所述选择分子描述符、母核结构、取代基团、蛋白-配体相互作用中的至少一者作为目标筛选特征,基于所述SHAP值制定关于所述目标筛选特征的分子筛选规则,包括:
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-8中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:
...【技术特征摘要】
1.一种基于人工智能的分子虚拟筛选方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于系列配体分子的smiles计算所述系列配体分子的分子描述符、母核结构以及相对于该母核结构的取代基团,包括:
3.根据权利要求2所述的方法,其特征在于,所述分子低维结构信息包括分子0d结构信息、分子1d结构信息、分子2d结构信息和分子性质描述符。
4.根据权利要求3所述的方法,其特征在于,所述分子0d结构信息包括分子量、化学键类型,所述分子1d结构信息包括氢键供体数、氢键受体数、极性表面积,所述分子2d结构信息包括分子形状、杂化类型,所述分子性质描述符包括脂溶性、水溶性、类药性。
5.根据权利要求2所述的方法,其特征在于,所述分子3d结构信息包括分子形状、三维原子空间坐标、形...
【专利技术属性】
技术研发人员:来关学,管佳明,耿威,徐敏捷,蒲中机,吕川,
申请(专利权)人:微观纪元合肥量子科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。