System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及药物设计和神经网络智能识别领域,尤其涉及一种基于关键子图检索的图神经网络可解释性方法。
技术介绍
1、图神经网络(graph neural networks,gnns)凭借其在复杂关系捕捉、表征学习、泛化能力、多任务处理等方面的卓越表现,在社交网络分析、物理系统模拟与预测、交通网络优化以及自然语言处理(nlp)等诸多领域被广泛应用。而随着机器学习和医学行业的学者联合研究发现,gnns与极为擅长图分类、节点分类以及链接预测等任务,与药物学中的分子属性预测展现了极高的适配性。
2、传统的药物研发方式普遍依赖于繁琐的实验与试错过程,不仅效率低下,而且风险重重。然而,gnns技术的崛起为药物分子属性的预测开辟了全新路径。药物的分子特性,如毒性和疗效,实际上根源于分子活性官能团结构的精妙搭配,在药物设计与研发过程中,gnns恰巧能发挥其图分类、节点分类以及链接预测等绝对优势,与药物学中的分子属性预测研究表现出极高的适配性。
3、图神经网络(gnns)在医药学中的实践虽然取得了显著成果,但其“黑盒”特性引起了学术界对其决策合理性和合法性的质疑,在很大程度上影响了模型在关键领域的可信度,限制了其进一步发展[7]。随着机器学习技术的广泛运用,各界愈发重视理解模型决策背后的逻辑,而非单纯追求预测精度。图神经网络的可解释性逐渐受到关注。
4、gnns的可解释性即将网络内部运作机制的透明化,进而阐明模型处理输入与输出时的映射关系。在建立系统信任、确保可控性、发现并改进模型错误、避免伦理问题以及满足监管
5、目前,gnns的可解释性策略的主流算法主要归类为以下四类:
6、第一,基于梯度/特征的解释策略:以sa、guidedbp、cam及grad-cam等为代表,这类策略通过差异化地设计反向传播流程与隐藏层特征整合策略,不同程度的展现了这些策略在实现细节上,尤其是反向传播机制的定制化处理及特征融合技术方面的多样性。但这类解释策略的解释具有局部性,且随着数据维度变大,其计算成本激增,其中基于特征的解释方法在遭遇某些无法解释的特征时,需要人为干预,存在引入主观型错误的可能。
7、第二,基于扰动的解释策略:其旨在深度图模型中的应用中,深入探究输入数据的微小变动对模型输出的具体影响。例如,gnnexplainer12通过最大化gnns预测与可能子图结构分布之间的互信息,显著提升了解释的准确率。pgexplainer则通过学习边的近似离散掩码来解析预测机制,为训练好的gnn提供了全局视角的解释,实现了理解广度和一致性的双重提升。zorro则采用了贪心算法,在节点识别的迭代过程中,选择得分最大化的节点,并以随机噪声替换其余节点值,从而评估新预测与初始预测之间的一致性。graphmask则通过在整个数据集上最小化预测差异的散度指标进行训练,进而获得一个能够判断移除特定边是否会影响预测输出的分类器。这类策略除了与基于梯度/特征的解释策略具有同样的问题外,对扰动的选择极为依赖。扰动的选择范围通常比较有限,这可能导致策略无法捕捉模型在极端或异常情况下的行为,且小的扰动就可能导致预测结果的显著变化,这与可模型在实际应用中的预期相反。
8、第三,基于代理的解释策略:该策略的核心在于简化图模型中的复杂非线性关系,并提供实例级解释。具体而言,graphlime将lime算法引入图领域,深入剖析了节点特征在分类过程中的作用,它借助hsic lasso对模型进行精确拟合,从而基于特征权重为gnn预测提供直观解释。然而,这种策略过于侧重于节点特征,相对忽略了节点间连接在预测过程中的重要性。相比之下,relex则采取了不同的策略,它结合了代理模型与扰动技术,通过抽样生成连接子图来模拟局部场景,并利用扰动技术来解析预测背后的逻辑。这一策略能够更全面地考虑节点间的相互作用,但relex在上下文理解以及远程关系提取方面存在的局限性,制约了其在实际应用中的效能和可信度。特别是在处理非结构化、复杂或高度专业化的文本数据时,这种局限性尤为明显。cxplain属于因果模型,不依赖于原始模型的结构,适用于黑盒模型,但其对数据的需求量巨大,且计算成本偏高,对非专业人士友好性差。另一值得关注的策略是pgm-explainer,它通过改变节点特征并追踪这些变化对预测结果的影响,形成了丰富的局部知识库。这种策略具有高度的通用性,但在考虑边信息的价值方面仍有提升的空间。
9、第四,基于分解的图模型解释策略:该策略旨在构建一个恰当的分数分配准则,确保分解后的各项能够精准地重构成原始预测值。这类策略包括layerwise relevancepropagation(lrp)、excitation bp及gnn-lrp。这些策略在运作逻辑和解释目标上各具特色:lrp侧重于计算节点重要性指标,以增强解释的可信度;excitation bp则强调通过计算神经元概率等价来提供解释;而gnn-lrp则深入探索了图游走过程,并与gnns紧密结合,但在实际应用中,基于分解的图模型解释策略可能会因为模型的过度简化导致解释误差,且计算复杂度较高,通用性不足。
10、如图1所示,在利用gnns模型进行预测的过程中,真正能决定预测结果的是关键子结构,即便gnns通过无关信息获取了正确结果,达到预期性能,其模型可信度也受到质疑的。上述的各类gnns解释策略基本集中于节点和边的特性分析,忽略了关键子结构在决策过程中的核心作用。在预测药物分子属性的任务中,分子的核心子结构往往承载着分子活性的关键信息。因此优化gnn解释策略时,识别并分析这些关键子图才能实现对模型预测逻辑的深入理解。同时,现存的解释方法大都与模型相关,在面临新的任务或数据集时,都需要进行定制化的调整和优化,这种高度依赖设定限制了现有策略的通用性,因此需要开发更为灵活且泛化能力更强的解释策略,以适应不断变化的科研与应用环境。
技术实现思路
1、本专利技术针对上述现有技术的存在的问题,提供一种基于关键子图检索的图神经网络可解释性方法,能准确获取到影响标签属性的关键字图,提高gnns在药物分子属性预测任务中的可解释性,且该策略与模型无关,不依赖特定的内部结构或数据集,也不需要重复的gnns训练,进一步提高gnns在药物设计领域的可解释性和可信度。
2、该方法包括以下步骤:
3、步骤1:利用ba3数据集和mutagenicity数据集分别训练图神经网络模型;
4、步骤2:对于待设计的药物分子图g,经过步骤1中已训练的图神经网络模型预测,在ba3数据集和mutagenicity数据集中筛选出与其标签相匹配的所有图,将这些图作为图g的候选图集;
5、步骤3:将训练好的图神经网络模型作为节点表征提取器,并将图g和其候选图集一并输本文档来自技高网...
【技术保护点】
1.一种基于关键子图检索的图神经网络可解释性方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于关键子图检索的图神经网络可解释性方法,其特征在于,步骤1的具体步骤包括:
3.根据权利要求2所述的一种基于关键子图检索的图神经网络可解释性方法,其特征在于,步骤1.1的具体步骤包括:
4.根据权利要求2所述的一种基于关键子图检索的图神经网络可解释性方法,其特征在于,步骤1.2的具体操作步骤包括:
5.根据权利要求4所述的一种基于关键子图检索的图神经网络可解释性方法,其特征在于,步骤4的具体操作步骤包括:
6.根据权利要求5所述的一种基于关键子图检索的图神经网络可解释性方法,其特征在于,步骤4.2的具体步骤包括:
7.根据权利要求6所述的一种基于关键子图检索的图神经网络可解释性方法,其特征在于,步骤4.3的具体步骤包括:
【技术特征摘要】
1.一种基于关键子图检索的图神经网络可解释性方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于关键子图检索的图神经网络可解释性方法,其特征在于,步骤1的具体步骤包括:
3.根据权利要求2所述的一种基于关键子图检索的图神经网络可解释性方法,其特征在于,步骤1.1的具体步骤包括:
4.根据权利要求2所述的一种基于关键子图检索的图神经网络可解释性方法,其特...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。