一种实现人工智能黑盒模型精细决策逻辑与人类认知对齐程度评测算法制造技术

技术编号：43738338 阅读：17 留言：0更新日期：2024-12-20 13:00

本申请涉及机器学习技术领域，公开了一种实现人工智能黑盒模型精细决策逻辑与人类认知对齐程度评测的方法和系统。该方法和系统可以通过分析模型所建模的交互分布,评测模型决策逻辑与人类认知的对齐程度。该方法和系统的实施包括以下步骤:提供输入样本；使用黑盒模型对输入样本进行预测，获得模型的预测结果；基于黑盒模型的输出,对样本的输入单元间的交互作用进行建模，计算输入单元间形成的组合的交互强度，将黑盒模型输出表达成输入单元组合间的“交互效用”；使用基于交互的评测指标，评测模型决策逻辑与人类认知的对齐程度。本发明专利技术的优点在于，提供了一种评测人工智能黑盒模型精细决策逻辑与人类认知对齐程度的量化方法，相比于前人研究，可以更好地刻画模型决策逻辑和人类认知的差异，反映模型潜在的表征缺陷。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及机器学习，具体涉及一种实现人工智能黑盒模型精细决策逻辑与人类认知对齐程度评测的方法和系统。

技术介绍

1、目前，深度学习已在各个领域得到广泛应用，并展现出强大性能，但使用者与研究者很难分析人工智能模型的黑盒本质。在现有的技术中，基于交互的解释方法能够分析一个人工智能模型，得到稀疏、简洁的解释。但得到的解释仍然无法直接评测黑盒模型决策逻辑与人类认知的差异，反映模型潜在的表征缺陷。而评测模型的决策逻辑与人类认知的对齐程度恰是人类信任黑盒模型、在高风险场景中应用黑盒模型中的必要条件。

2、因此，如何可靠地评测黑盒模型精细决策逻辑与人类认知的对齐程度，是可解释性领域亟待解决的问题。

技术实现思路

1、本专利技术的目的在于专利技术一种实现人工智能黑盒模型精细决策逻辑与人类认知对齐程度评测的方法和系统，该方法和系统可以通过分析模型所建模的交互分布,评测模型决策逻辑与人类认知的对齐程度。

2、本专利技术公开了一种实现人工智能黑盒模型精细决策逻辑与人类认知对齐程度评测的方法，其特征在于，所述方法包括以下步骤：

3、(1)选取黑盒人工智能模型；

4、选取一个待分析的黑盒人工智能模型，所述黑盒人工智能模型包括基于某一数据集上预先训练好的人工智能模型；

5、(2)选取输入样本并进行识别；

6、选取用于进行交互效用计算的输入样本，并对所述输入样本进行识别，从而将所述输入样本分解成n个输入单元，并将所述n个输入单元进行组合

7、(3)进行“交互效用”的计算并进行组合；

8、将所述步骤(2)中的2n个输入单元的组合分别输入所述黑盒人工智能模型，并获取所述黑盒人工智能模型的输出；基于所述黑盒人工智能模型的输出，对所述输入单元间的交互进行建模，从而获得所述黑盒人工智能模型对于每个所述输入单元的组合的“交互效用”；并将所述黑盒人工智能模型在某个输入单元组合上的输出解释为所述其在所述输入单元组合上的“交互效用”的组合；

9、(4)将“交互效用”划分为“交互效用的可靠分量”和“交互效用的不可靠分量”；

10、根据每个输入单元与所述黑盒人工智能模型的输出在人类认知上是否相关，利用算法或用户自定义地将所有输入单元划分为“相关输入单元”、“不相关输入单元”和“互斥单元”。

11、将所述步骤(3)中的所有输入单元的组合的“交互效用”划分为“交互效用的可靠分量”和“交互效用的不可靠分量”。其中，“交互效用的可靠分量”表示与人类认知一致的交互效用，“交互效用的不可靠分量”表示与人类认知不一致的交互效用。交互效用可以分为“与交互效用”和“或交互效用”，分别表示模型所建模的输入单元之间的“与关系”和其所建模的输入单元之间的“或关系”。优选地，“与交互效用的可靠分量”可以计算为包含“相关输入单元”且不包含“互斥单元”的组合的交互效用；“与交互效用的不可靠分量”可以计算为不包含“相关输入单元”或包含“互斥单元”的组合的交互效用。优选地，一种“或交互效用的可靠分量”可以计算为包含“相关输入单元”且不包含“互斥单元”的组合的交互效用；“或交互效用的不可靠分量”可以计算为不包含“相关输入单元”或包含“互斥单元”的组合的交互效用。另一种算法为将“或交互效用”平均分配给此交互所包含的各个输入单元，从而“或交互效用的可靠分量”可以计算为此“或交互效用”中均分给“相关输入单元”的交互效用分量；“或交互效用的不可靠分量”可以计算为此“或交互效用”中均分给“不相关输入单元”和“互斥单元”的交互效用分量。

12、(5)利用基于交互的评测指标，评测模型决策逻辑与人类认知的对齐程度；

13、根据提出的基于交互的评测指标，统计“交互效用的可靠分量”和“交互效用的不可靠分量”的比例，评测模型精细决策逻辑与人类认知的对齐程度。

14、其中，步骤(1)和步骤(2)的顺序可随意替换或同时进行。

15、在一优选例中，对于所述黑盒人工智能模型在所述输入单元的组合上的输出进行如下定义：定义如果将输入样本x中集合n\s中的输入单元进行遮挡，而不遮挡集合s中的输入单元，得到样本xs。以xs为模型输入所获得的输出表示为v(xs)；如果将输入样本不加遮挡地输入所述黑盒模型，获得的输出表示为v(xn)；如果将输入样本中全部输入单元完全遮挡后，输入所述黑盒模型，获得的输出表示为优选地，在自然语言处理应用中，可以通过将s所包含的各个输入单元上所覆盖的各个token的词嵌入向量(embedding vector)替换为某个特定的基准值向量，来实现遮挡操作。

16、在一优选例中，若所述黑盒人工智能模型为分类模型，则模型在某个输入单元集合s上的输出v(xs)可以表示为真实标签维度对应的logit值，即若所述黑盒人工智能模型为语言生成模型，则模型输出可以表示为模型所预测的最大概率生成的下一个token所对应的维度的logit值，即其中ymax表示模型所预测的最大概率生成的下一个token所对应的维度；模型输出v(xs)也可以表示为生成后续t个tokens中，每个最大概率的token(或提前确定的目标token)所对应输入维度的logits值的和。这里将生成的后续t个目标tokens表示为y1，y2，...，yt，那么v(xs)可计算为

17、

18、类似地，v(xs)也可计算为

19、

20、在一优选例中，所述步骤(3)进一步包括以下步骤：将所述黑盒人工智能模型在某个输入单元集合s上的输出v(xs)解释为所述其在所述输入单元组合上的“交互效用”的组合。优选地，“交互效用”包括“与交互效用”和“或交互效用”。

21、在一优选例中，所述“与交互效用”表示“当且仅当所述输入单元的组合中的单元都不被遮挡时，所述组合对于一个黑盒模型输出产生的额外效用”；

22、在一优选例中，对于所述黑盒人工智能模型，输入单元的组合定义iand(s|vand，x)为所述人工智能模型对于输入单元的组合s对应的“与交互效用”，其可以由如下公式计算得到：

23、

24、这里vand(xl)表示从v(xl)中所分解出的由“与交互效用”所决定的输出分量，对应公式v(xl)＝vand(xl)+vor(xl)，而vor(xl)表示从v(xl)中所分解出的由“或交互效用”所决定的输出分量。

25、在一优选例中，所述“或交互效用”表示“所述输入单元的组合中的单元至少有一个不被遮挡时，所述组合对于一组黑盒模型输出产生的额外效用”；

26、在一优选例中，对于所述黑盒人工智能模型，输入单元的组合定义ior(s|vor，x)为所述人工智能模型对于输入单元的组合s对应的“或交互效用”，其可以由如下公式计算得到。

27、

28、这里vor(xl)表示从v(xl)中所分解本文档来自技高网...

【技术保护点】

1.一种实现人工智能黑盒模型精细决策逻辑与人类认知对齐程度评测的方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述交互效用可以分为“与交互效用”和“或交互效用”，分别表示模型所建模的输入单元之间的“与关系”和其所建模的输入单元之间的“或关系”

3.根据权利要求2所述的方法，其特征在于，所述“与交互效用的可靠分量”可以计算为包含“相关输入单元”且不包含“互斥单元”的组合的交互效用；所述“与交互效用的不可靠分量”可以计算为不包含“相关输入单元”或包含“互斥单元”的组合的交互效用。

4.根据权利要求3所述的方法，其特征在于，所述“与交互效用的可靠分量”和“与交互效用的不可靠分量”具体的可以由如下公式计算得到：

5.根据权利要求2所述的方法，其特征在于，所述步骤(4)还包括以下步骤：将“或交互效用”平均分配给此交互所包含的各个输入单元，从而获得“或交互效用的可靠分量”，所述或交互效用的可靠分量可以计算为此“或交互效用”中均分给“相关输入单元”的交互效用分量；“或交互效用的不可靠分量”可以计算为此“或交互

6.根据权利要求3所述的方法，其特征在于，所述或交互效用的可靠分量还可以通过类似于与交互效用的划分得到，具体的，通过如下公式计算：

7.根据权利要求2所述的方法，其特征在于，所述评测指标包括：计算所述交互效用的可靠分量和不可靠分量的强度或其在交互效用中的比例并进行比较作为指标；通过可视化各阶显著交互效用、交互效用的可靠分量、交互效用的不可靠分量的统计图并以此作为指标；通过计算所述交互效用的可靠分量在显著交互中的比例作为指标。

8.根据权利要求7所述的方法，其特征在于，所述显著交互被定义为大于阈值τ的交互集合Ωand和Ω2r，可以由如下公式计算得到：

9.根据权利要求8所述的方法，其特征在于，所述“互斥单元”表示在人类认知逻辑上不应该影响模型输出的输入单元，或与模型输出在认知逻辑上相斥的输入单元。

10.根据权利要求1所述的方法，其特征在于，所述所述交互效用的可靠分量在显著交互中的比例通过如下公式进行计算：

...

【技术特征摘要】

1.一种实现人工智能黑盒模型精细决策逻辑与人类认知对齐程度评测的方法，其特征在于，所述方法包括以下步骤：

4.根据权利要求3所述的方法，其特征在于，所述“与交互效用的可靠分量”和“与交互效用的不可靠分量”具体的可以由如下公式计算得到：

5.根据权利要求2所述的方法，其特征在于，所述步骤(4)还包括以下步骤：将“或交互效用”平均分配给此交互所包含的各个输入单元，从而获得“或交互效用的可靠分量”，所述或交互效用的可靠分量可以计算为此“或交互效用”中均分给“相关输入单元”的交互效用分量；“或交互效用的不可靠分量”可以计算为...

【专利技术属性】
技术研发人员：张拳石，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人