当前位置: 首页 > 专利查询>复旦大学专利>正文

用于解释开放域问答模型的可视分析系统技术方案

技术编号:38137056 阅读:9 留言:0更新日期:2023-07-08 09:49
本发明专利技术属于开放域问答模型分析技术领域,具体为用于解释开放域问答模型的可视分析系统。本发明专利技术系统包括解释引擎模块、流程分析模块以及视图模块;解释引擎模块使用归因方法对OpenQA模型的每个模块的最终输出和隐式输出在全局和局部级别进行归因;流程分析模块把VEQA中的模型信息、数据以及经由解释引擎生成的可解释性数据被可视化为用户分析界面的各个视图,用户按照线性工作流以数据集、子集、单个实例、单个段落的顺序进行多层次探索;视图模块包括摘要视图、上下文视图、实例视图和树视图,用于可视化分析;本发明专利技术系统可帮助理解OpenQA模型的决策原因,并为模型改进提供见解;系统还支持对单个模块内的决策流程进行细粒度探索。粒度探索。粒度探索。

【技术实现步骤摘要】
用于解释开放域问答模型的可视分析系统


[0001]本专利技术属于开放域问答模型分析
,具体涉及用于解释开放域问答模型的可视分析系统。

技术介绍

[0002]问答(QA)是信息检索(IR)和自然语言处理(NLP)的一个领域,其重点是建立一个自动回答人类以自然语言格式提出的问题的模型。开放域问答(OpenQA)允许机器在没有给定上下文的情况下为用户的问题提供准确的答案,并被认为是QA研究的最终目标。在该技术支持下,现代搜索引擎,如谷歌和必应,不仅可以根据用户查询返回相关片段或超链接列表作为问题,还可以生成这些问题的适当答案,以协调搜索结果。这些搜索引擎利用查询作为OpenQA模型的输入,并将模型的输出作为直接答案,从而提高用户体验和效率。例如,向搜索引擎提问“谁是第一个踏上月球的人”,会得到答案“尼尔
·
阿姆斯特朗”,以及进一步阅读的链接。
[0003]OpenQA的现代方法由两部分组成:检索器和阅读器。给定一个问题,检索器从大型非结构化语料库中搜索相关段落作为前k个段落,读者从这些段落中生成答案。随着深度学习技术的发展,阅读器基于神经机器阅读理解模型,如BERT,来推断答案。同时,检索器可以被认为是一个IR系统,可以由基于Transformer的模块实现并检索段落。考虑到OpenQA模型的多样性,本专利技术讨论采用BERT作为检索器和阅读器的基本架构的模型。
[0004]尽管OpenQA进展很快,但现有的体系结构仍然可以改进。例如,模型的检索效率,即将给定问题的相关段落与无关段落分开的能力仍然有限。有时模型不检索相关的段落,有时模型检测到包含问题中确切术语但与答案无关的嘈杂段落。一些研究集中于使现代神经检索器具有更大的检索能力,速度接近传统IR系统。然而,专注于优化模型架构和训练方法的现有技术的行为逻辑尚未得到充分证明。因此,本专利技术尝试为模型决策流程提供了可视化解释,从而为专家提供了模型改进的见解。
[0005]解释OpenQA模型存在三个主要挑战。首先,由于OpenQA是一项开放式任务,需要从大型语料库中选择多个相关的长段,并且涉及自然语言的理解和处理,因此模型的解释很困难。第二,OpenQA模型由多个模块组成,每个模块都是一个复杂的黑匣子,具有大量的连接和参数。此处的模型指的是完成整个OpenQA任务所需的系统或管道,而模块指的是在模型内完成任务的某个独立部分的独立结构或组件。了解各种并行或串行模块的工作对于识别模型的瓶颈并改进它至关重要。第三,如何从解释单个模型参数到建立对模型决策过程的整体和语义理解还并不清楚。
[0006]一些学者开发了几种用于解释机器学习的视觉分析系统,如通过将卷积神经网络的结构转换为有向无环图来帮助专家分析,或是提出一种统一的结构来解释文本分类的深度NLP模型。然而,这些方法侧重于解释单个模型,在探索多模块模型的内部方面受到限制。一些工作研究了机器阅读理解(MRC)任务的模型可解释性,如使用t

SNE降维进行层嵌入,并使用归因方法来解释存储在BERT中的知识。最近一些分析工具为MRC模型提供了交互式
和诊断框架,集成了多种分析方法,如隐藏层、注意力矩阵和对抗性文本的嵌入分析。然而,当前研究集中于MRC任务,无法分析检索器的决策流,而这是制约OpenQA模型性能的瓶颈。此外,在OpenQA等场景中,实例包括多个带有给定问题的长段,通过使用散点图可视化层嵌入和使用热图可视化注意力矩阵来分析实例可能会导致视觉混乱,并且通常对全局语义信息提供有限的见解。本专利技术旨在解决视觉分析文献中的这些空白。

技术实现思路

[0007]本专利技术的目的在于提供一种解释开放域问答模型的可视分析系统,记为VEQA的可视分析系统,以允许NLP专家从语义上理解OpenQA模型的决策过程,并深入了解如何增强模型。
[0008]为了便于对可视分析系统的描述,先对开放域问答模型(OpenQA模型)作具体介绍。OpenQA模型包括“检索器

阅读器”架构,如DPR模型。其中检索器和阅读器都是基于BERT的模块,分别用于检索相关段落和从给定段落中提取答案跨度,如图1所示。其中,给定问题q和候选段落p
i
,检索器根据问题与段落的相关性分数Rel(q,p
i
)来判断是否检索到p
i
以进入阅读器。阅读器中,答案提取器使用推理层从p
i
中提取答案,重新排序器根据选择层的结果判断是否将其用作最终预测。
[0009]训练一个检索器模块,该模块将问题和语料库中的每个段落作为输入,并输出段落与问题相关的概率分数,取分数最高的前k个段落作为检索到的候选段落;训练一个阅读器模块,该模块将问题和检索器检索到的每个候选段落作为输入,并输出段落的重排序分数与该段落的答案预测范围的起始位置和结束位置,并将重排序分数最高的段落的预测答案作为阅读器的输出。
[0010]检索器包含问题编码器和段落编码器两个组件:问题编码器用于将给定问题文本作为输入,使用一个编码器来预测问题文本的嵌入表示;段落编码器用于将语料库中的各个候选段落文本作为输入,使用一个编码器来预测段落文本的嵌入表示。进一步,检索器通过计算问题的嵌入表示与单个段落的嵌入表示的内积来获得单个段落与给定问题的相关性分数;按照相关性分数对各个段落进行排序,取分数最高的前k个段落作为检索器输出的候选段落。
[0011]阅读器包括重新排序器和答案提取器两个组件,它们共用一个编码器。重新排序器,用于在检索器检索到的k个候选段落池中,将问题与单个候选段落进行拼接作为输入,使用相同的编码器获得单个问题

段落对的嵌入表示,并经过一个选择层获得单个段落的备择分数;答案提取器,用于在检索器检索到的k个候选段落池中,将问题与单个候选段落进行拼接作为输入,使用一个编码器获得单个问题

段落对的嵌入表示,并经过一个推理层预测单个段落对应的答案的起始位置和结束位置。阅读器按照重新排序器中获得的备择分数对k个段落进行排序,取分数最高的段落作为最终检索到的段落,并取该段落在答案提取器中的对应输出作为最终预测的答案。
[0012]本专利技术提供的解释开放域问答模型的可视分析系统,包含解释引擎模块、流程分析模块以及视图模块。其中:
[0013]所述解释引擎模块,受先前使用显著性方法对BERT进行语义分析的工作的启发,本专利技术使用归因方法对OpenQA模型的每个模块的最终输出和隐式输出在全局和局部级别
进行归因,包括特征归因解释器与层归因解释器;其中:
[0014]所述特征归因解释器,采用显著性方法和归因方法来解释OpenQA模型中的模块,即评估每个输入特征对模块输出的贡献和每个层此对模块输出的贡献;
[0015]所述层归因解释器,采用归因方法来解释模块,即评估每个层对模块输出的贡献;具体使用树生成算法来捕获抽象的语义信息并探索层信息流;使用层聚合来计算各层的重要性,以解释层功能;
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种解释开放域问答模型的可视分析系统,其特征在于,包含解释引擎模块、流程分析模块以及视图模块;其中:所述解释引擎模块,使用归因方法对OpenQA模型的每个模块的最终输出和隐式输出在全局和局部级别进行归因,包括特征归因解释器与层归因解释器;其中:所述特征归因解释器,采用显著性方法和归因方法来解释OpenQA模型中的模块,即评估每个输入特征对模块输出的贡献和每个层此对模块输出的贡献;所述层归因解释器,采用归因方法来解释模块,即评估每个层对模块输出的贡献;具体使用树生成算法来捕获抽象的语义信息并探索层信息流;使用层聚合来计算各层的重要性,以解释层功能;解释引擎模块帮助专家通过分析模块响应和实例来理解OpenQA模型的决策;所述流程分析模块,把VEQA中的模型信息、数据以及经由解释引擎生成的可解释性数据被可视化为用户分析界面的各个视图,用户按照线性工作流,以数据集、子集、单个实例、单个段落的顺序进行多层次探索;其中:数据集与子集层次:在用户面板中选择某个数据集与模型后,用户在摘要视图中依据模块每个部分的统计信息和重要性的数据选择一个子集,其具体数据被呈现在上下文视图中;实例层次:用户在上下文视图中选择该子集中单个感兴趣的实例,该实例在模型中各个模块的解释性数据被可视化于实例视图;段落层次:用户在实例视图中选择感兴趣的候选段落,细节信息被进一步展现于树视图中;所述视图模块,视图即上述可视化于用户分析界面的各个视图;用户面板可以显示初始选择模型与数据集等,视图包括:摘要视图、上下文视图、实例视图和树视图;四个视图用于可视化分析与探索;其中:摘要视图:使用问题的开头两个单词作为标签,将数据集划分为不同的问题类型,并计算每个子集的性能指标;它与层归因中得到的各层重要性一起提供模块和数据集的概述,以指导专家探索子集中的实例;上下文视图:展示数据集或选定子集中的所有问题实例和每个实例的预测结果,并在某个阶段显示选定段落的热图;它显示特征归因解释器中获得的所有词的特征重要性与原文,是对其他视图的补充;实例视图:使用特征归因解释器来总结不同模块中每个候选段落的重点单词,并在包含上下文的排名可视化的新颖流图中显示它们的分布,这旨在帮助专家了解模块间决策流的相似性和差异性;树视图:基于层归因解释器生成的归因树,设计可对比的树可视化来表达层之间的语义变化。2.根据权利要求1所述的解释开放域问答模型的可视分析系统,其特征在于,所述解释引擎模块中,所述特征归因解释器,采用显著性方法和归因方法来解释OpenQA模型中的模块,即评估每个输入特征对模块输出的贡献和每个层此对模块输出的贡献,具体地:考虑到OpenQA模型中使用多个模块,并且单个模块可以承载多个任务;故使用(M,T)表示承载任务T的模块M,完整的OpenQA模型由四个(M,T)组成,它们决定最终预测:检索器中
的两个独立编码器,即问题编码器(Q,E)和段落编码器(P,E),以及阅读器中的两个模块,其充当重新排序器(R,R)和答案提取器(R,S);使用F
(M,T)
表示作为归因目标的(M,T)的最终输出;对于具有给定任务T的给定模块M,长度为L的输入嵌入e中每个词e
i
通过积分梯度被分配显著性分数Sal
(M,T)
(e
i
):公式(1)中,b表示作为基线的重复[MASK]向量,m表示在积分的黎曼近似中执行的步骤数,一般默认设置,确保精度和速度之间的平衡;表示F
(M,T)
相对词e
i
的梯度,公式(1)是关于沿着从给定基线到输入的路径的输入的梯度积分的黎曼近似。3.根据权利要求2所述的解释开放域问答模型的可视分析系统,其特征在于,所述解释引擎模块中,所述层归因解释器,采用归因方法来解释模块,即评估每个层对模块输出的贡献;具体使用树生成算法来捕获抽象的语义信息并探索层信息流;使用层聚合来计算各层的重要性,以解释层功能;具体为:利用层电导方法,获得任务T的模块M中第l层的任务无关输出的归因分数,即其大小与相同:公式(2)中,,m与公式(1)中情形相同;在任务T的条件下,模块M中第l层的输出,即嵌入和第h个头部注意力矩阵表示为和公式2近似为层中神经元的梯度积分流;在此基础上,对归因分数进行进一步的处理,以探索层级信息流并解释层功能。4.根据权利要求3所述的解释开放域问答模型的可视分析系统,其特征在于,所述解释引擎模块中,所述探索层级信息流,是采用树生成算法来显示模块内部的信息流;树的生成基于导出的注意力归因,即通过公式(1)将多层原始注意力(A)细化为注意力归因(B),然后从上到下选择具有高归因得分的单词和单词对作为节点和边缘来构建树(C)具体地:首先,使用L2范数总结第l层中每个注意力头部的归因得分,记为其次,使用L2范数计算...

【专利技术属性】
技术研发人员:陈思明邵则开孙姝然赵宇恒魏忠钰王思远桂韬
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1