一种基于自适应专家系统的智能问答方法技术方案

技术编号:35542047 阅读:15 留言:0更新日期:2022-11-09 15:10
本发明专利技术涉及自然语言理解技术领域,公开了一种基于自适应专家系统的智能问答方法,对任意的输入实例,基于模型的梯度来计算一个嵌入表示,并用这个基于梯度的嵌入表示来自适应地对专家进行调制;以这种方式,自适应专家系统将能充分适应于输入的实例,捕捉实例的特性,从而数据集的特性也隐式地进行了表达。从而数据集的特性也隐式地进行了表达。从而数据集的特性也隐式地进行了表达。

【技术实现步骤摘要】
一种基于自适应专家系统的智能问答方法


[0001]本专利技术涉及自然语言理解
,具体涉及一种基于自适应专家系统的智能问答方法。

技术介绍

[0002]机器阅读理解使得机器能够阅读一段文本并回答给定问题,是机器迈向更高级智能的重要步骤。过去几年,随着深度学习技术的发展,尤其是预训练语言模型,机器阅读理解已经取得了长足的进步。日渐增加的机器阅读理解数据集也带来了一个问题:是否能结合多个数据集建立一个模型,使得其不仅能够在训练分布上表现得好,而且也能很好地泛化迁移到新的分布上。
[0003]最直接的解决办法就是同时在多个数据集上进行训练,使模型能够建模跨数据集的规律。然而这种多数据集训练的方法可能会在不同的数据集上过拟合或欠拟合,并且迁移泛化的效果可能不如直接在与测试分布更相似的单个源数据集上进行训练。
[0004]为了解决多数据集训练的问题,最近有方法提出在预训练模型上训练一组专家系统分别学习建模不同数据集特性,但是这种多专家系统范式存在着一些缺点,首先,每个数据集都需分配一个专家,因此专家数量会随着数据集增加而增加;更重要的是,对于未见过的数据集的专家参数将由训练数据集的专家参数的平均来估计,这在实际场景中并不合理,因为并不总能假设新的分布可以被训练分布的加权平均所简单描述。

技术实现思路

[0005]为解决上述技术问题,本专利技术提供一种基于自适应专家系统的智能问答方法,训练单个专家,可以自动适应于来自所有数据集的每个实例。
[0006]为解决上述技术问题,本专利技术采用如下技术方案:一种基于自适应专家系统的智能问答方法,自适应专家系统包括:基本模型(θ,α),包括基于Transformer的问答模块θ和瓶颈结构适配器α;基于Transformer的问答模块θ包括预训练Transformer编码器,Transformer编码器包括多个Transformer层;在每一个Transformer层中插入两个所述的瓶颈结构适配器α;瓶颈结构适配器α包括依次设置的下投影层、GeLU非线性层、上投影层;调制层β,添加至各瓶颈结构适配器α的下投影层之后以及上投影层之后,用于通过实例级别调制信号来调节上投影层和下投影层的输出;基于梯度的调制器γ,用于产生所述的实例级别调制信号;自适应专家系统的训练方法包括两个阶段:第一阶段,训练基本模型(θ,α):通过在所有源数据集D
S
上计算交叉熵损失一对基本模型(θ,α)进行训练:
其中表示给定问题q和上下文c情况下得到真实回答a的概率,为基本模型中回答开始位置概率和回答结束位置概率的乘积,和分别表示回答a的开始位置标记和结束位置标记;第二阶段,冻结基本模型(θ,α),在所有的源数据集D
S
上调试调制层β和调制器γ:给定一个训练实例,首先用基本模型(θ,α)来提取梯度,然后将训练实例和提取的梯度输入至自适应专家系统(θ,α,β,γ)对回答进行预测,采用交叉熵损失二调制β和γ:其中,用来标记自适应专家系统预测得到回答a的概率;为自适应专家系统中回答开始位置概率,为自适应专家系统中回答结束位置概率;自适应专家系统(θ,α,β,γ)完成训练后,将待回答的实例输入基本模型(θ,α)中提取梯度,然后将待回答的实例和梯度输入自适应专家系统(θ,α,β,γ)对回答进行预测。
[0007]具体地,下投影层后的调制层为第一调制层,上投影层后的调制层为第二调制层;调制层β通过实例级别调制信号来调节上投影层和下投影层的输出时,过程如下:第一调制层的输出第二调制层的输出第二调制层的输出其中分别为瓶颈结构适配器的m维输入和输出,MLP为用于维度映射的多层感知机,分别是下投影层和上投影层的参数,分别是第一调制层所用到的实例级别调制信号、第二调制层所用到的实例级别调制信号,[;]为串接操作,GeLU()为GeLU非线性层的输出。
[0008]具体地,使用基于梯度的调制器γ产生实例级别调制信号时,包括以下步骤:步骤一:将每个实例输入基本模型,预测回答开始位置分布和结束位置的分布;步骤二:从开始位置的分布和结束位置的分布中采样出伪标签,并根据伪标签和预测分布计算交叉熵损失;步骤三:提取交叉熵损失关于瓶颈结构适配器α的梯度,将提取到的瓶颈结构适配器的梯度从底层到顶层排列成梯度序列,并使用GRU对梯度序列进行编码为隐状态,然后将隐状态输入至MLP多层感知机得到所述的实例级别调制信号。
[0009]具体地,产生实例级别调制信号的步骤三具体包括:问答模块有L个Transformer层,每层有两个瓶颈结构适配器,用和来分别标记第个Transformer层的第一个瓶颈结构适配器的梯度绝对值和第二个瓶颈结构适配器的梯度绝对值;
将提取到的2L个瓶颈结构适配器的梯度,按从底层到顶层的顺序排列为一个梯度序列,使用GRU将梯度序列编码为与梯度序列各元素对应的隐状态记为;对于每个,使用两个MLP多层感知机分别产生两个实例级别调制信号和,用于第层Transformer中的第i个适配器,实例级别调制信号用于下投影层之后的调制层,实例级别调制信号用于上投影层之后的调制层。
[0010]进一步地,自适应专家系统训练的第二阶段过程中,除交叉熵损失二外,额外引入对比学习损失,将第二阶段的损失函数替换为:其中λ是和的权衡因子;给定实例,经过GRU编码后表征为隐状态,来自相同数据集的实例作为正样本,来自不同数据集的实例作为负样本,对比学习损失被定义为:被定义为:是两个向量表征之间的余弦相似度,是温度参数,为正样本中的实例编码后的隐状态,为负样本中的实例编码后的隐状态。
[0011]具体地,所述Transformer层包括一个多头自注意力层和一个全连接前馈层,两个瓶颈结构适配器分别插入在多头自注意力层之后以及全连接前馈层之后。
[0012]与现有技术相比,本专利技术的有益技术效果是:本专利技术提出了基于自适应专家系统的多数据集问答方法,在共享的Transformer问答模块上构建了一个自适应专家模块,可以根据每个实例的梯度自适应地对其进行调制;自适应专家模块可以建模跨数据集的规律性,最突出的优势是能够很好地适应来自任何未见过的给定数据集的实例。此外,本专利技术的恒定额外参数是另一个优势,可用于未来具有大量数据集的场景。
[0013]本专利技术进一步设计了一种对比学习机制,以增强来自不同数据集中的调制信号的可辨识性,从而实现更好的调制。
附图说明
[0014]图1为本专利技术自适应专家系统的示意图。
具体实施方式
[0015]下面结合附图对本专利技术的一种优选实施方式作详细的说明。
[0016]机器阅读理解是文本问答的一个基础任务,以上下文c为基础,为给定的问题q找到一个回答a。抽取式机器阅读理解中,每个问题的回答被约束为上下文c中的一个连续片段,即:,其中i和j是回答的开始和结束位置。
[0017]考虑多数据集机器阅读理解场景,给定来自不同分布的多个源数据集D
S
和目标数据集D
T
,每个数据集由形式为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自适应专家系统的智能问答方法,其特征在于:自适应专家系统包括:基本模型(θ,α),包括基于Transformer的问答模块θ和瓶颈结构适配器α;基于Transformer的问答模块θ包括预训练Transformer编码器,Transformer编码器包括多个Transformer层;在每一个Transformer层中插入两个所述的瓶颈结构适配器α;瓶颈结构适配器α包括依次设置的下投影层、GeLU非线性层、上投影层;调制层β,添加至各瓶颈结构适配器α的下投影层之后以及上投影层之后,用于通过实例级别调制信号来调节上投影层和下投影层的输出;基于梯度的调制器γ,用于产生所述的实例级别调制信号;自适应专家系统的训练方法包括两个阶段:第一阶段,训练基本模型(θ,α):通过在所有源数据集D
S
上计算交叉熵损失一对基本模型(θ,α)进行训练:其中表示给定问题q和上下文c情况下得到真实回答a的概率,为基本模型中回答开始位置概率和回答结束位置概率的乘积,和分别表示回答a的开始位置标记和结束位置标记;第二阶段,冻结基本模型(θ,α),在所有的源数据集D
S
上调试调制层β和调制器γ:给定一个训练实例,首先用基本模型(θ,α)来提取梯度,然后将训练实例和提取的梯度输入至自适应专家系统(θ,α,β,γ)对回答进行预测,采用交叉熵损失二调制β和γ:其中,用来标记自适应专家系统预测得到回答a的概率;为自适应专家系统中回答开始位置概率,为自适应专家系统中回答结束位置概率;自适应专家系统(θ,α,β,γ)完成训练后,将待回答的实例输入基本模型(θ,α)中提取梯度,然后将待回答的实例和梯度输入自适应专家系统(θ,α,β,γ)对回答进行预测。2.根据权利要求1所述的基于自适应专家系统的智能问答方法,其特征在于:下投影层后的调制层为第一调制层,上投影层后的调制层为第二调制层;调制层β通过实例级别调制信号来调节上投影层和下投影层的输出时,过程如下:第一调制层的输出第二调制层的输出第二调制层的输出其中分别为瓶颈结构适配器的m维输入和输出,MLP为用于维度映射
的多层感知机,分别是下投影层和上投影层的参数,分别是第一调制层所用到的实例级别调...

【专利技术属性】
技术研发人员:毛震东张勇东王泉彭奕兴
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1