一种基于T5神经网络的可解释阅读理解模型制造技术

技术编号:38208992 阅读:16 留言:0更新日期:2023-07-21 16:59
本发明专利技术公开了一种基于T5神经网络的可解释阅读理解模型,不仅可以推理问题的答案,还可以提供解释答案的证据,可增强使用者对模型的信任,涉及人工智能中的自然语言识别处理领域。首先,提出了一种先通过上下文与问题生成解释答案的证据,然后再通过证据与问题生成答案的可解释阅读理解模型的处理模式。其次,提出了一种基于文本相似度的精确证据自动标注方法,对单一的阅读理解任务训练集中的样本进行证据标注,从而为微调训练基于T5神经网络的可解释阅读理解模型创造了条件。最后,在模型的微调训练过程中,提出了答案解码器的参数只有在证据损失小于一个阈值时才会被更新的证据损失过滤技术,从而可以过滤掉不准确证据对答案选择的影响。答案选择的影响。答案选择的影响。

【技术实现步骤摘要】
一种基于T5神经网络的可解释阅读理解模型


[0001]本专利技术涉及自然语言识别处理领域中的机器阅读理解,具体是一种基于T5神经网络的可解释阅读理解模型,可应用于各个领域的机器阅读理解任务中。

技术介绍

[0002]一直以来,如何赋予机器理解人类语言的能力是自然语言处理(Natural Language Processing,NLP)研究领域的热点,同时也是自然语言处理研究中的重点以及难点。其中,机器阅读理解(Machine Reading Comprehension,MRC)任务引起了自然语言处理研究者们的广泛关注。该任务是智能法律、智能教育、智能医疗等领域中的一个重要组成部分。例如在智能客服中,借助于MRC模型的强大检索能力,可以从产品说明书中自动抽取出相应问题的答案,这极大地减少了人工客服的工作量。目前,MRC模型已经在信息检索、智能问答、信息抽取等任务中得到了广泛的应用。
[0003]具体来讲,MRC任务的研究目标是在给定一段上下文和一个问题的前提下,要求机器给出该问题的答案。主流任务形式通常有抽取式、完形填空式、选项式、对错式以及自由式问答五种问答形式。该任务的一个重要应用价值在于传统的自然语言处理任务都可以转换为基于上下文的阅读理解任务,例如命名实体识别、机器翻译、文本摘要、关系抽取、情感分析等。这些传统任务通常借鉴于MRC模型卓越的问答能力,从而促使任务性能产生实质性的提高。与传统问答任务不同之处在于,MRC作为问答任务中的一个子集,更侧重于评估机器对上下文的理解能力。
[0004]早期的MRC研究可以追溯到对故事理解的研究,并且只局限于使用基于规则的启发式方法或者手动生成的规则[2]来生成包含答案的句子。由于MRC任务的复杂性,导致该任务在20世纪八九十年代一直没有得到重视。随着神经网络的引入,尤其是注意力机制的引入,在二十一世纪初,对于MRC的研究取得了重大的突破。主流方法关注细粒度的文本编码以及更好的段落和问题之间的交互。随着预训练技术的出现,MRC相关的任务性能取得实质性的提高。甚至在一些简单的抽取式MRC任务中,在相关评价指标下,模型的表现已经超越了人类。
[0005]尽管预训练模型的出现使得NLP中各种任务性能提升了一个台阶,但是在一些需要借助推理或者需要常识知识的复杂MRC任务中,模型的表现距离人类还有很大的差距[5]。另一方面,尽管相关模型在抽取式MRC任务中的表现已经超出了人类的表现,但是一个严峻的问题仍然摆在研究者面前,即就是这些模型的可解释性仍然保持着不确定,模型不能对输出的相关答案做出合理的解释,这一问题同时也限制着MRC模型在一些要求比较严谨的领域中的落地应用,例如医疗以及法律等领域。因此如何提高模型的可解释性成为当前研究的难点。这激发了研究者们对探索模型可解释性的兴趣,同时也促进了可解释人工智能(eXplainable Artificial Intelligence,XAI)的发展。
[0006]随着预训练语言模型(Pre

trained language models,PLMs)的广泛普及,现有主流MRC模型使用强大的PLMs作为编码器来编码上下文中的信息。然而大部分MRC模型只能给
出对应问题的答案,而不能解释为什么会输出这样的答案。对于复杂的MRC任务来说,这限制着模型在现实生活中的应用,并且进一步限制着模型性能的提升。因此,如何标注准确的证据并且训练可解释性更好的模型已经成为MRC研究中要面对的主要挑战。

技术实现思路

[0007]本专利技术公开了一种基于T5神经网络的可解释阅读理解模型,将可解释阅读理解任务描述为一个四元组<C,Q,A,E>,其中C表示上下文,Q是基于上下文C提出的问题,A表示问题Q的答案,E表示答案A对应的证据,答案A和证据E均来自于上下文C中的连续的区域,并通过证据E对答案A进行解释;将基于T5神经网络的可解释阅读理解模型的结构定义为:
[0008]T5

InterMRC={编码器,证据解码器,答案解码器}(1)
[0009]其中,T5

InterMRC表示所提出的基于T5神经网络的可解释阅读理解模型,编码器和解码器都来源于T5神经网络,证据解码器用于生成证据,答案解码器用于生成答案,编码器用于对上下文和问题进行编码,证据解码器和答案解码器共享一个相同的编码器;
[0010]所述可解释阅读理解模型的处理模式为,首先通过上下文与问题生成解释答案的证据,然后再通过证据与问题生成答案;
[0011]所述T5

InterMRC模型按照以下步骤进行微调训练与推理:
[0012]S1.使用基于文本相似度的精确证据自动标注方法,对单一的阅读理解任务训练集中的样本进行证据自动标注,得到带有证据标签的可解释阅读理解任务训练集;所述单一的阅读理解任务训练集是指其样本只标注有答案标签;
[0013]S2.使用步骤S1标注的带有证据标签的可解释阅读理解训练集中的样本,对T5

InterMRC模型进行证据预测与答案预测的联合微调训练,得到微调成型的T5

InterMRC模型;
[0014]S3.使用步骤S2得到的微调成型的T5

InterMRC模型,对阅读理解语料的测试样本进行推理,同时得到测试样本的答案与证据;
[0015]所述T5神经网络是指Google公司Raffel等人在论文“Exploringthelimitsoftransferlearningwithaunifiedtext

to

texttransformer[OL].arXivpreprintarXiv:1910.10683,2019”中,提出的Text

to

TextTransferTransformer(T5,文本到文本传输转换器)预训练神经网络生成模型。
[0016]进一步的,所述步骤S1具体包括:
[0017]S1.1将上下文C划分为独立句子的集合S;
[0018]S1.2在S中筛选出包含答案的句子子集S


[0019]S1.3如果S中只有一个句子包含答案,即S

的长度为1,则将该包含答案的句子标注为证据标签,否则将答案A和问题Q拼接起来作为线索Clue,并分别计算线索Clue与S

中每个句子的相似度得分,最后将相似度得分最高的句子标注为证据标签;
[0020]S1.4对单一的阅读理解任务训练集中的每个样本重复步骤S1到步骤S3,最终得到包含证据标签的可解释阅读理解任务的训练集。
[0021]进一步的,所述步骤S2具体包括:
[0022]S2.1证据预测,具体包括以下子步骤:
[0023]S2.1.1将训练样本的问题Q和上下文C连接起来,形成预测证据的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于T5神经网络的可解释阅读理解模型,其特征在于:将可解释阅读理解任务描述为一个四元组<C,Q,A,E>,其中C表示上下文,Q是基于上下文C提出的问题,A表示问题Q的答案,E表示答案A对应的证据,答案A和证据E均来自于上下文C中的连续的区域,并通过证据E对答案A进行解释;将基于T5神经网络的可解释阅读理解模型的结构定义为:T5

InterMRC={编码器,证据解码器,答案解码器}(1)其中,T5

InterMRC表示所提出的基于T5神经网络的可解释阅读理解模型,编码器和解码器都来源于T5神经网络,证据解码器用于生成证据,答案解码器用于生成答案,编码器用于对上下文和问题进行编码,证据解码器和答案解码器共享一个相同的编码器;所述可解释阅读理解模型的处理模式为,首先通过上下文与问题生成解释答案的证据,然后再通过证据与问题生成答案;所述T5

InterMRC模型按照以下步骤进行微调训练与推理:S1.使用基于文本相似度的精确证据自动标注方法,对单一的阅读理解任务训练集中的样本进行证据自动标注,得到带有证据标签的可解释阅读理解任务训练集;所述单一的阅读理解任务训练集是指其样本只标注有答案标签;S2.使用步骤S1标注的带有证据标签的可解释阅读理解训练集中的样本,对T5

InterMRC模型进行证据预测与答案预测的联合微调训练,得到微调成型的T5

InterMRC模型;S3.使用步骤S2得到的微调成型的T5

InterMRC模型,对阅读理解语料的测试样本进行推理,同时得到测试样本的答案与证据;所述T5神经网络是指Google公司Raffel等人提出的Text

to

TextTransferTransformer预训练神经网络生成模型;所述步骤S1具体包括:S1.1将上下文C划分为独立句子的集合S;S1.2在S中筛选出包含答案的句子子集S

;S1.3如果S中只有一个句子包含答案,即S

的长度为1,则将该包含答案的句子标注为证据标签,否则将答案A和问题Q拼接起来作为线索Clue,并分别计算线索Clue与S

中每个句子的相似度得分,最后将相似度得分最高的句子标注为证据标签;S1.4对单一的阅读理解任务训练集中的每个样本重复步骤S1到步骤S3,最终得到包含证据标签的可解释阅读理解任务的训练集;所述步骤S2具体包括:S2.1证据预测,具体包括以下子步骤:S2.1.1将训练样本的问题Q和上下文C连接起来,形成预测证据的输入文本T={q1,

,q
n
,c1,

,c
m
},其中{q1,

,q
n
}和{c1,

,c
m
}分别表示问题Q和上下文C中的词,n表示问题Q中词的个数,m表示上下文C中词的个数;然后将T输入到T5

InterMRC的词嵌入层,得到T的嵌入表示X,以及将X输入到T5

InterMRC的编码器中,获得T的隐藏表示H,计算过程如下:X=Embed(T)(2)H=Encoder(X)={h1,

,h
n+m
}∈R
(n+m)
×
d
(3)其中,Encoder(
·
)表示T5

InterMRC的编码器,h
i
为T5

InterMRC编码器中的隐藏状态,d为T5神经网络中隐藏状态的维度;
S2.1.2将T的隐藏表示H输入到证据解码器EV_Decoder(
·
)中,获得预测证据第i个位置的分布向量置的分布向量其中,V表示T5神经网络用到的词表,|V|表示词表的大小,为证据标签中的前i

1个证据词序列;S2.1.3通过归一化指数函数Softmax获得预测证据的第i个位置的概率分布:其中,最终通过下面公式获得预测证据的第i个词最终通过下面公式获得预测证据的第i个词其中,表示预测证据的第i个位置为词的概率,函数表示在V中求使得为最大值的...

【专利技术属性】
技术研发人员:朱新华关波旭提平彭琦
申请(专利权)人:广西师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1