【技术实现步骤摘要】
一种基于词典增强预训练模型的常识问答方法
[0001]本专利技术属于自然语言处理领域,具体涉及对比学习和词典增强的预训练模型 在知识驱动的问答与自然语言理解上的应用。
技术介绍
[0002]预训练的语言模型(PLMs),如BERT、RoBERTa、ALBERT,由于其在各 种自然语言处理(NLP)任务上的最先进的性能,在学术界和工业界都很流行。 然而,由于它们只捕获了从大规模语料库中学习的一般语言表征,在处理知识驱 动的任务时,它们被证明是缺乏知识的。为了应对这一挑战,许多工作,如 ERNIE
‑
THU、KEPLER、KnowBERT、K
‑
Adapter和ERICA,都是为了将知识注 入PLMs以进一步改进。
[0003]常识问答是预训练的语言模型的一个典型应用场景。然而,现有的知识增强 型PLM仍然存在着一些缺陷。首先,很少有方法关注知识本身,包括需要什么 类型的知识以及获取这些知识的可行性。一方面,一些模型认为使用知识图谱 (KG)是理所当然的,而这在实践中是很难获得的,并被证明不如字典知识那 样有效。另一方面,许多方法使用维基百科,而维基百科更容易获取,但往往是 有噪声的,而且知识密度低。第二,目前的K
‑
PLMs主要集中在一两类知识驱动 的任务上。尽管它们在一些特定的任务上被证明是有用的,但它们的语言理解能 力要么没有在GLUE上得到进一步验证。
[0004]因此,在常识问答领域中,如何提高PLMs的效果和性能,是目前亟待解决 的技术问题 ...
【技术保护点】
【技术特征摘要】
1.一种基于词典增强预训练模型的常识问答方法,其特征在于,步骤如下:S1:获取多个词典知识作为训练语料,并将各语料样本预处理为相同的输入格式;每个语料样本的内容包括词条和词条的定义描述,同时每个词条还对应有正样本和负样本,正样本中包含词条的同义词和同义词的定义描述,负样本中包含词条的反义词和反义词的定义描述;S2:以BERT或RoBERTa作为原始编码器模型,利用训练语料对编码器模型进行训练,更新编码器模型参数,得到词典增强的编码器模型;具体训练步骤如S21~S22:S21:对训练语料进行采样,并对部分采样到的词条进行掩码处理,遮盖词条实体内容,形成用于通过描述预测词条实体的第一样本,其余采样到的词条直接作为第二样本;S22:同时通过描述
‑
实体预测预训练任务和实体判别预训练任务对所述编码器模型进行迭代训练,训练的总损失为两个预训练任务损失的加权和;在描述
‑
实体预测预训练任务中,将S21中采样得到的第一样本送入所述编码器模型中,得到对应的隐藏层状态,再通过池化层和全连接层进行掩码预测,并计算掩码预测损失作为描述
‑
实体预测预训练任务的损失;在实体判别预训练任务中,利用S21中采样得到的第二样本并结合对应的正样本和负样本,进行对比学习,由编码器模型获取每个样本对应的词条和定义描述的表征,计算对比学习损失作为实体判别预训练任务的损失,以拉近同义词表征距离,分离反义词之间的表征距离;S3:完成S2中的模型训练后,结合所述词典增强的编码器模型和原始编码器模型形成双塔编码器模型,并在双塔编码器模型后连接问答任务输出层,得到问答模型;其中,双塔编码器模型的输入为问题文本,输入的问题文本经过原始编码器模型得到第一表征,同时基于词典对输入的问题文本进行匹配以识别出问题文本中的所有词条,识别出的词条经过所述词典增强的编码器模型得到第二表征,将第一表征和第二表征融合后输入问答任务输出层中进行回答预测;基于问答数据集对所述问答模型中的原始编码器模型和问答任务输出层进行微调;S4、基于S3中微调完毕后的所述问答模型,根据输入的问题预测得到问题的答案。2.如权利要求1所述的基于词典增强预训练模型的常识问答方法,其特征在于,所述问答模型中,原始编码器模型对输入的问题文本进行编码最终输出[CLS]标记的隐藏状态作为第一表征h
c
,而所述词典增强的编码器模型分别对每一个识别出的词条进行编码,最终输出每一个词条的词嵌入,将所有词条的词嵌入相加后的总和作为第二表征3.如权利要求1所述的基于词典增强预训练模型的常识问答方法,其特征在于,所述问答模型中,原始编码器模型对输入的问题文本进行编码最终输出[CLS]标记的隐藏状态作为第一表征h
c
,而所述词典增强的编码器模型分别对每一个识别出的词条进行编码,最终输出每一个词条的词嵌入,通过注意力机制计算所有词条的词嵌入加权和作为第二表征通过注意力机制计算所有词条的词...
【专利技术属性】
技术研发人员:张寅,陈强龙,李凤麟,徐国海,张佶,
申请(专利权)人:浙江大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。