当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于词典增强预训练模型的常识问答方法技术

技术编号:35476120 阅读:24 留言:0更新日期:2022-11-05 16:24
本发明专利技术公开了一种基于词典增强预训练模型的常识问答方法。本发明专利技术包括如下步骤:1)词典知识清洗;2)在预训练过程中,采用描述

【技术实现步骤摘要】
一种基于词典增强预训练模型的常识问答方法


[0001]本专利技术属于自然语言处理领域,具体涉及对比学习和词典增强的预训练模型 在知识驱动的问答与自然语言理解上的应用。

技术介绍

[0002]预训练的语言模型(PLMs),如BERT、RoBERTa、ALBERT,由于其在各 种自然语言处理(NLP)任务上的最先进的性能,在学术界和工业界都很流行。 然而,由于它们只捕获了从大规模语料库中学习的一般语言表征,在处理知识驱 动的任务时,它们被证明是缺乏知识的。为了应对这一挑战,许多工作,如 ERNIE

THU、KEPLER、KnowBERT、K

Adapter和ERICA,都是为了将知识注 入PLMs以进一步改进。
[0003]常识问答是预训练的语言模型的一个典型应用场景。然而,现有的知识增强 型PLM仍然存在着一些缺陷。首先,很少有方法关注知识本身,包括需要什么 类型的知识以及获取这些知识的可行性。一方面,一些模型认为使用知识图谱 (KG)是理所当然的,而这在实践中是很难获得的,并被证明不如字典知识那 样有效。另一方面,许多方法使用维基百科,而维基百科更容易获取,但往往是 有噪声的,而且知识密度低。第二,目前的K

PLMs主要集中在一两类知识驱动 的任务上。尽管它们在一些特定的任务上被证明是有用的,但它们的语言理解能 力要么没有在GLUE上得到进一步验证。
[0004]因此,在常识问答领域中,如何提高PLMs的效果和性能,是目前亟待解决 的技术问题

技术实现思路

[0005]本专利技术目的是解决现有技术中存在的问题,并提供一种基于词典增强预训练 模型的常识问答方法。
[0006]受字典知识比结构化知识更有效的启发,本专利技术利用字典资源作为外部知识 来提高PLMs的效率。根据相关经验,这样做的有点如下:首先,它与人类的阅 读习惯和认知过程是一致的;在阅读过程中,当遇到不熟悉的单词时,人们通常 会查阅字典或百科全书。第二,与维基百科的长篇文字相比,字典知识更加简洁, 知识密度高。第三,字典知识更容易获取,这对K

PLMs的实际应用具有重要意 义,即使在缺乏字典的情况下,也可以通过简单地构建一个生成器来总结解释一 个词的描述而获得。
[0007]本专利技术具体采用的技术方案如下:
[0008]一种基于词典增强预训练模型的常识问答方法,其步骤如下:
[0009]S1:获取多个词典知识作为训练语料,并将各语料样本预处理为相同的输入 格式;每个语料样本的内容包括词条和词条的定义描述,同时每个词条还对应有 正样本和负样本,正样本中包含词条的同义词和同义词的定义描述,负样本中包 含词条的反义词和反义词的定义描述;
[0010]S2:以BERT或RoBERTa作为原始编码器模型,利用训练语料对编码器模 型进行训
练,更新编码器模型参数,得到词典增强的编码器模型;具体训练步骤 如S21~S22:
[0011]S21:对训练语料进行采样,并对部分采样到的词条进行掩码处理,遮盖词 条实体内容,形成用于通过描述预测词条实体的第一样本,其余采样到的词条直 接作为第二样本;
[0012]S22:同时通过描述

实体预测预训练任务和实体判别预训练任务对所述编码 器模型进行迭代训练,训练的总损失为两个预训练任务损失的加权和;
[0013]在描述

实体预测预训练任务中,将S21中采样得到的第一样本送入所述编 码器模型中,得到对应的隐藏层状态,再通过池化层和全连接层进行掩码预测, 并计算掩码预测损失作为描述

实体预测预训练任务的损失;
[0014]在实体判别预训练任务中,利用S21中采样得到的第二样本并结合对应的正 样本和负样本,进行对比学习,由编码器模型获取每个样本对应的词条和定义描 述的表征,计算对比学习损失作为实体判别预训练任务的损失,以拉近同义词表 征距离,分离反义词之间的表征距离;
[0015]S3:完成S2中的模型训练后,结合所述词典增强的编码器模型和原始编码 器模型形成双塔编码器模型,并在双塔编码器模型后连接问答任务输出层,得到 问答模型;其中,双塔编码器模型的输入为问题文本,输入的问题文本经过原始 编码器模型得到第一表征,同时基于词典对输入的问题文本进行匹配以识别出问 题文本中的所有词条,识别出的词条经过所述词典增强的编码器模型得到第二表 征,将第一表征和第二表征融合后输入问答任务输出层中进行回答预测;基于问 答数据集对所述问答模型中的原始编码器模型和问答任务输出层进行微调;
[0016]S4、基于S3中微调完毕后的所述问答模型,根据输入的问题预测得到问题 的答案。
[0017]作为优选,所述问答模型中,原始编码器模型对输入的问题文本进行编码最 终输出[CLS]标记的隐藏状态作为第一表征h
c
,而所述词典增强的编码器模型分 别对每一个识别出的词条进行编码,最终输出每一个词条的词嵌入,将所有词条 的词嵌入相加后的总和作为第二表征
[0018]作为优选,所述问答模型中,原始编码器模型对输入的问题文本进行编码最 终输出[CLS]标记的隐藏状态作为第一表征h
c
,而所述词典增强的编码器模型分 别对每一个识别出的词条进行编码,最终输出每一个词条的词嵌入,通过注意力 机制计算所有词条的词嵌入加权和作为第二表征
[0019][0020]其中:ATT表示注意力函数,h
c
作为注意力函数的键(Key)和值(Value), e
i
作为注意力函数的查询(Query),e
i
表示第i个识别的词条或者词条与其定义 描述通过所述词典增强的编码器模型得到的最终输出,K是从问题文本中识别到 的词条总数。
[0021]作为优选,所述问答模型中,原始编码器模型对输入的问题文本进行编码最 终输出[CLS]标记的隐藏状态作为第一表征h
c
,而所述词典增强的编码器模型分 别对每一个识别出的词条进行编码,提取所述原始编码器模型和所述词典增强的 编码器模型各自的每
一层输出,并通过注意力机制计算任意第l层输出的所有词 条的词嵌入加权和然后将所有层的词嵌入加权和进行平均得到第二表征
[0022][0023][0024]其中,h
l
表示问题文本输入原始编码器模型后在模型第l层的输出,表示第 i个识别的词条或者词条与其定义描述输入所述词典增强的编码器模型后在模型 第l层的输出;aTT表示注意力函数,h
l
作为注意力函数的键(Key)和值(Value), e
i
作为注意力函数的查询(Query);L表示所述原始编码器模型和所述词典增强 的编码器模型中的总层数,K是从问题文本中识别到的词条总数。
[0025]作为优选,所述问答模型中,通过得到的第一表征h
c<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于词典增强预训练模型的常识问答方法,其特征在于,步骤如下:S1:获取多个词典知识作为训练语料,并将各语料样本预处理为相同的输入格式;每个语料样本的内容包括词条和词条的定义描述,同时每个词条还对应有正样本和负样本,正样本中包含词条的同义词和同义词的定义描述,负样本中包含词条的反义词和反义词的定义描述;S2:以BERT或RoBERTa作为原始编码器模型,利用训练语料对编码器模型进行训练,更新编码器模型参数,得到词典增强的编码器模型;具体训练步骤如S21~S22:S21:对训练语料进行采样,并对部分采样到的词条进行掩码处理,遮盖词条实体内容,形成用于通过描述预测词条实体的第一样本,其余采样到的词条直接作为第二样本;S22:同时通过描述

实体预测预训练任务和实体判别预训练任务对所述编码器模型进行迭代训练,训练的总损失为两个预训练任务损失的加权和;在描述

实体预测预训练任务中,将S21中采样得到的第一样本送入所述编码器模型中,得到对应的隐藏层状态,再通过池化层和全连接层进行掩码预测,并计算掩码预测损失作为描述

实体预测预训练任务的损失;在实体判别预训练任务中,利用S21中采样得到的第二样本并结合对应的正样本和负样本,进行对比学习,由编码器模型获取每个样本对应的词条和定义描述的表征,计算对比学习损失作为实体判别预训练任务的损失,以拉近同义词表征距离,分离反义词之间的表征距离;S3:完成S2中的模型训练后,结合所述词典增强的编码器模型和原始编码器模型形成双塔编码器模型,并在双塔编码器模型后连接问答任务输出层,得到问答模型;其中,双塔编码器模型的输入为问题文本,输入的问题文本经过原始编码器模型得到第一表征,同时基于词典对输入的问题文本进行匹配以识别出问题文本中的所有词条,识别出的词条经过所述词典增强的编码器模型得到第二表征,将第一表征和第二表征融合后输入问答任务输出层中进行回答预测;基于问答数据集对所述问答模型中的原始编码器模型和问答任务输出层进行微调;S4、基于S3中微调完毕后的所述问答模型,根据输入的问题预测得到问题的答案。2.如权利要求1所述的基于词典增强预训练模型的常识问答方法,其特征在于,所述问答模型中,原始编码器模型对输入的问题文本进行编码最终输出[CLS]标记的隐藏状态作为第一表征h
c
,而所述词典增强的编码器模型分别对每一个识别出的词条进行编码,最终输出每一个词条的词嵌入,将所有词条的词嵌入相加后的总和作为第二表征3.如权利要求1所述的基于词典增强预训练模型的常识问答方法,其特征在于,所述问答模型中,原始编码器模型对输入的问题文本进行编码最终输出[CLS]标记的隐藏状态作为第一表征h
c
,而所述词典增强的编码器模型分别对每一个识别出的词条进行编码,最终输出每一个词条的词嵌入,通过注意力机制计算所有词条的词嵌入加权和作为第二表征通过注意力机制计算所有词条的词...

【专利技术属性】
技术研发人员:张寅陈强龙李凤麟徐国海张佶
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1