本发明专利技术公开了一种知识增强预训练语言模型知识注入和训练方法及系统。该方法包括:基于领域知识图谱,识别预训练语句中的重要元素,将重要元素注入预训练语言模型的训练数据中,得到知识增强的训练数据,将知识增强的训练数据输入预训练语言模型中,针对每一层前馈网络,根据输入的训练数据和知识评估目标,确定对知识评估目标生成正确答案的概率,根据概率确定每个神经元的知识归因分数;将每一层中知识归因分数符合预设条件的神经元作为知识神经元,生成包括知识神经元的知识路径;基于预设的损失函数更新知识路径的参数。通过对注入的知识有侧重的学习来减少知识噪声,鲁棒性强,且能够识别知识路径减少更新的系统参数,降低资源消耗。降低资源消耗。降低资源消耗。
【技术实现步骤摘要】
知识增强预训练语言模型知识注入和训练方法及系统
[0001]本专利技术涉及机器学习
,特别涉及一种知识增强预训练语言模型知识注入和训练方法及系统。
技术介绍
[0002]预训练语言模型(Pre
‑
trained Language Models,PLM)可以从海量数据中学习句子词语的表征,以提升语言模型在下游任务中的表现。尽管PLM已经取得了很好的结果,并在许多自然语言处理(Natural Language Processing,NLP)任务中发挥着作用,但忽略了将知识融入到语言理解中去。为了更好地将PLM应用于知识驱动和语义理解任务,提出了通过注入丰富的外部知识以提高语言理解能力的PLM,即知识增强预训练模型(Knowledge
‑
Enhanced Pre
‑
trained Language Model,KEPLM)。KEPLM通过从知识图谱(Knowledge Graph,KG)注入外部知识三元组来提高PLM的性能,为了从注入的知识三元组的学习知识,KEPLM设计了知识相关的预训练任务,迫使模型学习注入的知识。已有的知识增强预训练语言模型,例如ERNIE、K
‑
Bert、KEPLER、CoLAKE等,都是将三元组或预训练的知识注入到语料库句子中的每个实体,来实现知识学习和训练的。
技术实现思路
[0003]本申请专利技术人发现,目前的KEPLM存在以下两个重要的问题:
[0004]以前的KEPLM对知识注入没有侧重,这会引入知识噪声降低模型性能。知识噪声包括冗余和无关的知识,例如在一句话中出现多次的实体等,这些冗余知识会带来重复信息。此外,涉及某些实体或实体对应子图的无关知识与整个句子的语义几乎没有关联,因此无关实体对最终任务的评价指标是没有贡献的。由于对知识三元组没有侧重的学习导致的知识噪声的存在,使系统的鲁棒性比较差。
[0005]以前的KEPLM使用额外的知识编码器修改模型的结构,使其的应用范围受限。此外,KEPLM设计了知识相关的任务来迫使模型学习到知识三元组中的信息,在进行系统参数更新时要更新系统的所有参数,这样的方式对计算资源的消耗很大,也增加了训练KEPLM的成本开销。
[0006]因此,怎么对知识三元组进行有重点的学习增强模型的鲁棒性,并且降低KEPLM的训练成本是具有挑战且拥有现实应用意义的任务。
[0007]鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种知识增强预训练语言模型知识注入和训练方法及系统。
[0008]本专利技术实施例提供一种知识增强预训练语言模型训练方法,包括:
[0009]基于领域知识图谱,识别预训练语句中的重要元素,所述重要元素包括通过语义相关方法检测出的重要实体和/或通过出现频率检测出的长尾词;
[0010]将所述重要元素注入预训练语言模型的训练数据中,得到知识增强的训练数据作为模型的输入数据。
[0011]在一些可选的实施例中,所述基于领域知识图谱,识别预训练语句中的重要元素,包括:
[0012]基于领域知识图谱中的三元组,检测预训练语句中的实体,通过预训练语句与对检测到的实体进行实体替换后的替换语句的语义相关性,检测出预训练语句中的重要实体;所述三元组包括实体、关系、实体;
[0013]根据预训练语料中的词出现频率,检测出所述预训练语句中的长尾词。
[0014]在一些可选的实施例中,所述通过预训练语句与对检测到的实体进行实体替换后的替换语句的语义相关性,检测出预训练语句中的重要实体,包括:
[0015]对所述预训练语句中的实体进行实体替换,得到包括替换实体的替换语句;
[0016]基于层归一化函数,获得预训练语句的嵌入表征和替换预句的嵌入表征,根据所述预训练语句的嵌入表征和替换预句的嵌入表征,确定预训练语句和替换语句的语义相关性,
[0017]将语义相关性符合预设条件的实体,确定为重要实体。
[0018]在一些可选的实施例中,上述方法还包括:
[0019]将检测出的重要元素的嵌入表征存储到预先建立的记忆库中,所述记忆库包括用于存储重要实体嵌入表征的实体库和用来存储长尾词嵌入表征的词库;或基于检测出的重要元素的嵌入表征更新记忆库中存储的该重要元素的嵌入表征;
[0020]相应的,将所述重要元素注入预训练语言模型的训练数据中,包括:将记忆库中存储的所述重要元素的嵌入表征注入预训练语言模型的训练数据中。
[0021]在一些可选的实施例中,所述基于检测出的重要元素的嵌入表征更新记忆库中存储的该重要元素的嵌入表征,包括:
[0022]获取检测出的重要元素的嵌入表征在记忆库中的存储位置;
[0023]将所述存储位置处该重要元素的存储嵌入表征和本次检测到该重要元素后获得的新嵌入表征进行求和,得到该重要元素更新后的嵌入表征。
[0024]本专利技术实施例一种知识增强预训练语言模型训练方法,包括:
[0025]将知识增强的训练数据输入知识增强预训练语言模型中;所述知识增强的训练数据是使用上述的知识增强预训练语言模型知识注入方法得到的;
[0026]针对所述预训练语言模型的每一层前馈网络,根据输入的训练数据和知识评估目标,确定对知识评估目标生成正确答案的概率,根据所述概率确定每个神经元的知识归因分数;
[0027]将每一层中所述知识归因分数符合预设条件的神经元作为知识神经元,生成包括所述知识神经元的知识路径;
[0028]基于预设的损失函数更新所述知识路径的参数。
[0029]在一些可选的实施例中,所述根据输入的训练数据和知识评估目标,确定对知识评估目标生成正确答案的概率,根据所述概率确定每个神经元的知识归因分数,包括:
[0030]采用归一化指数函数,获取训练数据的输入序列对应的对知识评估目标生成正确答案的概率;
[0031]针对每个神经元,根据所述对知识评估目标生成正确答案的概率的梯度,确定所述神经元的知识归因分数。
[0032]在一些可选的实施例中,所述将每一层中所述知识归因分数符合预设条件的神经元作为知识神经元,生成包括所述知识神经元的知识路径,包括:
[0033]将每一层中知识归因分数最高的神经元确定为该层的知识神经元,通过路径连接每层的知识神经元,生成知识路径。
[0034]在一些可选的实施例中,所述基于预设的损失函数更新所述知识路径的参数,包括:
[0035]针对训练语句中包括的实体经Transformer编码器处理得到的嵌入表征,采用对比学习的方式,确定对比学习的损失函数,所述损失函数使得所述模型输出的预测正确答案与真实值相似度最大化,与替换实体对应的伪造答案的相似度最小化;
[0036]根据损失函数计算模型参数的梯度,更新所述知识路径的梯度。
[0037]本专利技术实施例一种知识增强预训练语言模型知识注入系统,包括:
[0本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种知识增强预训练语言模型知识注入方法,其特征在于,包括:基于领域知识图谱,识别预训练语句中的重要元素,所述重要元素包括通过语义相关方法检测出的重要实体和/或通过出现频率检测出的长尾词;将所述重要元素注入预训练语言模型的训练数据中,得到知识增强的训练数据作为模型的输入数据。2.如权利要求1所述的方法,其特征在于,所述基于领域知识图谱,识别预训练语句中的重要元素,包括:基于领域知识图谱中的三元组,检测预训练语句中的实体,通过预训练语句与对检测到的实体进行实体替换后的替换语句的语义相关性,检测出预训练语句中的重要实体;所述三元组包括实体、关系、实体;根据预训练语料中的词出现频率,检测出所述预训练语句中的长尾词。3.如权利要求2所述的方法,其特征在于,所述通过预训练语句与对检测到的实体进行实体替换后的替换语句的语义相关性,检测出预训练语句中的重要实体,包括:对所述预训练语句中的实体进行实体替换,得到包括替换实体的替换语句;基于层归一化函数,获得预训练语句的嵌入表征和替换预句的嵌入表征,根据所述预训练语句的嵌入表征和替换预句的嵌入表征,确定预训练语句和替换语句的语义相关性,将语义相关性符合预设条件的实体,确定为重要实体。4.权利要求1
‑
3任一项所述的方法,其特征在于,还包括:将检测出的重要元素的嵌入表征存储到预先建立的记忆库中,所述记忆库包括用于存储重要实体嵌入表征的实体库和用来存储长尾词嵌入表征的词库;或基于检测出的重要元素的嵌入表征更新记忆库中存储的该重要元素的嵌入表征;相应的,将所述重要元素注入预训练语言模型的训练数据中,包括:将记忆库中存储的所述重要元素的嵌入表征注入预训练语言模型的训练数据中。5.权利要求1
‑
3任一项所述的方法,其特征在于,所述基于检测出的重要元素的嵌入表征更新记忆库中存储的该重要元素的嵌入表征,包括:获取检测出的重要元素的嵌入表征在记忆库中的存储位置;将所述存储位置处该重要元素的存储嵌入表征和本次检测到该重要元素后获得的新嵌入表征进行求和,得到该重要元素更新后的嵌入表征。6.一种知识增强预训练语言模型训练方法,其特征在于,包括:将知识增强的训练数据输入知识增强预训练语言模型中;所述知识增强的训练数据是使用权利要求1
‑
5任一所述的知识增强预训练语言模型知识注入方法得到的;针对所述预训练语言模型的每一层前馈网络,根据输入的训练数据和知识评估目标,确定对知识评估目标生成正确答案的概率,根据所述概率确定每个神经元的知识归因分数;将每一层中所述知识归因分数符合预设条件的神经元作为知识神经元,生成包括所述知识神经元的知识路径;基于预设的损失函数更新所述知识路径的参数。7.如权利要求6所述的方法,其特征在于,所述根据输入的训练数据和知识评估目标,确定对知识评估目标生成正确答案的概率,根据所述概率确定每个神经元的知识...
【专利技术属性】
技术研发人员:汪诚愚,严俊冰,黄俊,
申请(专利权)人:阿里巴巴中国有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。