一种自然语言处理方法、装置、设备及可读存储介质制造方法及图纸

技术编号：32247664 阅读：24 留言：0更新日期：2022-02-09 17:51

本申请公开了一种自然语言处理方法、装置、设备及可读存储介质。本申请能够为目标语句中的各第一实体添加扩充信息，且所添加的扩充信息基于相应第一实体的最大关联第二实体生成，因此所添加的扩充信息与目标语句中的各第一实体的关联度较高，从而可为作为BERT模型输入数据的目标语句扩充有效信息，使BERT模型提升自然语言处理任务的处理精度，能够提高BERT模型的处理效率和处理效果。相应地，本申请提供的一种自然语言处理装置、设备及可读存储介质，也同样具有上述技术效果。也同样具有上述技术效果。也同样具有上述技术效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种自然语言处理方法、装置、设备及可读存储介质

[0001]本申请涉及计算机机器学习
，特别涉及一种自然语言处理方法、装置、设备及可读存储介质。

技术介绍

[0002]目前，一般通过BERT模型执行自然语言处理任务。为提升任务处理精度，可以从知识图谱中获取额外知识，然后将该额外知识加入到模型输入数据中，以此来辅助BERT进行自然语言处理任务。知识图谱因其存储的信息具有结构性，是提取知识的最佳来源。
[0003]但是，现有的知识图谱仅关注了文本的表面关系，而忽视了可能存在的潜在关系，且利用将知识图谱给BERT模型的输入添加信息，容易引入过多噪声（相关度低信息），影响效率和效果。由于BERT模型的输入决定了其输出结果的精度，因此输入到BERT模型中的信息噪声过多时，不仅增加了输入的数据量，还可能影响BERT模型精度，降低BERT模型处理效率和处理效果，导致模型可能无法准确输出相应结果。例如：在问答任务中，BERT模型无法准确地回答问题。
[0004]因此，如何为BERT模型的输入数据扩充有效信息，是本领域技术人员需要解决的问题。

技术实现思路

[0005]有鉴于此，本申请的目的在于提供一种自然语言处理方法、装置、设备及可读存储介质，以为BERT模型的输入数据扩充有效信息，以使BERT模型提升自然语言处理任务的处理精度。其具体方案如下：第一方面，本申请提供了一种自然语言处理方法，包括：获取待处理的目标语句，并确定所述目标语句中的各第一实体；针对每个第一实体，若该第一实体存在于预设实体集...

【技术保护点】

【技术特征摘要】
1.一种自然语言处理方法，其特征在于，包括：获取待处理的目标语句，并确定所述目标语句中的各第一实体；针对每个第一实体，若该第一实体存在于预设实体集中，则在所述预设实体集中确定与该第一实体具有最大关联的第二实体，并基于所确定的第二实体生成扩充信息，将所述扩充信息添加至该第一实体在所述目标语句中所处位置之后，得到更新后的目标语句；所述第二实体为所述预设实体集中除该第一实体外的任一实体；将所述更新后的目标语句输入BERT模型，以使所述BERT模型执行自然语言处理任务。2.根据权利要求1所述的方法，其特征在于，所述在所述预设实体集中确定与该第一实体具有最大关联的第二实体，包括：将该第一实体作为目标对象，并确定所述目标对象与每个第二实体的最大关系概率值，得到N
‑
1个最大关系概率值；N
‑
1为第二实体的个数，N为所述预设实体集包括的实体总数；确定每个第二实体与所述目标语句的相关性，得到N
‑
1个相关性；针对每个第二实体，计算该第二实体对应的相关性和该第二实体对应的最大关系概率值的乘积，得到该第二实体对应的关联得分，得到N
‑
1个关联得分；将所述N
‑
1个关联得分中的最大关联得分对应的第二实体，作为与所述目标对象具有最大关联的第二实体。3.根据权利要求2所述的方法，其特征在于，所述确定所述目标对象与每个第二实体的最大关系概率值，包括：生成用于表示所述预设实体集中各个实体间关系及关系概率值的N
×
N
×
M维张量；M为所述预设实体集中不同实体间的关系向量的维数；基于所述N
×
N
×
M维张量生成知识图谱，并在所述知识图谱中查询所述目标对象与每个第二实体的最大关系概率值。4.根据权利要求3所述的方法，其特征在于，所述生成用于表示所述预设实体集中各个实体间关系及关系概率值的N
×
N
×
M维张量，包括：生成由N
×
N
×
M维全0构成的初始张量；获取用于生成所述预设实体集的语句库，并遍历所述语句库中的每个句子，将遍历到的句子作为待识别句子；将所述待识别句子中相邻的两个实体作为实体组，得到多个实体组；利用关系识别模型识别每个实体组中的两个实体间的关系，得到多个M维关系向量；针对每个M维关系向量，若任一M维关系向量中的最大数值大于预设阈值，则将所述最大数值在所述初始张量中对应位置的元素由0更新为1，以更新所述初始张量；遍历所述语句库中的下一个句子，并继续更新当前张量，直至所述语句库中的每个句子均已被遍历，则输出并优化当前得到的张量，以得到所述N
×
N
×
M维张量。5.根据权利要求4所述的方法，其特征在于，所述利用关系识别模型识别每个实体组中的两个实体间的关系，得到多个M维关系向量，包括：针对任一实体组中的两个实体，将所述待识别句子中的这两...

【专利技术属性】
技术研发人员：郭振华，王立，赵雅倩，李仁刚，范宝余，邓祥一，
申请(专利权)人：苏州浪潮智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人