关系抽取模型优化方法、装置和电子设备制造方法及图纸

技术编号：34999154 阅读：9 留言：0更新日期：2022-09-21 14:48

本申请提供一种关系抽取模型优化方法、装置和电子设备，构建包括关键提及对分类器和关系分类器的关系抽取模型。首先，获得样本文档中的各个实体对以及各个实体对具有的提及对。再基于样本文档中的提及对实现对关键提及对分类器的优化，并根据优化的关键提及对分类器识别出其中的关键提及对，再基于关键提及对实现对关系分类器的优化，从而完成对关系抽取模型的优化训练。该方案中，考虑了实体对下不同提及对对模型训练的影响，并且，还重点关注在利用关键提及对实现对模型的训练，可以进一步地避免无关信息对模型训练的影响，提高模型的识别准确性。识别准确性。识别准确性。

全部详细技术资料下载

【技术实现步骤摘要】
关系抽取模型优化方法、装置和电子设备

[0001]本申请涉及文档极关系抽取
，具体而言，涉及一种关系抽取模型优化方法、装置和电子设备。

技术介绍

[0002]关系抽取是自然语言处理领域的一个重要的研究方向，其目标是从给定的文本中抽取出给定实体之间的关系。数十年来，大量研究者已经在句子级别的关系抽取问题上进行了大量的探索。近几年来，随着自然语言处理领域预训练语言模型的跨越式发展，模型具有更强的学习能力，使得在更长更复杂的文本上进行关系抽取任务成为可能。同时，由于大量真实情况的关系事实是通过文档级别文本表达出来的，研究人员逐渐重视对文档级别关系抽取的研究，提出了多种直接基于文档级文本进行实体关系分类的技术，包括基于文档图的方法和基于预训练语言模型的方法。
[0003]基于文档图的方法通过构建文档图并使用图神经网络(Graph Neural Network,GNN)建模不同文档成分(如词、句子等)之间的信息交互。这种方法需要首先基于文档的结构特点，建立包含词、句子等不同节点的文档图，再使用GNN对文档进行编码，建模文档的结构特征，使用最终获得的两实体表征进行关系分类。由于BERT(Bidirectional Encoder Representations from Transformers)等基于Transformer的预训练语言模型可以看成具有全连接的图结构，也有方法直接基于预训练语言模型的方法直接用其对输入文档进行建模，并使用多种池化方法获取实体的上下文表示以进行关系分类。这种方法实现较为简单，同时也可以...

【技术保护点】

【技术特征摘要】
1.一种关系抽取模型优化方法，其特征在于，所述方法包括：构建关系抽取模型，所述关系抽取模型包括关键提及对分类器和关系分类器；获取样本文档，所述样本文档中包含多个实体对，每个所述实体对具有至少一个提及对；将所述样本文档导入所述关键提及对分类器中，基于各所述提及对的关键标记以及所述关键提及对分类器对各所述提及对的关键预测结果构建第一损失函数，以对所述关键提及对分类器进行优化；将所述样本文档导入所述关系分类器中，获取所述关键提及对分类器所预测的各个关键提及对，并基于各所述关键提及对的分类标记以及所述关系分类器对各所述关键提及对的分类预测结果构建第二损失函数，以对所述关系分类器进行优化。2.根据权利要求1所述的关系抽取模型优化方法，其特征在于，所述构建关系抽取模型的步骤之后，所述方法还包括对所述关键提及对分类器进行预训练的步骤，该步骤包括：对所述样本文档中的各个提及对包含的各提及进行标识符标记；将标记后的样本文档输入至所述关键提及对分类器中进行编码，得到各所述提及的标识符的注意力分布和上下文表示；基于各所述提及的标识符的注意力分布和上下文表示，计算各所述提及对属于关键提及对的概率，以实现所述关键提及对分类器的预训练。3.根据权利要求2所述的关系抽取模型优化方法，其特征在于，所述基于各所述提及的标识符的注意力分布和上下文表示，计算各所述提及对属于关键提及对的概率，以实现所述关键提及对分类器的预训练的步骤，包括：基于各所述提及的标识符的注意力分布和上下文表示，获得各个提及对的上下文池化表示；基于各个提及对的上下文池化表示计算各所述提及对属于关键提及对的概率；根据计算得到的各个提及对属于关键提及对的概率以及各个提及对的关键标记，以实现对所述关键提及对分类器的预训练。4.根据权利要求1所述的关系抽取模型优化方法，其特征在于，各所述提及对的关键标记通过以下方式获得：获得所述关系分类器预测的各个提及对的分类预测结果，所述分类预测结果为各所述提及对属于各个分类类型的概率；针对各所述提及对，在所述提及对对应的概率大于所述提及对所属的实体对下所有提及对的概率平均值时，将所述提及对的关键标记设置为表征该提及对为关键提及对，否则，将该提及对的关键标记设置为表征该提及对不为关键提及对。5.根据权利要求1所述的关系抽取模型优化方法，其特征在于，所述第一损失函数包括所述样本文档中各所述提及对设置的关键标记的似然函数以及第一权重；其中，所述第一权重的绝对值在所述关键提及对分类器对提及对的关键预测结果与其关键标记越接近时越小，所...

【专利技术属性】
技术研发人员：牛建伟，蒋锋，孙钢灿，
申请(专利权)人：北京航空航天大学杭州创新研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人