一种基于杂志的人名实体链接方法技术

技术编号:36957732 阅读:44 留言:0更新日期:2023-03-22 19:18
本发明专利技术公开了一种基于杂志的人名实体链接方法,包括BERT Encode编码器、实体分类模块和实体链接模块构成,BERT Encode编码器与实体分类模块、实体链接模块联通。本发明专利技术通过对时尚传统纸媒数据(杂志、期刊等)和时尚新媒体数据(公众号文章等)首先进行数据预处理操作,得到统一处理后的数据。然后对数据按照一定的比例进行切分为训练集、验证集和测试集,使用训练集进行模型的训练,使用验证集进行模型的验证,再将测试集送入训练好的实体生成模型获得候选人名实体集合。紧接着将候选实体集合和领域知识库送入实体消歧模型,具体是通过计算实体指称与候选实体之间的相似度并进行相似度排序来选择可能的候选实体,从而提升实体链接的准确性。接的准确性。接的准确性。

【技术实现步骤摘要】
一种基于杂志的人名实体链接方法


[0001]本专利技术涉及数据处理领域,更具体的说,它涉及一种基于杂志的人名实体链接方法。

技术介绍

[0002]指称或表述(mention)指自然语言文本中表达实体的语言片段,实体链接(entity linking,EL)指将文本中的指称链接到知识库(knowledge base,KB)中相应的实体(entity)来进行实体消歧(entity disambiguation),帮助人类和计算机理解文本具体含义的任务。例如,在文本“苹果发布了最新产品”中,表述“苹果”在知识库中对应的实体有“苹果(科技产品)”、“苹果(苹果产品公司)”和“苹果(蔷薇科苹果属果实)”等,实体链接就是将表述“苹果”链接到知识库中的“苹果(苹果产品公司)”,消除其他义项导致的歧义的过程。实体链接能够利用知识库丰富的语义信息,在许多领域发挥非常重要的基础性作用,例如问答系统(question answering)、语义搜索(semantic search)和信息抽取(information extraction)等。实体链接也具有扩充知识库的重要功能,可以用于更新实体和关系,是知识图谱构建中的一个重要环节。
[0003]人名实体链接研究的对象为包含人名的命名实体,将非结构化文本中的表述指向其代表的真实人名实体,主要解决实体名的歧义性和多样性问题,如马爸爸、风清扬、Jack Ma都指阿里巴巴集团创始人马云。实体链接通常分为候选实体生成和候选实体排序消歧两个阶段。候选实体生成是为文本中的指称生成一个知识库中的相关实体集合,其首要任务是识别出文档中的实体指称,即需要链接到知识库进行消歧的词或短语,这一过程与自然语言处理中的命名实体识别任务较为类似。候选实体排序阶段对实体指称和候选实体集中的所有候选实体进行相关度排序,选择相关度最大的候选实体作为实体指称对应的链接实体。
[0004]现有的申请号为CN201310202444.9的专利公开了一种基于本体的中文人名消歧方法,可以有效解决中文人名的实体链接问题,较好的解决了人名误匹的问题,提高了识别效果。但其依赖人工定义人物属性以及人物本体中涉及的概念、属性和关系等,人工干预多维护耗时,并且采用传统机器学习方法特征表达能力差。
[0005]申请号为CN201610547386.7的专利公开了一种命名实体链接方法,该方法将候选文档列表中的所有候选文档进行消歧,得到最贴切描述所述查询词的一个候选文档,实现提高链接准确性。然而其利用传统的主题建模LDA方法特征表达能力差,并且当文本长度过短时,不利于训练LDA。
[0006]申请号为CN201810103629.7的专利公开了一种融合先验信息的命名实体链接方法,突破了语料缺乏的限制,为用户提供了可靠的实体链接推荐结果,其中实体通用性特征加入了先验信息。但是其通过采用组合的TF

IDF和commoness特征,仍然无法获取更深层次的语义和结构信息,特征表达能力差。
[0007]因此急需特征表达能力强,准确性更高的人名实体链接方法。

技术实现思路

[0008]本专利技术克服了现有技术的不足,提供了准确性高,特征表达能力强的一种基于杂志的人名实体链接方法。
[0009]本专利技术的技术方案如下:
[0010]一种基于杂志的人名实体链接方法,包括BERT Encode编码器、实体分类模块和实体链接模块构成,BERT Encode编码器与实体分类模块、实体链接模块联通;
[0011]实体分类模块就是命名实体,其包括实体的边界和类型;实体分类模块要求较高的召回率,召回尽可能多的指称的可能的链接对象,以提高实体链接的准确性,同时尽可能排除不相关的实体,从而减少计算量;实体分类模块为实体链接模块提供重要的信息;
[0012]实体链接模块是实现实体链接问题,其将不同含义、不同类型的信息映射到同一特征空间,并对多源信息和多源文本之间的关系进行建模,从而获得不同类型和不同模态的上下文与知识的统一表示;
[0013]BERT Encode编码器接收来自实体分类模块和实体链接模块任务的梯度信息,并更新模型参数,从而得到通用的底层表达,以提升模型的泛化能力,提升人名实体链接任务的准确性。
[0014]进一步的,BERT Encode编码器是使用双向Transformer模型的Encoder Layer进行特征提取,其使用大量无标记数据集中训练得到;BERT Encode编码器包括输入部分、多头注意力机制和前馈神经网络,其中输入部分包括字向量、文本向量和位置向量;
[0015]Transformer模型是一种学习文本中词之间上下文关系的注意力机制,其注意力机制的改良公式为:
[0016][0017]其中Q,K,V是输入的词向量矩阵,d
k
是输入向量的维度,首先Q和K先做一个点乘,softmax处理之后得到的是一个相似度的向量,再乘以V矩阵得到一个加权和;在得到Z向量之后,它会被送到前馈神经网络,这个全连接有2层,第一层的激活函数是ReLU,第二层是一个线性激活函数,表示公式如下为:
[0018]FFN=max(0,ZW1+b1)W2+b2ꢀꢀꢀꢀ
公式(2)
[0019]进一步的,实体链接模块中人名实体链接的实体指称一共有16类,所以将实体指称作为一个16分类任务,在两层全连接层之间增加一层Dropout层,来防止模型过拟合;全连接层的输出接着使用Softmax激活函数的处理,得到实体指称对应的类别概率分布,完成实体分类任务。
[0020]进一步的,实体分类模块的输入部分包含字向量、文本向量和位置向量;
[0021]字向量利用word2vector计算得到,字向量融合了各个字/词的全文语义信息;
[0022]文本向量在模型训练过程中自动学习,用于刻画文本的全局语义信息,并与单字/词的语义信息相融合;
[0023]位置向量是为了表征文本不同位置的字/词所携带的语义信息存在差异,因此需要对不同位置的字/词分别附加一个不同的向量以作区分。
[0024]进一步的,位置向量的公式如下:
[0025][0026]其中pos表示某个词在句子序列中的实际位置,i表示词向量的第i个维度,d
model
是位置向量的维度;最终将位置向量、字向量以及词向量各维度相加,得到的结果作为最终BERT Encoder模型的输入。
[0027]进一步的,实体链接模块以二分类问题方式进行处理,其具体如下:
[0028]首先对实体指称构建对应的候选实体集,这里对候选实体集增加候选实体“NIL”,NIL表示实体指称在知识库中没有对应的实体,将NIL也作为一个候选实体参与训练过程,其对应的候选实体上下文记为“未知实体”;
[0029]预测时,分别计算每个候选实体上下文与实体指称上下文的相关度,若所有候选实体相关度得分的最大值大于给定阈值,则认为相关度最大的候选实体为实体指称对应的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于杂志的人名实体链接方法,其特征在于:包括BERT Encode编码器、实体分类模块和实体链接模块构成,BERT Encode编码器与实体分类模块、实体链接模块联通;实体分类模块就是命名实体,其包括实体的边界和类型;实体分类模块要求较高的召回率,召回尽可能多的指称的可能的链接对象,以提高实体链接的准确性,同时尽可能排除不相关的实体,从而减少计算量;实体分类模块为实体链接模块提供重要的信息;实体链接模块是实现实体链接问题,其将不同含义、不同类型的信息映射到同一特征空间,并对多源信息和多源文本之间的关系进行建模,从而获得不同类型和不同模态的上下文与知识的统一表示;BERT Encode编码器接收来自实体分类模块和实体链接模块任务的梯度信息,并更新模型参数,从而得到通用的底层表达,以提升模型的泛化能力,提升人名实体链接任务的准确性。2.根据权利要求1所述的一种基于杂志的人名实体链接方法,其特征在于:BERT Encode编码器是使用双向Transformer模型的Encoder Layer进行特征提取,其使用大量无标记数据集中训练得到;BERT Encode编码器包括输入部分、多头注意力机制和前馈神经网络,其中输入部分包括字向量、文本向量和位置向量;Transformer模型是一种学习文本中词之间上下文关系的注意力机制,其注意力机制的改良公式为:其中Q,K,V是输入的词向量矩阵,d
k
是输入向量的维度,首先Q和K先做一个点乘,softmax处理之后得到的是一个相似度的向量,再乘以V矩阵得到一个加权和;在得到Z向量之后,它会被送到前馈神经网络,这个全连接有2层,第一层的激活函数是ReLU,第二层是一个线性激活函数,表示公式如下为:FFN=max(0,ZW1+b1)W2+b2ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式(2)3.根据权利要求2所述的一种基于杂志的人名实体链接方法,其特征在于:实体链接模块中人名实体链接的实体指称一共...

【专利技术属性】
技术研发人员:张开放甘云锋江敏高雁冰
申请(专利权)人:杭州数澜科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1