当前位置: 首页 > 专利查询>北京大学专利>正文

一种基于句法指导的文本命名实体信息识别方法技术

技术编号:28942850 阅读:25 留言:0更新日期:2021-06-18 21:50
本发明专利技术公布了一种基于句法指导的文本命名实体信息识别方法,构建基于句法指导的文本命名实体信息识别模型,模型包括基于Transformer模型的编码层、句法指导自注意力层、表示融合层、条件随机场CRF解码层;仅需建模依存句法树结构而无需引入依存关系类型,通过采用注意力机制,采用抽取准确率高、易于获取词级别的词性信息弥补不引入依存关系类型带来的信息缺失。采用本发明专利技术方法能够避免自然语言处理中信息抽取中抽取出的依存关系类型的错误传递问题。

【技术实现步骤摘要】
一种基于句法指导的文本命名实体信息识别方法
本专利技术提供一种文本命名实体的识别技术,具体涉及一种基于句法指导的文本命名实体信息的识别方法,属于自然语言处理中的信息抽取

技术介绍
近年来,在自然语言处理
中,神经网络模型凭借其强大的上下文编码能力以及无需人工构建特征的优势,在文本命名实体的识别任务中起着重要作用。然而,为了提高现有神经网络模型的表现,除了建模上下文之外,一个直接的方法就是引入更多的知识,这些知识包括了外部知识,例如知识库;还有文本内部的语言学知识,例如句法信息。现有的命名实体识别模型中,Jieetal.(ZhanmingJieandWeiLu.2019.Dependency-GuidedLSTM-CRFforNamedEntityRecognition.InProceedingsofthe2019ConferenceonEmpiricalMethodsinNaturalLanguageProcessingandthe9thInternationalJointConferenceonNaturalLanguageProcessing,EMNLP-IJCNLP2019,HongKong,China,November3-7,2019,pages3860–3870.)提出了依存句法指导的命名实体识别模型DGLSTM-CRF,该模型将从文本中抽取出来的句法信息当作正确知识并将它们直接拼接到词向量上(依存关系类型)或通过交互函数建模进模型(依存句法树结构)。然而,这种做法忽视了这些抽取出来的信息中包含的噪声,若在第一步中抽取出的依存关系类型存在错误,则会将错误传递到后续的模型训练及预测中。
技术实现思路
为了克服上述现有技术的不足,本专利技术提供一种基于句法指导的文本命名实体信息的识别方法,针对自然语言处理中信息抽取现有技术存在的句法信息中的噪声问题,通过仅建模依存句法树结构而不引入依存关系类型,采用抽取准确率高、易于获取的词级别的词性信息弥补不引入依存关系类型带来的信息缺失,避免自然语言处理中信息抽取中抽取出的依存关系类型的错误传递问题。为方便起见,以下列出本专利技术相关术语名称及含义:依存句法分析:依存句法是由法国语言学家L.Tesniere最先提出,它将句子分析成一棵依存句法树,描述出各个词语之间的依存关系。在依存句法中的共同的基本假设是:句法结构本质上包含词和词对之间的关系,这种关系就是依存关系,其中一个依存关系连接两个词,一个是核心词(head)、另一个是修饰词(dependant)。依存句法树结构:依存句法树结构是依存句法分析结果的一种典型表示形式。以下给出依存句法树的形式化定义:给定一个集合R={r1,r2,...,rR},其中每个元素表示一种依存关系(比如主谓关系、定中关系等),一个句子的依存树是一棵有向树G=(V,A),满足以下条件:(1)V={0,1,...,n},V是依存树中顶点的集合;(2)A是依存树中依存弧的集合。V是顶点集合,用非负整数表示,V中每个顶点依次与句子s中的单词wi相对应(ROOT编号为0)。A是依存弧集合,用三元组(wi,r,wj)表示,wi和wj是顶点,r表示它们之间的依存关系。本专利规定在三元组(wi,r,wj)中,依存弧由wi指向wj,即wi是wj的父亲结点,r是wj的依存关系类型。一个依存句法树结构的例子如下。图3是一个依存句法树结构,根节点ROOT和“关心”之间存在核心(HED)关系、“关心”和“汶川”之间存在动宾(VOB)关系、“关心”和“人民”之间存在主谓(SBV)关系、“关心”和“共同”之间存在状中(ADV)关系、“人民”和“全国”之间存在定中(ATT)关系。父亲节点:若一个节点含有子节点,则这个节点称为其子节点的父节点。祖先节点:从根到该节点所经分支上的所有节点。Transformer:自然语言处理中有一类任务叫做序列到序列(Seq2Seq)任务,常用的结构是基于编码器-解码器(encoder-decoder)框架的,简而言之就是使用编码器把源序列映射成一个向量,然后使用解码器外加一些注意力机制来预测目标序列。常用的Seq2Seq包括了基于循环神经网络(RNN)的、卷积神经网络(CNN)的、变形金刚(Transformer)的,其中基于Transformer的模型由于以下几个特点,取得了较好的表现,被广泛应用:抛弃了传统RNN模型的时序结构,使用位置编码作为替代方案,实现了较高程度的并行化,训练速度较快;它的自注意力机制能够自动捕捉到字之间的联系(从语言学角度来说,就是某种程度上的句法信息),句法信息对于句子级别上的机器翻译任务来说非常重要,且能缓解时序结构模型的长依赖建模中的信息丢失问题。基于Transformer的模型(或称Transformer模型)的整体结构是个编码器-解码器框架(如图5所示),编码部分由六个编码器(encoder)堆叠而成,每个编码器由多头注意力(multi-headattention)层和前馈神经网络(feedforward)层组成;解码部分由六个解码器(decoder)组成,每个解码器在编码器基础上,在多头注意力层和前馈网络层之间添加了一层编码器-解码器注意力层用来对源端词到目标端词的依赖关系进行建模。在编码器、解码器结构内部的层与层之间,还进行了残差计算和归一化操作来防止随着编码器的层数增加而发生梯度消失,保证训练的稳定性。上述Transformer模型总框架中的多头注意力层是由h个自注意力层的输出拼接起来,然后用一个降维矩阵将拼接得到的维度较大的矩阵压缩成正常大小,避免后续矩阵操作维度过大导致整个开销较大。公式为MultiHead(Q,K,V)=Concat(Z0,Z1,...,Zh)*Wo,其中Zi=Self-Attention(QWiQ,KWiK,VWiV)。多头注意力层的作用是:从机器学习角度来说,通过学习更多的参数提高了模型的拟合能力,从语言学角度来说,通过不同子空间来表示不同角度的语言学特征(比如某个子空间用来表示依存关系,另一个子空间用来表示指代信息)。在自注意力层中对于每一个输入词向量,使用三个64*64维的可训练矩阵(WK、WQ、WV),分别对输入矩阵做乘法得到三个矩阵K、Q、V,对Q和K进行点积操作,得到输入句子中每个词与其他词之间的打分,通过归一化指数函数(softmax)得到在某个位置编码特定单词时,应该将多少注意力集中于输入句子的其他部分,也就是对其他每个词的权重,使用权重对V进行加权求和,得到带注意力机制的表示Z。公式为Q=XWQ,K=XWK,V=XWV,其中,X是输入矩阵;WK、WQ、WV是可训练矩阵。由于上述自注意力层本质上是计算词与词之间的相互联系,而未对每个词的顺序进行建模,于是在词表示进入编码器之前,使用一个与词嵌入维度一样的位置编码,加在词表示上,再输入编码器以对词序进行建模。本专利技术通过仅建模依存句法树结构而不引入依存关系类型来避免抽取出的依存关系类型的错误传递问题本文档来自技高网
...

【技术保护点】
1.一种基于句法指导的文本命名实体信息识别方法,构建基于句法指导的文本命名实体信息识别模型,模型包括基于Transformer模型的编码层、句法指导自注意力层、表示融合层、条件随机场CRF解码层;仅需建模依存句法树结构而无需引入依存关系类型,通过采用注意力机制,采用抽取准确率高、易于获取词级别的词性信息弥补不引入依存关系类型带来的信息缺失;包括如下步骤:/n1)构建句法指导自注意力层,得到每个文本句子的句法指导的表示;/n基于Transformer模型的编码层用于将输入的句子文本编码为词向量作为词表示;构建的句法指导自注意力层对上一层得到的原词表示进行加权求和,得到句法指导的词表示;构建句法指导自注意力层包括步骤A~G:/nA.获取每个文本句子的依存句法树;/n给定一个文本句子S,S={s

【技术特征摘要】
1.一种基于句法指导的文本命名实体信息识别方法,构建基于句法指导的文本命名实体信息识别模型,模型包括基于Transformer模型的编码层、句法指导自注意力层、表示融合层、条件随机场CRF解码层;仅需建模依存句法树结构而无需引入依存关系类型,通过采用注意力机制,采用抽取准确率高、易于获取词级别的词性信息弥补不引入依存关系类型带来的信息缺失;包括如下步骤:
1)构建句法指导自注意力层,得到每个文本句子的句法指导的表示;
基于Transformer模型的编码层用于将输入的句子文本编码为词向量作为词表示;构建的句法指导自注意力层对上一层得到的原词表示进行加权求和,得到句法指导的词表示;构建句法指导自注意力层包括步骤A~G:
A.获取每个文本句子的依存句法树;
给定一个文本句子S,S={s1,s2,...,si,...,sn},si为文本句子S中的每个词,n为S包含的词的个数;通过预训练好的依存句法解析器得到每个句子的依存句法树,依存句法树中的每个节点即句子中的每个词si;
B.根据依存句法树结构对树中每个节点,计算其祖先节点集合Pi;
C.对于每个词si和它的祖先节点集合Pi,根据如下公式计算遮盖矩阵M:



其中,i和j为句子中第i和第j个词的下标;遮盖矩阵M的含义为:如果M[i,j]=1则表示si是sj的祖先节点;
D.对于Transformer模型中的最后一层编码器中的第i个头,将其输出Zi映射成三个矩阵K′i,Q′i,V′i;
E.将矩阵K′i,Q′i和遮盖矩阵M点乘,得到注意力权重A′i;
F.将矩阵V′i与注意力权重A′i相乘,得到每个头的句法指导的词表示W′i;
G.将每个头的词表示W′i拼接起来,通过一个全连接层并通过GeLU激活函数得到句法指导的表示H′={h′1,h′2,...,h′i,...,h′n},
2)构建表示融合层,根据每个文本句子的句法指导的表示和原词表示,得到文本句子最终句法指导的表示;包括步骤:
H.对句法指导的表示H′={h′1,h′2,...,h′n}和通过基于Transformer模型的编码层得到的原词表示H={h1,h2,...,hn}加权,得到最终句法指导的表示G=(g1,g2,…,gn);其中,gi=αhi+(1-α)h′i;
3)构建条件随机场解码层,对最终的词表示进行解码,得到输入句子中每个词对应的实体类型标签,即模型的输出结果;包括如下步骤:
I.将最终句法指导的表示输入条件随机场CRF中,得到每个词对应的实体标签;
对于H步骤得到的最终句法指导的表示通过接一个全连接层获取每个词对应的实体标签得分
S=softmax(WG+b)
其中,Sij为第j个字符为第i个标签的分数,其中n为输入序列长度,k为标签集合的大小;
将Sij作为条件随机场模型中的发射分数矩阵,对于一条可能的预测标签序列y=(y1,y2,…,yn),通过如下公式计算得到序列的得分:



其中,A为通过梯度...

【专利技术属性】
技术研发人员:夏宇李素建
申请(专利权)人:北京大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1