System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于FLAT的中文命名实体识别方法、存储介质、设备技术_技高网

基于FLAT的中文命名实体识别方法、存储介质、设备技术

技术编号:44185942 阅读:0 留言:0更新日期:2025-02-06 18:27
本发明专利技术公开基于FLAT的中文命名实体识别方法、存储介质、设备,涉及中文命名实体识别技术领域,方法包括:基于FLAT模型,在模型的Transformer编码器中的全局注意力机制的基础上,引入局部窗口注意力机制,构建全局‑局部窗口自注意力机制的改进的Transformer编码器的改进型FLAT模型;将待识别的中文文本输入改进型模型,经过嵌入层,将输入的中文文本转化为嵌入表示,使用改进的编码器对嵌入表示进行编码,生成上下文相关的表示;对上下文相关的表示进行解码,通过改进型模型的条件随机场层进行标签预测,最终输出命名实体识别结果。本发明专利技术的方案可以保证局部上下文信息和长距离依赖关系的有效捕捉。

【技术实现步骤摘要】

本专利技术涉及中文命名实体识别,尤其涉及基于flat的中文命名实体识别方法、存储介质、设备。


技术介绍

1、中文命名实体识别(ner)是自然语言处理中的一个关键任务,旨在识别文本中的命名实体,如人员、地理位置、组织名称、时间和货币等。ner在推荐系统、机器翻译、知识图谱和语义搜索等多个自然语言处理的下游任务中起着重要作用。传统的中文ner任务通常面临词分割错误传播的挑战。

2、早期的命名实体识别方法主要包括基于规则匹配的方法、基于统计机器学习的方法和基于神经网络深度学习的方法。基于规则匹配的方法依赖于手工制作的语义和句法规则来识别实体,不需要带注释的数据。当词典详尽时,基于规则匹配的模型表现得很好,但这种方法的泛化能力差,换到其他特定领域时识别结果会受到很大影响,需要为不同领域构建不同的规则,导致效率不高。基于统计机器学习的方法识别效果依赖于大量的标注语料,这限制了其应用范围的扩展和迁移。随着标注数据的增多,模型的训练成本也会显著增加。基于神经网络深度学习的方法中,字和词对中文ner同样重要,但只基于其中一种进行建模无法充分挖掘语句序列中潜藏的上下文信息。中文字符之间没有空格进行分割,在分词时出现错误会影响识别效果。此外,中文存在一词多义的情况,许多学者使用的word2vec等预训练模型主要关注词或字符之间的特征,没有考虑到词的上下文语境,仍然无法解决一词多义的问题。

3、flat(flat-lattice transformer)模型通过将字符-词格子结构转换为扁平结构,并引入特殊的位置编码,有效地利用了格子信息,并展现了出色的并行计算能力。然而,全局自注意力机制在处理长序列时可能存在计算效率低下的问题,并且可能忽略了局部上下文信息的重要性。虽然flat模型在一定程度上解决了词分割错误传播和长距离依赖建模的问题,但其全局自注意力机制在处理长序列时计算效率低下,并且可能忽略局部上下文信息的重要性。


技术实现思路

1、本专利技术的目的在于:为了解决flat模型全局自注意力机制在处理长序列时计算效率低下,忽略局部上下文信息的问题,提出基于flat的中文命名实体识别方法,包括以下步骤:

2、s1、获取待识别的中文文本;

3、s2、基于flat模型,在flat模型的transformer编码器中的全局注意力机制的基础上,引入局部窗口注意力机制,构建全局-局部窗口自注意力机制的改进的transformer编码器的改进型flat模型;

4、s3、将待识别的中文文本输入改进型flat模型,经过改进型flat模型的嵌入层,将输入的中文文本转化为嵌入表示,使用改进的transformer编码器对嵌入表示进行编码,生成上下文相关的表示;对上下文相关的表示进行解码,通过改进型flat模型的条件随机场层进行标签预测,最终输出命名实体识别结果。

5、进一步地,全局-局部窗口自注意力机制的注意力得分函数表示为:

6、

7、其中,表示全局-局部窗口自注意力机制的注意力得分,α表示权重参数,表示全局注意力得分,表示局部注意力的得分,wq表示查询向量的可学习权重矩阵,wk,e,wk,r分别表示键向量关于词嵌入矩阵和相对位置编码的可学习权重矩阵,e表示词嵌入矩阵,r表示相对位置编码,u、v分别表示可学习的偏置向量,分别表示位置i和j的输入向量,rij表示反映位置i和j之间的相对距离的相对位置编码,w表示窗口范围。

8、进一步地,s3中,将待识别的中文文本输入改进型flat模型,经过改进型flat模型的嵌入层,将输入的中文文本转化为嵌入表示,具体为:

9、将输入的中文文本的嵌入表示转换为字符序列,并结合词汇表生成词格结构;

10、将词格结构转化为平面结构,确定每个字符和词在词格结构中的头尾位置;

11、为每个字符和词分配头尾位置编码,使用相对位置编码方法表示字符和词之间的相对关系。

12、进一步地,相对位置编码表示为:

13、

14、其中,表示第i个词的头部位置和第j个词的头部位置的距离,headi表示第i个词的头部位置,headj表示第j个词的头部位置,表示第i个词的尾部位置和第j个词的尾部位置的距离,taili表示第i个词的尾部位置,tailj表示第j个词的尾部位置,rij表示反映位置i和j之间的相对距离的相对位置编码,wr表示可学习的参数,表示的嵌入向量,表示拼接操作,表示的嵌入向量,表示的嵌入向量;

15、当或为偶数时,嵌入向量表示为:

16、

17、当或为奇数时,嵌入向量表示为:

18、

19、表示当或的位置编码为偶数位置时的嵌入向量,表示当或的位置编码为奇数位置时的嵌入向量,dij表示或k表示位置编码的维度索引,取值0,1,2,...,dmodel=h×dhead,dhead表示每个头部的维度。

20、进一步地,改进的transformer编码器包括全局-局部窗口自注意力机制和前馈神经网络层;前馈神经网络层表示为:

21、ffn(x)=relu(w1x+b1)w2+b2

22、其中,ffn(x)表示输入为x的前馈神经网络层,w1、w2分别表示权重参数,b1、b2分别表示偏置参数,relu表示relu激活函数。

23、进一步地,通过改进型flat模型的条件随机场层进行标签预测,表示为:

24、

25、其中,x表示输入序列,y表示标签序列,表示从标签yi-1转移到标签yi的得分,表示第i行第yi列位置的预测得分。

26、本专利技术还提出一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的基于flat的中文命名实体识别方法。

27、本专利技术还提出一种电子设备,包括处理器和存储器,所述处理器与所述存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括计算机可读指令,所述处理器被配置用于调用所述计算机可读指令,执行上述的基于flat的中文命名实体识别方法。

28、本专利技术提供的技术方案带来的有益效果是:

29、本专利技术提出基于flat的中文命名实体识别方法,在原flat模型的基础上,引入局部窗口注意力机制,将其中transformer编码器中的自注意力机制改进为全局-局部窗口自注意力机制,局部窗口注意力通过限制注意力的作用范围,仅在局部窗口内计算注意力权重,从而大幅降低计算复杂度和资源消耗,提升了计算效率,同时保证了模型对局部上下文信息的有效捕捉。全局注意力机制则用于捕捉长距离依赖关系,确保模型能够理解整体语境信息。两者的结合使模型既能高效处理,又能全面应对长序列文本中的复杂依赖关系。该机制不仅适用于中文命名实体识别任务,还可以推广至文本分类、机器翻译等其他自然语言处理任务。通过增强对局部上下文信息的捕捉能力,模型在泛化性和鲁棒性方面表现更佳。本文档来自技高网...

【技术保护点】

1.基于FLAT的中文命名实体识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于FLAT的中文命名实体识别方法,其特征在于,全局-局部窗口自注意力机制的注意力得分函数表示为:

3.根据权利要求1所述的基于FLAT的中文命名实体识别方法,其特征在于,S3中,将待识别的中文文本输入改进型FLAT模型,经过改进型FLAT模型的嵌入层,将输入的中文文本转化为嵌入表示,具体为:

4.根据权利要求3所述的基于FLAT的中文命名实体识别方法,其特征在于,相对位置编码表示为:

5.根据权利要求2所述的基于FLAT的中文命名实体识别方法,其特征在于,改进的Transformer编码器包括全局-局部窗口自注意力机制和前馈神经网络层;前馈神经网络层表示为:

6.根据权利要求1所述的基于FLAT的中文命名实体识别方法,其特征在于,通过改进型FLAT模型的条件随机场层进行标签预测,表示为:

7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-6任一项所述的方法。

8.一种电子设备,其特征在于,包括处理器和存储器,所述处理器与所述存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括计算机可读指令,所述处理器被配置用于调用所述计算机可读指令,执行如权利要求1-6任一项所述的方法。

...

【技术特征摘要】

1.基于flat的中文命名实体识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于flat的中文命名实体识别方法,其特征在于,全局-局部窗口自注意力机制的注意力得分函数表示为:

3.根据权利要求1所述的基于flat的中文命名实体识别方法,其特征在于,s3中,将待识别的中文文本输入改进型flat模型,经过改进型flat模型的嵌入层,将输入的中文文本转化为嵌入表示,具体为:

4.根据权利要求3所述的基于flat的中文命名实体识别方法,其特征在于,相对位置编码表示为:

5.根据权利要求2所述的基于flat的中文命名实体识别方法,其特征在于,改进的transformer...

【专利技术属性】
技术研发人员:马明杰李振华王倩倩李浩
申请(专利权)人:中国地质大学武汉
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1