System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于预训练模型的中文命名实体识别方法技术_技高网
当前位置: 首页 > 专利查询>河海大学专利>正文

一种基于预训练模型的中文命名实体识别方法技术

技术编号:44781614 阅读:5 留言:0更新日期:2025-03-28 19:38
本发明专利技术公开一种基于预训练模型的中文命名实体识别方法,用于知识图谱半自动化构建任务。该方法基于预训练模型BERT,先对输入文本字符token构建Trie结构得到[字符‑词语]对序列,将标注好的训练集输入BERT进行编码;在BERT内部Transformer层引入Lexicon Adapter结构,融合候选词汇向量与BERT内部隐藏状态;将融合后的文本特征输入eLSTM网络挖掘上下文关系,再将其输入CRF层实现实体标签输出。本发明专利技术通过改进字词信息特征融合计算方法,采用交互注意力捕获更多非线性信息,引入eLSTM网络捕获上下文特征,能够有效提升命名实体识别模型的性能。

【技术实现步骤摘要】

本专利技术属于人工智能中自然语言处理知识图谱构建,具体涉及一种基于预训练模型的中文命名实体识别方法


技术介绍

1、针对电力业务中营销线上对外合作渠道分布广,业务渠道合规性无法控制的问题,需要通过梳理和研究国家、地方及个人相关的数据安全法律法规及政策,掌握营销线上合作全渠道业务数据开放合规性需求研究基于知识推理对相关法规、专家知识半自动化地构建安全法规知识图谱。

2、其中,命名实体识别属于半自动化构建知识图谱中信息抽取环节最为关键的任务。从早期的基于字典和基于规则的方法,再到后来的传统机器学习算法hmm、svm等,都存在着识别精度低,应用范围局限等缺点。而基于深度学习的命名实体识别方法研究成为了该领域研究热点。

3、基于大语言模型的研究是如今自然语言处理技术的前沿方向。gpt、bert等模型通过在大规模文本数据上进行预训练,学习了丰富的语言表示,使其能够在各种语言任务上表现出色。针对命名实体识别,目前已有基础的bert模型和更大规模的roberta模型,以及针对全词掩码任务的bert-wwm以及roberta-wwm,并且也诞生了如albert等模型变体。这些预训练语言模型已被广泛应用在命名实体识别任务当中,取得了较好的效果。

4、然而,现有的这些方法却存在如下问题:1)缺乏对于文本特征进一步的发掘利用,中文命名实体识别任务的局部词汇信息与语法特征没有有效利用;2)大型语言模型一些变体在实际模型训练中载入的参数量过大,对于运算资源的需求量巨大;3)没有对全局上下文关系进行进一步的建模。


技术实现思路

1、专利技术目的:本专利技术提出一种基于预训练模型的中文命名实体识别方法.

2、技术方案:本专利技术提出的基于预训练模型的中文命名实体识别方法,包括以下步骤:

3、(1)根据词典构建一个trie词典树结构,然后遍历文本数据句子中所有字符子序列,匹配字典得到所有潜在的单词,然后将单词分配给其包含的每个字,得到[字符-词语]对序列;

4、(2)将训练集输入到bert预训练模型当中,基于步骤(1)中得到的trie词典树结构进行[字符-词语]对匹配输入文本中的每一个字符token,再通过字词信息匹配器lexiconadapter连接到bert的内部进行[字符-词语]进行字符隐藏状态与词汇特征融合,再输入到后续的transformer层中;

5、(3)经过步骤(2)的操作后,将bert输出的文本嵌入输入到elstm层中以进一步建模捕获上下文信息,之后再输入crf层中实现实体序列标注任务和解码过程,构建完成融合词汇信息的基于预训练模型的中文命名实体识别模型

6、(4)在数据集上对基于训练模型的中文实体识别模型进行训练。

7、针对通过词典构建字典树进行自此映射功能,从而形成[字符-词语]对序列,所述步骤(1)应包含以下步骤:

8、(11)给定一个中文词典d进行trie词典树的构建,遍历该树的节点,与一个字符长度为n的中文句子sc={c1,c2,...,cn}进行匹配,找出序列中包含这些字符的词语;

9、(12)然后,将这些匹配的词语分配给其所包含的字符,将每个字符与指定的词语配对,并将中文句子sc转换为[字符-词语]对序列,即scw={(c1,ws1),(c2,ws2),...,(cn,wsn)},ci代表第i个字符,wsi代表第i个字符所匹配的词语。

10、词典树构建完成后,将文本输入bert模型中以获得文本的隐藏状态向量,将其通过字词信息匹配器lexicon adapter与候选词进行特征融合,所述步骤(2)应包含以下步骤:

11、(21)训练集的语句在输入bert预训练模型后,在bert的第1层transformer输出得到每个字符token所对应的隐藏状态向量其对应的[字符-词语]对序列表示为字词信息匹配器lexicon adapter接受输入中的第j个词语表示如下:

12、

13、其中,ew是预训练的词嵌入查找表,wij是步骤(22)中wsi的第j个词语;

14、(22)通过设置非线性变换,将的词向量维度与字符隐藏状态向量的维度大小对齐,得到对齐后的词语向量

15、

16、其中两组线性层w1∈(dc×dw),w2∈(dc×dc),b1和b2为对应的线性层的偏置,dw为与训练词向量的维度大小,dc为bert内部字符隐藏状态的维度大小;

17、(23)对于每个字符,设置匹配m个候选词,则有候选词向量序列针对原有的双线性变换注意力计算策略,设计了一种输入字词信息匹配器lexicon adapter两组向量的进行交互注意力分数的方法:

18、

19、k=xi.wk

20、v=xi.wv

21、ai=softmax(qkt)

22、其中wq∈(dc×dc)),wk∈(dc×dc)),wv∈(dc×dc))是可学习的注意力权重矩阵,ai表示第i个输入字符所匹配的m个候选词语的注意力分数,因此m个候选词的加权和可表示为:

23、

24、通过残差连接的方式进行字符隐藏状态与候选词向量加权值的融合:

25、

26、最后,通过一层dropout层和一层归一化层处理,然后输入到bert内部后续的transformer层中:

27、g=ln(hl-1+mhattn(hl-1))

28、hl=ln(g+ffn(g))

29、hl-1表示第i-1层输出的隐藏状态,ln表示层归一化,mhattn表示多头注意力机制,g是多头注意力模块归一化后的输出的向量,ffn表示前馈神经网络。

30、通过步骤(2)进行词汇信息整合到bert内部网络后,输出的文本嵌入需要通过深度神经网络进行进一步的上下文特征挖掘,再进行实体标注和解码的过程,所述步骤(3)应包含以下步骤:

31、(31)获得词汇特征融合后bert输出的文本隐藏状态代表步骤(21)中输入中文句子中字符ci的上下文语义特征表示。将输入到一个双向的elstm网络中,elstm的单元结构为:

32、ct=ftct-1+itzt

33、nt=ftnt-1+it

34、

35、ct表示细胞状态的更新,nt表示归一化细胞状态,ht表示隐藏状态,zt表示细胞输入,it,ft,ot分别表示输入门,遗忘门和输出门,表示各项的预激活值计算,w和r表示权重矩阵,xt表示当前时间步的输入。捕捉语句在双向隐藏的语义特征信息:即得到前向的elstm单元输出的隐藏状态后向的elstm单元得到的输出表示为然后通过拼接的方式得到最终的隐藏状态

36、(32)通过利用crf层用于建模标记序列间的依赖关系,给定elstm网络输出的最后一层隐藏状h={h1,h2,…,hn},首先计算发射分数p:

...

【技术保护点】

1.基于预训练模型的中文命名实体识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于预训练模型的中文命名实体识别方法,其特征在于,所述步骤(1)应包含以下步骤:

3.根据权利要求1所述的基于预训练模型的中文命名实体识别方法,其特征在于,所述步骤(2)应包含以下步骤:

4.根据权利要求1所述的基于预训练模型的中文命名实体识别方法,其特征在于,通过步骤(2)进行词汇信息整合到BERT内部网络后,输出的文本嵌入需要通过深度神经网络进行进一步的上下文特征挖掘,再进行实体标注和解码的过程,所述步骤(3)应包含以下步骤:

【技术特征摘要】

1.基于预训练模型的中文命名实体识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于预训练模型的中文命名实体识别方法,其特征在于,所述步骤(1)应包含以下步骤:

3.根据权利要求1所述的基于预训练模型的中文命名实体识别方法,其特征在于,所述步骤...

【专利技术属性】
技术研发人员:曹宁康世云
申请(专利权)人:河海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1