当前位置: 首页 > 专利查询>四川大学专利>正文

一种增强词典知识融入的中文命名实体识别方法技术

技术编号:39587093 阅读:9 留言:0更新日期:2023-12-03 19:38
本发明专利技术公开了一种增强词典知识融入的中文命名实体识别方法,涉及自然语言处理技术领域,在输入表示层中,汉字

【技术实现步骤摘要】
一种增强词典知识融入的中文命名实体识别方法


[0001]本专利技术涉及自然语言处理
,尤其涉及一种增强词典知识融入的中文命名实体识别方法


技术介绍

[0002]命名实体识别
(named entity recognition,NER)
是自然语言处理
(natural language processing,NLP)
领域中的一项基础任务,该任务旨在定位句子中的实体并将它们分类为预定义的类别
(
如人名

地名

组织等
)。
命名实体识别是信息抽取
(information extraction,IE)
任务的第一阶段,并且在信息检索
(information retrieval,IR)、
智能问答系统
(question answering system,QA)
以及其它自然语言处理下游任务中发挥重要的作用
.
在具有天然分隔符的语言中
(
如英文,其单词以空格符分隔
)
,命名实体识别通常采用序列标注的方式来解决

早期的研究主要采用机器学习的方法,如最大熵模型
(maximum entropy model,MEM)、
隐马尔可夫模型
(hidden markov model,HMM)
以及条件随机场
(conditional random field,CRF)


随着深度学习的快速发展,神经网络模型被逐渐应用于命名实体识别任务,如结合长短期记忆
(long short

term memory,LSTM)
网络和卷积神经
(convolutional neural network,CNN)
网络模型

基于注意力网络模型

借助于神经网络强大的学习能力,命名实体识别系统的性能得到了进一步的提升

[0003]在中文语言中,句子中的词语之间没有任何的分隔符并且也缺少显式的形态学标记
.
但是中文语句中的实体就是那些具有特殊意义的词语,因此,缺少词语边界信息这一问题使得中文的命名识别相比于英文命名实体识别是更加困难的
.
为了使中文命名实体识别模型能够感知词语边界信息,一种常用的方法是首先对中文语句采用分词操作来将其转换为词语序列,之后采用基于词语的序列标注方法来预测每一个词语的实体类别

然而,基于词语的方法会因为分词算法产生的错误而对准确识别实体造成消极的影响,并且分词错误传播也在一定程度上限制了实体标注系统的性能,如图1所示,不同的分词结果会使命名实体识别系统产生不同的实体标注结果,也就是说分词算法的准确与否会直接影响中文命名实体识别系统的性能表现

[0004]为了缓解在基于词语的中文命名实体识别系统中的错误传播问题,一些研究方法开始探索在基于汉字的方法中引入词典信息来解决分词操作产生的问题

基于这一方法,
Zhang
等人根据中文词典构造了一种词字格作为模型的输入,之后设计了一种新型的格结构长短期记忆网络来处理这一特殊的输入数据

这一方法利用词典中词语的信息辅助基于汉字的中文实体识别模型并且在不同的基准数据集上取得了当时最优的性能

之后,引入词典的方法引起了广泛的关注,一些学者设计了不同的词典融合方法进一步提升了命名实体识别系统的性能

尽管使汉字融合词典知识的方法使中文命名实体识别不再受限于外部操作的结果,但是这种方式由于需要根据汉字在中文词典中的匹配方式将句子中所有潜在的词语全部作为模型的输入,所以对于模型的学习算法提出了非常高的要求

具体来说,一条中文语句中的实体个数是有限的,而与句子匹配的潜在词语是远远多于实体个数的,因
此,模型的学习算法需要从所有的潜在词语中选择有用的词语信息并且降低无关词语的影响

现阶段的主流融合词典知识的方式是依据字词之间的匹配关系来选择不同的策略将词语信息融入到汉字表示中,然而,一条中文语句中的一个汉字所能构成的潜在词语可能有多个,而在这些由潜在词语构成的词典中存在与句子语义信息毫不相关的词语,即“歧义”词语

如图2所示,与汉字“市”相关的词语包括“成都市”和“市长”。
根据句子的语义信息,词语“成都市”应该被识别为地点实体
.
因此,词语“市长”对于汉字“市”的标签识别具有干扰作用

如何解决好“歧义”词语问题并且高效地学习有用的词语信息是中文命名实体识别面临的一项困难且具有挑战性的任务


技术实现思路

[0005]本专利技术的目的在于提供一种增强词典知识融入的中文命名实体识别方法,解决了使模型更好地利用汉字上下文信息并且保持从词典中高效学习词语信息的能力的问题

[0006]为解决上述技术问题,本专利技术提供一种增强词典知识融入的中文命名实体识别方法,包括以下步骤:
[0007]S1、
在输入表示层中,首先将汉字

词语以及字词间的关系通过嵌入查找表转换为稠密向量,然后将稠密向量输入到双向门控循环单元中获取汉字的上下文表示;
[0008]S2、
在整合层中,利用交叉注意力网络获取每一个汉字的词典表示,构造门控网络自适应融合每一个汉字的上下文信息和其词典表示;
[0009]S3、
在解码层中使用双向门控循环单元结合条件随机场为每一个句子中的汉字分配实体标签

[0010]优选的,步骤
S1
中,所述汉字

词语以及字词间的关系通过嵌入查找表转换为稠密向量的计算方法分别为:
[0011]x
i

e
c
(c
i
)
[0012]w
k

e
w
(w
k
)
[0013][0014]c
i
为汉字,
w
k
为词语,
r
i,j
为关系表中的每一个元素,
e
c
为汉字嵌入查找表,
e
w
为词语嵌入查找表,
e
r
为字词关系嵌入查找表

[0015]优选的,所述门控循环单元为:
[0016][0017][0018][0019][0020]式中,
r
t
,z
t
,h
t
分别为
t
时刻的重置门

...

【技术保护点】

【技术特征摘要】
1.
一种增强词典知识融入的中文命名实体识别方法,其特征在于,包括以下步骤:
S1、
在输入表示层中,首先将汉字

词语以及字词间的关系通过嵌入查找表转换为稠密向量,然后将稠密向量输入到双向门控循环单元中获取汉字的上下文表示;
S2、
在整合层中,利用交叉注意力网络获取每一个汉字的词典表示,构造门控网络自适应融合每一个汉字的上下文信息和其词典表示;
S3、
在解码层中使用双向门控循环单元结合条件随机场为每一个句子中的汉字分配实体标签
。2.
根据权利要求1所述的一种增强词典知识融入的中文命名实体识别方法,其特征在于,步骤
S1
中,所述汉字

词语以及字词间的关系通过嵌入查找表转换为稠密向量的计算方法分别为:
x
i

e
c
(c
i
)w
k

e
w
(w
k
)c
i
为汉字,
w
k
为词语,
r
i,j
为关系表中的每一个元素,
e
c
为汉字嵌入查找表,
e
w
为词语嵌入查找表,
e
r
为字词关系嵌入查找表
。3.
根据权利要求1所述的一种增强词典知识融入的中文命名实体识别方法,其特征在于,所述门控循环单元为:于,所述门控循环单元为:于,所述门控循环单元为:于,所述门控循环单元为:式中,
r
t
,z
t
,h
t
分别为
t
时刻的重置门

更新门

候选隐状态和隐状态;
σ


分别为
sigmoid
函数和元素层面的矩阵乘积;权重
W、U
以及偏置
b
均为可训练的参数;汉字
c
i
在前向门控循环单元和后向门控循环的单元的隐状态分别表示为:门控循环单元和后向门控循环的单元的隐状态分别表示为:门控循环单元和后向门控循环的单元的隐状态分别表示为:和分别为前一个隐状态和后一个隐状态;之后,每一个汉字的上下文表示被表示为前向隐状态和后向隐状态的连接
4.
根据权利要求1所述的一种增强词典知识融入的中文命名实体识别方法,其特征在于,步骤
S2
中,每一个汉字的词典表示采用以下计算公式:中,每一个汉字的词典表示采用以下计算公式:
式中,
Q
i
为第
i
个汉字的查询向量,
K
j

V
j
分别为第
j
个词语的键向量和值向量;
...

【专利技术属性】
技术研发人员:琚生根赵振宇朱静静夏欣
申请(专利权)人:四川大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1