【技术实现步骤摘要】
一种增强词典知识融入的中文命名实体识别方法
[0001]本专利技术涉及自然语言处理
,尤其涉及一种增强词典知识融入的中文命名实体识别方法
。
技术介绍
[0002]命名实体识别
(named entity recognition,NER)
是自然语言处理
(natural language processing,NLP)
领域中的一项基础任务,该任务旨在定位句子中的实体并将它们分类为预定义的类别
(
如人名
、
地名
、
组织等
)。
命名实体识别是信息抽取
(information extraction,IE)
任务的第一阶段,并且在信息检索
(information retrieval,IR)、
智能问答系统
(question answering system,QA)
以及其它自然语言处理下游任务中发挥重要的作用
.
在具有天然分隔符的语言中
(
如英文,其单词以空格符分隔
)
,命名实体识别通常采用序列标注的方式来解决
。
早期的研究主要采用机器学习的方法,如最大熵模型
(maximum entropy model,MEM)、
隐马尔可夫模型
(hidden markov model,HMM)
以及条件随机场
(conditional random f
【技术保护点】
【技术特征摘要】
1.
一种增强词典知识融入的中文命名实体识别方法,其特征在于,包括以下步骤:
S1、
在输入表示层中,首先将汉字
、
词语以及字词间的关系通过嵌入查找表转换为稠密向量,然后将稠密向量输入到双向门控循环单元中获取汉字的上下文表示;
S2、
在整合层中,利用交叉注意力网络获取每一个汉字的词典表示,构造门控网络自适应融合每一个汉字的上下文信息和其词典表示;
S3、
在解码层中使用双向门控循环单元结合条件随机场为每一个句子中的汉字分配实体标签
。2.
根据权利要求1所述的一种增强词典知识融入的中文命名实体识别方法,其特征在于,步骤
S1
中,所述汉字
、
词语以及字词间的关系通过嵌入查找表转换为稠密向量的计算方法分别为:
x
i
=
e
c
(c
i
)w
k
=
e
w
(w
k
)c
i
为汉字,
w
k
为词语,
r
i,j
为关系表中的每一个元素,
e
c
为汉字嵌入查找表,
e
w
为词语嵌入查找表,
e
r
为字词关系嵌入查找表
。3.
根据权利要求1所述的一种增强词典知识融入的中文命名实体识别方法,其特征在于,所述门控循环单元为:于,所述门控循环单元为:于,所述门控循环单元为:于,所述门控循环单元为:式中,
r
t
,z
t
,h
t
分别为
t
时刻的重置门
、
更新门
、
候选隐状态和隐状态;
σ
和
⊙
分别为
sigmoid
函数和元素层面的矩阵乘积;权重
W、U
以及偏置
b
均为可训练的参数;汉字
c
i
在前向门控循环单元和后向门控循环的单元的隐状态分别表示为:门控循环单元和后向门控循环的单元的隐状态分别表示为:门控循环单元和后向门控循环的单元的隐状态分别表示为:和分别为前一个隐状态和后一个隐状态;之后,每一个汉字的上下文表示被表示为前向隐状态和后向隐状态的连接
4.
根据权利要求1所述的一种增强词典知识融入的中文命名实体识别方法,其特征在于,步骤
S2
中,每一个汉字的词典表示采用以下计算公式:中,每一个汉字的词典表示采用以下计算公式:
式中,
Q
i
为第
i
个汉字的查询向量,
K
j
和
V
j
分别为第
j
个词语的键向量和值向量;
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。