一种中文文旅类的命名实体识别方法技术

技术编号:38502781 阅读:21 留言:0更新日期:2023-08-15 17:10
本发明专利技术公开了一种中文文旅类的命名实体识别方法,包括以下步骤:S1、获取中文文旅类文本数据,并将其输入至字符嵌入层,得到字符向量表示;S2、将字符向量表示输入至双向长短期记忆网络层,得到上下文表示;S3、将上下文表示输入至CNN层,得到多尺度的局部上下文特征融合表示;S4、将多尺度的局部上下文特征融合表示输入至CRF层,通过CRF层进行序列标注,完成中文文旅类的命名实体识别。本发明专利技术考虑到对中文旅游类的命名实体识别研究的关注度较少的问题,针对于中文的文旅类文本数据进行网络搭建,在CNN层利用第二CNN模块学习多尺度的局部上下文特征融合表示,加强语义之间的相关性,提高有利于中文识别的特征表示。提高有利于中文识别的特征表示。提高有利于中文识别的特征表示。

【技术实现步骤摘要】
一种中文文旅类的命名实体识别方法


[0001]本专利技术属于信息提取
,具体涉及一种中文文旅类的命名实体识别方法。

技术介绍

[0002]命名实体识别(NER)是一项基本的信息提取任务,在自然语言处理(NLP)中能应用于许多下游任务,如信息抽取、社交媒体分析、搜素引擎、机器翻译、知识图谱。NER的目标是从句子中提取一些预定义的特定实体,并识别它们的正确类型,如人、地点、组织。早期的命名实体识别分为两类:基于规则的方法和基于统计的方法。随着深度学习的日渐强大,NER的研究取得了非常大的进步。涉及的领域多种多样:如医疗领域、金融领域、新闻领域等。但文旅类的命名实体识别的研究非常的稀缺,文旅类的命名实体识别的研究却没有受到关注。
[0003]根据语言之间的差异,关于特定语言的NER方法的研究也很多,如英语、阿拉伯语、印度语和其他语言,许多研究者主要集中于英文NER的研究。但中文身为一个重要的国际通用语言,在与英文相比,中文有它自己本身的特点,但对于中文NER的研究却相对英文NER来说却少很多,而且很多关于中文NER的研究都没有根据中文的特点做出针对性的研究。

技术实现思路

[0004]针对现有技术中的上述不足,本专利技术提供的一种中文文旅类的命名实体识别方法解决了目前的命名实体识别研究对中文文旅类的关注度较少的问题。
[0005]为了达到上述专利技术目的,本专利技术采用的技术方案为:一种中文文旅类的命名实体识别方法,包括以下步骤:
[0006]S1、获取中文文旅类文本数据,并将其输入至字符嵌入层,得到字符向量表示;
[0007]S2、将字符向量表示输入至双向长短期记忆网络层,得到上下文表示;
[0008]S3、将上下文表示输入至CNN层,得到多尺度的局部上下文特征融合表示;
[0009]S4、将多尺度的局部上下文特征融合表示输入至CRF层,通过CRF层进行序列标注,完成中文文旅类的命名实体识别。
[0010]进一步地:所述S1中,字符嵌入层包括并行的ChineseBert模块和第一CNN模块;
[0011]所述S1包括以下分步骤:
[0012]S11、获取中文文旅类文本数据;
[0013]S12、将中文文旅类文本数据输入至ChineseBert模块,得到中文文旅类文本数据中每个字的字嵌入向量表示;
[0014]S13、将中文文旅类文本数据输入至第一CNN模块,得到部首级嵌入表示;
[0015]S14、将字嵌入向量表示与部首级嵌入表示进行拼接,得到字符向量表示。
[0016]进一步地:所述S12具体为:
[0017]将中文文旅类文本数据输入至ChineseBert模块,通过ChineseBert模块对输入的中文文旅类文本数据进行编码表示,得到特征向量,根据特征向量生成中文文旅类文本数
据中每个字的字嵌入向量表示;
[0018]其中,所述特征向量包括标记嵌入、位置嵌入和分段嵌入。
[0019]进一步地:所述S13中,得到部首级嵌入表示M2的表达式具体为:
[0020]M2=A1(b1+C1(x))
[0021]式中,x为汉字部首级特征,C1(
·
)为第一CNN模块,A1为第一激活函数,b1为第一CNN模块的偏重。
[0022]进一步地:所述S14中,得到字符向量表示Z
concat
的表达式具体为:
[0023]Z
concat
=M1+M2[0024]式中,M1为字嵌入向量表示。
[0025]上述进一步方案的有益效果为:经过字嵌入向量表示和部首级嵌入表示拼接得到的字符向量表示能够得到更多的语义特征,使得模型更好的识别文本中的中文含义。
[0026]进一步地:所述S2中,双向长短期记忆网络层包括第一~第十二LSTM单元,所述第一~第六LSTM单元正向处理输入的字符向量表示,所述第七~第十二LSTM单元反向处理输入的字符向量表示;
[0027]得到上下文表示的方法具体为:
[0028]根据第一~第十二LSTM单元的输出结果进行拼接,得到上下文表示。进一步地:
[0029]进一步地:所述S2中,得到上下文表示H的表达式具体为:
[0030]H={h1,...,h
ti
,...,h
D
}
[0031]式中,h
ti
为第一~第十二LSTM单元的输出结果进行拼接,ti为拼接的序号,且ti=1,

,D,D为字符向量表示的维度;
[0032]所述第一~第十二LSTM单元均包括输入门i
t
、输出门o
t
和遗忘门f
t
,其表达式具体为下式:
[0033]i
t
=σ(W
xi
x
t
+W
hi
h
t
‑1+W
ci
c
t
‑1+b
i
)
[0034]f
t
=σ(W
xf
x
t
+W
hf
h
t
‑1+W
cf
c
t
‑1+b
f
)
[0035]c
t
=f
t

c
t
‑1+i
t

tanh(W
xc
x
t
+W
hc
h
t
‑1+b
c
)
[0036]o
t
=σ(W
xo
x
t
+W
ho
h
t
‑1+W
co
c
t
+b
o
)
[0037]h
t
=o
t

tanh(c
t
)
[0038]式中,σ(
·
)为逐元的sigmoid函数,tanh(
·
)为双曲切线函数,

为逐元相乘函数,W
xi
、W
hi
、W
ci
、W
xf
、W
hf
、W
cf
、W
xc
、W
hc
、W
xo
、W
ho
和W
co
均为权重参数,b
i
、b
f
、b
c
和b
o
均为偏重参数,c
t
为记忆细胞,h
t
为输出结果。
[0039]进一步地:所述S3中,CN本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种中文文旅类的命名实体识别方法,其特征在于,包括以下步骤:S1、获取中文文旅类文本数据,并将其输入至字符嵌入层,得到字符向量表示;S2、将字符向量表示输入至双向长短期记忆网络层,得到上下文表示;S3、将上下文表示输入至CNN层,得到多尺度的局部上下文特征融合表示;S4、将多尺度的局部上下文特征融合表示输入至CRF层,通过CRF层进行序列标注,完成中文文旅类的命名实体识别。2.根据权利要求1所述的中文文旅类的命名实体识别方法,其特征在于,所述S1中,字符嵌入层包括并行的ChineseBert模块和第一CNN模块;所述S1包括以下分步骤:S11、获取中文文旅类文本数据;S12、将中文文旅类文本数据输入至ChineseBert模块,得到中文文旅类文本数据中每个字的字嵌入向量表示;S13、将中文文旅类文本数据输入至第一CNN模块,得到部首级嵌入表示;S14、将字嵌入向量表示与部首级嵌入表示进行拼接,得到字符向量表示。3.根据权利要求2所述的中文文旅类的命名实体识别方法,其特征在于,所述S12具体为:将中文文旅类文本数据输入至ChineseBert模块,通过ChineseBert模块对输入的中文文旅类文本数据进行编码表示,得到特征向量,根据特征向量生成中文文旅类文本数据中每个字的字嵌入向量表示;其中,所述特征向量包括标记嵌入、位置嵌入和分段嵌入。4.根据权利要求2所述的中文文旅类的命名实体识别方法,其特征在于,所述S13中,得到部首级嵌入表示M2的表达式具体为:M2=A1(b1+C1(x))式中,x为汉字部首级特征,C1(
·
)为第一CNN模块,A1为第一激活函数,b1为第一CNN模块的偏重。5.根据权利要求4所述的中文文旅类的命名实体识别方法,其特征在于,所述S14中,得到字符向量表示Z
concat
的表达式具体为:Z
concat
=M1+M2式中,M1为字嵌入向量表示。6.根据权利要求1所述的中文文旅类的命名实体识别方法,其特征在于,所述S2中,双向长短期记忆网络层包括第一~第十二LSTM单元,所述第一~第六LSTM单元正向处理输入的字符向量表示,所述第七~第十二LSTM单元反向处理输入的字符向量表示;得到上下文表示的方法具体为:根据第一~第十二LSTM单元的输出结果进行拼接,得到上下文表示。7.根据权利要求6所述的中文文旅类的命名实体识别方法,其特征在于,所述S2中,得到上下文表示H的表达式具体为:H={h1,...,h
ti
,...,h
D
}式中,h
ti
为第一~第十二LSTM单元的输出结果进行拼接,ti为拼接的序号,且ti=1,

,D,D为字符向量表示的维度;
所述第一~第十二LSTM单元均包括输入门i
t
、输出门o
t
和遗忘门f...

【专利技术属性】
技术研发人员:秦智杜自豪刘恩洋张仕斌昌燕胡贵强
申请(专利权)人:成都信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1