【技术实现步骤摘要】
一种基于知识嵌入的古文命名实体识别方法
[0001]本专利技术属于语义信息提取
,具体涉及一种基于知识嵌入的古文命名实体识别方法
。
技术介绍
[0002]随着古籍数字化进程不断加快,自动提取古文中的实体信息能让研究者更深入地研究古代历史和文学,对古文学研究具有重要意义
。
目前在古文实体识别中存在汉字信息特征表征不足和边界识别不清问题
。
[0003]命名实体识别
(named entity recognition
,
NER)
是指在文本中识别出具有特定意义的实体,并将其分类成预先定义好的如人名
、
地名
、
机构名
、
时间等实体类型
。
在现如今这个大数据时代,准确快速地从大量无结构或半结构数据中获取关键信息是自然语言处理
(natural language processing
,
NLP)
任务的重要基础
。
命名实体识别任务是自然语言处理的基石,命名实体识别任务还在其他下游任务中扮演着至关重要的角色,如关系抽取
、
知识库构建
、
信息检索和问题回答等
。
[0004]在中文
NER
任务中,面临的主要问题是如何提高中文分词技术以及如何加强对语义信息的提取
。
词的分割性能是中文命名实体识别模型中的关键步骤之一,对最终结果产生深远影响r/>。
为了解决这个问题,研究者们开始将词典和词汇信息整合到字符级别的表示中,并取得了显著的进展
。
古文命名实体识别与中文命名实体识别相似,旨在识别出不同类型的实体,除了面临与中文命名实体识别相同的分词问题以外,古文命名实体识别还需要应对古文本身的繁体字和中文之间的差异
。
如图1所示,古文
NER
任务要识别出古文的人名实体“晉烈公”、“子孝公”和时间实体“六月”等
。
[0005]虽然外部词典在改善分词效果方面发挥了显著作用,但模型的效果严重受到词典质量的影响,同时也忽略了汉字本身所特有的语义信息
。
举例来说,汉字“江”、“海”和“湖”都包含部首“氵”,并且它们都与水相关联,部首信息蕴含了语义信息
。
另外,以汉字“乐”为例,当读作“yue”和“le”时分别表示“音乐”和“快乐”的含义
。
同一个汉字有不同的发音,表达不同的含义,汉字的拼音信息也包含了语义信息,这些语义信息对于模型的学习起到了帮助作用
。
将信息应用到古文命名实体识别中识别出古籍中的实体,对史学和文学以及自然语言处理研究具有重要意义
。
[0006]命名实体识别研究为信息抽取效果评测的重要指标之一
。
根据其历史发展进程,命名实体识别研究主要可以分为三类:基于规则和词典匹配的命名实体识别
、
基于统计机器学习的命名实体识别以及基于深度学习的命名实体识别
。
[0007]中文命名实体识别的发展始于
1995
年,国内对中文命名实体识别的研究最早是
1995
年孙茂松等提出基于统计的方法,可以在中文数据上自动识别出人名实体
。2000
年
ACL
会议上,
ZhangYimin
等提出信息抽取系统,即命名实体识别任务和关系抽取任务,使用记忆学习算法识别实体
。
早期大多使用基于规则和统计的方法,基于规则的命名实体识别系统依赖于人工制定规则
。
[0008]早期的
NER
方法主要运用由语言学专家根据语言知识特性手动创建的规则模板,通过匹配的方式实现命名实体的识别
。
针对不同的数据集,通常需要构造特定的规则
。
这些规则一般基于特定的统计信息
、
标点符号
、
关键字
、
指示词和方向词
、
位置词
、
中心词等特征进行构造
。
大多数基于特定领域的地名词典和句法词汇模式来设计规则
。
之后出现传统机器学习方法,通过监督学习,
NER
被转换为多分类或序列标注任务,数据已经标注好,再经过精心设计的特征就可以用来表示每个训练示例
。
许多机器学习算法在有监督的命名实体识别中应用,包括隐马尔可夫模型
(hidden Markov model
,
HMM)、
决策树
、
最大熵模型
、
支持向量机
(support vector machine
,
SVM)
和条件随机场
(conditional random fields
,
CRF)。
[0009]2006
年
Hinton
等提出深度学习的概念,开启深度学习的应用时代
。
基于深度学习的命名实体识别模型逐渐占据主导地位并取得更优效果
。
与基于特征的方法相比,深度学习方法可以从输入中自动发掘信息以及学习信息的表示
。
深度学习相对于传统机器学习在人工智能领域里更有优势
。Zhang
和
Yang
首先提出了一种
LSTM
模型的变种
(Lattice
‑
LSTM)
模型,
Lattice
‑
LSTM
模型已在各种数据集上取得了不错的结果
。
之后
Gui
等人提出了一个基于词典的图形神经网络
(lexicon
‑
based graph neural network for Chinese NER
,
LGN)
,把中文
NER
当作一个节点分类任务
。Li
等人利用平面晶格结构,以便
Transformer
可以通过位置编码来捕获词信息,由此提出了
FLAT(Chinese NER using flat
‑
lattice transformer)
模型
。FLAT
采用全连接的自注意力机制来模拟序列中的长距离依赖关系
。
[0010]古文命名实体识别技术随着时间在不断发展,相对于中文命名实体识别,古文命名实体识别难度更大,但是近几年对古文命名实体识别的研究也逐渐成为了探索的焦点
。
王东波等人在古代中国医学领域,相关
BERT
古文模型在添加中医领域词向量表达后能取得理想的实验效果,并本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.
一种基于知识嵌入的古文命名实体识别方法,其特征在于,包括如下过程:增加外部词典以及汉字的拆字信息和拼音信息,并充分将文本和知识融合,文本在输入后在词典中进行匹配词查找,然后输入到预训练模型后,与文本对应的汉字知识和拼音知识在分别经过双向长短期记忆网络和卷积神经网络编码,编码后的信息再经过多层感知机融合后解码,得到标签
。2.
如权利要求1所述的基于知识嵌入的古文命名实体识别方法,其特征在于,输入句子序列如公式
(1)
所示:
s
=
{c1,c2,...c
n
} (1)
对于词汇信息的提取,在词典中找到每个字的对应所有词汇,并判断词汇信息属于
BMES
这四个集合中的那个集合,公式如下所示:这四个集合中的那个集合,公式如下所示:这四个集合中的那个集合,公式如下所示:这四个集合中的那个集合,公式如下所示:
L
表示词典,
B
集合为以汉字为开头的所有对应词的集合,
M
集合代表了中间,
E
集合代表了结尾,
S
集合代表了单个实体,当单词集为空,则在空词集添加一个特殊单词“None”;然后计算每个词汇的权重,权重是根据单词在数据中出现的频率得到的,设
Z(W)
表示词典单词
W
在数据中出现的频率,则单词集
S
的加权表示如公式
(6)
所示:所有单词集组合为一个固定维特征向量并加入到每个字符表示中,将四个单词集的表示链接起来,如公式
(7)
所示:
e
S
(B,M,E,S)
=
[v
s
(B)
;
v
s
(M)
;
v
s
(E)
;
v
s
(S)] (7)
得到的每个词汇以及词汇权重分数之后,权重分数和词汇相乘;最后集合以相同的维度加入到汉字中
。3.
如权利要求1所述的基于知识嵌入的古文命名实体识别方法,其特征在于,对古汉语数据集文本进行查找,找到与输入汉字信息对应的拆字信息,拆字知识与输入信息的汉字一一对应,将所有拆字信息都表示为长度为
10
的序列,长度不足的用特殊符号
“‑”
表示;接着将拆字信息作为
BiLSTM
神经网络的输入
Xt
,并带入到如下公式中:
f
t
=
σ
(w
f
[h
t
‑1,
x
t
]+b
f
) (8)i
t
=
σ
(w
i
[h
t
‑1,
x
t
]+b
i
) (9)o
t
=
σ
(w
o
[h
t
‑1,
x
t
]+b
o
) (10)c
t
=
f
t
·
c
t
‑1+i
t
·<...
【专利技术属性】
技术研发人员:孟佳娜,苏文,赵丹丹,许英傲,杨莉斌,于玉海,
申请(专利权)人:大连民族大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。