一种中文实体识别方法、装置及存储介质制造方法及图纸

技术编号:37147727 阅读:13 留言:0更新日期:2023-04-06 22:00
本申请公开了一种中文实体识别方法、装置及存储介质,其中该方法,包括:获取待识别文本以及预设的字典中与所述待识别文本相匹配的匹配词;将所述待识别文本和所述匹配词输入预训练好的编码网络,输出文本向量;将所述文本向量输入预训练好的线性网络,输出中文实体在所述待识别文本中的首位置和尾位置;基于所述首位置和所述尾位置,从所述待识别文本中提取出各个中文实体。出各个中文实体。出各个中文实体。

【技术实现步骤摘要】
一种中文实体识别方法、装置及存储介质


[0001]本申请涉及实体识别
,特别是涉及一种中文实体识别方法、装置及存储介质。

技术介绍

[0002]命名实体识别(Named Entity Recognition,NER)是NLP中一项非常基础的任务。NER是信息提取、问答系统、句法分析、机器翻译等众多NLP任务的重要基础工具。
[0003]NER是一种序列标注问题,因此他们的数据标注方式也遵照序列标注问题的方式,主要是BIO和BIOES两种。NER的过程,就是根据输入的句子,预测出其标注序列的过程。FLAT是其中一种实体识别模型。FLAT模型的输入为原始token序列和从字典内匹配到的词拼接在一起,并且还为每一个token(字符或词汇)设计两种位置索引,根据这两种位置索引就可以还原出在字典中被匹配到的词在输入文本中的位置,其缺陷是会存在嵌套实体问题(实体重叠问题),如《叶圣陶散文选集》中会出现两个实体「叶圣陶」和「叶圣陶散文选集」分别代表「作者」和「作品」两个实体。
[0004]针对上述的现有技术中存在的由于实体中存在嵌套实体现象,导致中文实体识别的准确率低的技术问题。

技术实现思路

[0005]本专利技术的实施例提供了一种中文实体识别方法、装置及存储介质,以至少解决现有技术中存在的由于实体中存在嵌套实体现象,导致中文实体识别的准确率低的技术问题。
[0006]根据本专利技术实施例的一个方面,提供了一种中文实体识别方法,包括:获取待识别文本以及预设的字典中与所述待识别文本相匹配的匹配词;将所述待识别文本和所述匹配词输入预训练好的编码网络,输出文本向量;将所述文本向量输入预训练好的线性网络,输出中文实体在所述待识别文本中的首位置和尾位置;基于所述首位置和所述尾位置,从所述待识别文本中提取出各个中文实体。
[0007]可选地,将所述待识别文本和所述匹配词输入预训练好的编码网络之前,还包括:将与待识别文本对应的原始token序列和被匹配到的匹配词进行拼接,得到输入tokens;为所述输入tokens中的每一个token构建一个头部位置编码和一个尾部位置编码。
[0008]可选地,将所述待识别文本和所述匹配词输入预训练好的编码网络,输出文本向量,包括:将所述输入tokens输入所述编码网络的嵌入层,得到输入嵌入向量;将所述输入嵌入向量、每一个token对应的头部位置编码和尾部位置编码输入所述编码网络的自注意力网络层,输出每一个token的注意力分数;将所述输入嵌入向量和每一个token的注意力分数输入所述编码网络的循环神经网络的编码器,并将所述编码器的输出向量确定为所述文本向量。
[0009]可选地,所述线性网络采用两个sigmoid函数的标注方式来分别标注中文实体在
所述待识别文本中的首位置和尾位置。
[0010]根据本专利技术实施例的另一个方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时由处理器执行以上任意一项所述的方法。
[0011]根据本专利技术实施例的另一个方面,还提供了一种中文实体识别装置,包括:获取模块,用于获取待识别文本以及预设的字典中与所述待识别文本相匹配的匹配词;编码模块,用于将所述待识别文本和所述匹配词输入预训练好的编码网络,输出文本向量;首尾位置标注模块,用于将所述文本向量输入预训练好的线性网络,输出中文实体在所述待识别文本中的首位置和尾位置;实体提取模块,用于基于所述首位置和所述尾位置,从所述待识别文本中提取出各个中文实体。
[0012]可选地,装置还包括拼接及构建模块,用于:将与待识别文本对应的原始token序列和被匹配到的匹配词进行拼接,得到输入tokens;为所述输入tokens中的每一个token构建一个头部位置编码和一个尾部位置编码。
[0013]可选地,编码模块,具体用于:将所述输入tokens输入所述编码网络的嵌入层,得到输入嵌入向量;将所述输入嵌入向量、每一个token对应的头部位置编码和尾部位置编码输入所述编码网络的自注意力网络层,输出每一个token的注意力分数;将所述输入嵌入向量和每一个token的注意力分数输入所述编码网络的循环神经网络的编码器,并将所述编码器的输出向量确定为所述文本向量。
[0014]可选地,所述线性网络采用两个sigmoid函数的标注方式来分别标注中文实体在所述待识别文本中的首位置和尾位置。
[0015]根据本专利技术实施例的另一个方面,还提供了一种中文实体识别装置,包括:处理器;以及存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:获取待识别文本以及预设的字典中与所述待识别文本相匹配的匹配词;将所述待识别文本和所述匹配词输入预训练好的编码网络,输出文本向量;将所述文本向量输入预训练好的线性网络,输出中文实体在所述待识别文本中的首位置和尾位置;基于所述首位置和所述尾位置,从所述待识别文本中提取出各个中文实体。
[0016]在本专利技术实施例中,获取待识别文本以及预设的字典中与所述待识别文本相匹配的匹配词,将所述待识别文本和所述匹配词输入预训练好的编码网络,输出文本向量,然后将所述文本向量输入预训练好的线性网络,输出中文实体在所述待识别文本中的首位置和尾位置,从而基于所述首位置和所述尾位置,从所述待识别文本中提取出各个中文实体。本专利技术通过预训练好的线性网络来预测中文实体在待识别文本中的首位置和尾位置,使得能够根据预测得到的首位置和尾位置,准确地从待识别文本中提取出各个中文实体,从而解决了实体中存在嵌套实体问题,提高了中文实体识别的准确率。
附图说明
[0017]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:
[0018]图1是用于实现根据本专利技术实施例1所述的方法的计算设备的硬件结构框图;
[0019]图2是根据本专利技术实施例1的第一个方面所述的中文实体识别方法的流程示意图;
[0020]图3是根据本专利技术实施例1所述的中文实体识别方法的框架示意图;
[0021]图4是根据本专利技术实施例2所述的中文实体识别装置的示意图;以及
[0022]图5是根据本专利技术实施例3所述的中文实体识别装置的示意图。
具体实施方式
[0023]为了使本
的人员更好地理解本专利技术的技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。
[0024]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种中文实体识别方法,其特征在于,包括:获取待识别文本以及预设的字典中与所述待识别文本相匹配的匹配词;将所述待识别文本和所述匹配词输入预训练好的编码网络,输出文本向量;将所述文本向量输入预训练好的线性网络,输出中文实体在所述待识别文本中的首位置和尾位置;基于所述首位置和所述尾位置,从所述待识别文本中提取出各个中文实体。2.根据权利要求1所述的方法,其特征在于,将所述待识别文本和所述匹配词输入预训练好的编码网络之前,还包括:将与待识别文本对应的原始token序列和被匹配到的匹配词进行拼接,得到输入tokens;为所述输入tokens中的每一个token构建一个头部位置编码和一个尾部位置编码。3.根据权利要求2所述的方法,其特征在于,将所述待识别文本和所述匹配词输入预训练好的编码网络,输出文本向量,包括:将所述输入tokens输入所述编码网络的嵌入层,得到输入嵌入向量;将所述输入嵌入向量、每一个token对应的头部位置编码和尾部位置编码输入所述编码网络的自注意力网络层,输出每一个token的注意力分数;将所述输入嵌入向量和每一个token的注意力分数输入所述编码网络的循环神经网络的编码器,并将所述编码器的输出向量确定为所述文本向量。4.根据权利要求1所述的方法,其特征在于,所述线性网络采用两个sigmoid函数的标注方式来分别标注中文实体在所述待识别文本中的首位置和尾位置。5.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时由处理器执行权利要求1至4中任意一项所述的方法。6.一种中文实体识别装置,其特征在于,包括:获取模块,用于获取待识别文本以及预设的字典中与所述待识别文本相匹配的匹配词;编码模块,用于将所述待识...

【专利技术属性】
技术研发人员:陈赞军蒋宁周长安
申请(专利权)人:北京有限元科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1