实体识别方法、装置及计算机可读存储介质制造方法及图纸

技术编号:31449093 阅读:20 留言:0更新日期:2021-12-18 11:11
本发明专利技术提供了一种实体识别方法、装置及计算机可读存储介质。本发明专利技术提供的实体识别方法,包括:获取待识别的文本;利用预先训练的语言模型将所述待识别的文本转换为词向量;将所述词向量输入预先训练的融入句法依赖信息的图注意力模型中,得到实体边界信息;根据所述实体边界信息确定所述待识别的文本的里层实体和外层实体;利用预先训练的实体类型分类模型识别所述里层实体和所述外层实体的类型。本发明专利技术的技术方案能够提高实体识别的精度和准确率,增大实体识别应用的范围。增大实体识别应用的范围。增大实体识别应用的范围。

【技术实现步骤摘要】
实体识别方法、装置及计算机可读存储介质


[0001]本专利技术涉及自然语言处理
,具体涉及一种实体识别方法、装置及计算机可读存储介质。

技术介绍

[0002]随着计算机的普及以及互联网的迅猛发展,大量的信息以电子文档的形式出现在人们面前。为了应对信息爆炸带来的严峻挑战,迫切需要专业的自动化工具从海量的数据中提取真正有价值的信息,信息抽取应运而生。命名实体指的是文本中表示人名、地名和组织名的专有名词,作为文本中重要的语义知识载体,命名实体识别在信息抽取中扮演重要角色,可以对文本中表示命名实体的专有名词进行精确识别和分类,进一步地为自动问答、意见挖掘、语义分析等众多自然语言处理任务提供重要的语义支撑。
[0003]命名实体是以连续字符的表现形式存在。不可避免地,命名实体存在嵌套现象,即在一个命名实体内部,存在着多个具有嵌套结构的实体,如“中华人民共和国科技部”中存在的“中华人民共和国科技部”、“中华人民共和国”以及“科技部”三个命名实体。由嵌套结构产生的不同实体往往富含不同的语义信息,为保证原始文本语义的完整性,对多层嵌套的每一个实体进行有效的识别和分类是必要的。
[0004]相关技术中,识别嵌套命名实体的识别效果较差,准确率较低。

技术实现思路

[0005]本专利技术实施例要解决的技术问题是提供一种实体识别方法、装置及计算机可读存储介质,能够提高实体识别的精度和准确率,增大实体识别应用的范围。
[0006]根据本专利技术实施例的一个方面,提供了一种实体识别方法,包括:/>[0007]获取待识别的文本;
[0008]利用预先训练的语言模型将所述待识别的文本转换为词向量;
[0009]将所述词向量输入预先训练的融入句法依赖信息的图注意力模型中,得到实体边界信息;
[0010]根据所述实体边界信息确定所述待识别的文本的里层实体和外层实体;
[0011]利用预先训练的实体类型分类模型识别所述里层实体和所述外层实体的类型。
[0012]此外,根据本专利技术的至少一个实施例,所述语言模型采用来自变换器的双向编码器表征量BERT模型。
[0013]此外,根据本专利技术的至少一个实施例,所述方法还包括训练得到融入句法依赖信息的图注意力模型的步骤,所述训练得到融入句法依赖信息的图注意力模型的步骤包括:
[0014]建立初始图注意力模型;
[0015]获取第一训练样本数据,所述第一训练样本数据包括第一输入数据和第一答案数据,所述第一输入数据包括文本和所述文本的句法依赖信息,所述第一答案数据包括所述文本的实体边界信息;
[0016]利用所述第一训练样本数据对所述初始图注意力模型进行训练,得到所述融入句法依赖信息的图注意力模型。
[0017]此外,根据本专利技术的至少一个实施例,所述实体边界信息包括以下至少一项:
[0018]实体的起始字和结束字;
[0019]文本中相邻的两个单词的标签是否连续。
[0020]此外,根据本专利技术的至少一个实施例,所述方法还包括训练得到实体类型分类模型的步骤,所述训练得到实体类型分类模型的步骤包括:
[0021]建立初始实体类型分类模型;
[0022]获取第二训练样本数据,所述第二训练样本数据包括第二输入数据和第二答案数据,所述第二输入数据包括命名实体,所述第二答案数据包括实体类型;
[0023]利用所述第二训练样本数据对所述初始实体类型分类模型进行训练,得到所述实体类型分类模型。
[0024]此外,根据本专利技术的至少一个实施例,所述训练得到实体类型分类模型的步骤中,利用所述第二答案数据、实体边界识别子任务和实体类型识别子任务的联合损失函数对所述初始实体类型分类模型进行训练。
[0025]此外,根据本专利技术的至少一个实施例,所述利用预先训练的实体类型分类模型识别所述里层实体和所述外层实体的类型包括:
[0026]对于每一里层实体,将所述里层实体的词向量与t维的零向量连接,得到第一连接向量,t为正整数;
[0027]对至少一个所述第一连接向量计算向量平均值得到第一向量平均值;
[0028]对至少一个所述里层实体的词向量计算向量平均值得到第二向量平均值;
[0029]将所述第一向量平均值输入所述实体类型分类模型,得到所述里层实体的实体类型向量;
[0030]将所述外层实体的词向量与t维的里层实体的实体类型向量连接,得到第二连接向量;
[0031]对所述第二连接向量和所述第二向量平均值计算向量平均值得到第三向量平均值;
[0032]将所述第三向量平均值输入所述实体类型分类模型,得到所述外层实体的实体类型向量。
[0033]此外,根据本专利技术的至少一个实施例,所述实体类型分类模型使用集束搜索。
[0034]根据本专利技术实施例的另一方面,提供了一种实体识别装置,包括:
[0035]获取单元,用于获取待识别的文本;
[0036]词向量转换单元,用于利用预先训练的语言模型将所述待识别的文本转换为词向量;
[0037]实体边界信息获取单元,用于将所述词向量输入预先训练的融入句法依赖信息的图注意力模型中,得到实体边界信息;
[0038]处理单元,用于根据所述实体边界信息确定所述待识别的文本的里层实体和外层实体;
[0039]识别单元,用于利用预先训练的实体类型分类模型识别所述里层实体和所述外层
实体的类型。
[0040]此外,根据本专利技术的至少一个实施例,所述装置还包括第一训练单元,所述第一训练单元包括:
[0041]第一建立子单元,用于建立初始图注意力模型;
[0042]第一获取子单元,用于获取第一训练样本数据,所述第一训练样本数据包括第一输入数据和第一答案数据,所述第一输入数据包括文本和所述文本的句法依赖信息,所述第一答案数据包括所述文本的实体边界信息;
[0043]第一训练子单元,用于利用所述第一训练样本数据对所述初始图注意力模型进行训练,得到所述融入句法依赖信息的图注意力模型。
[0044]此外,根据本专利技术的至少一个实施例,所述装置还包括第二训练单元,所述第二训练单元包括:
[0045]第二建立子单元,用于建立初始实体类型分类模型;
[0046]第二获取子单元,用于获取第二训练样本数据,所述第二训练样本数据包括第二输入数据和第二答案数据,所述第二输入数据包括命名实体,所述第二答案数据包括实体类型;
[0047]第二训练子单元,用于利用所述第二训练样本数据对所述初始实体类型分类模型进行训练,得到所述实体类型分类模型。
[0048]此外,根据本专利技术的至少一个实施例,所述识别单元包括:
[0049]第一连接子单元,用于对于每一里层实体,将所述里层实体的词向量与t维的零向量连接,得到第一连接向量,t为正整数;
[0050]第一计算子单元,用于对至少一个所述第一连接向量计算向量平均值得到第一向量平均值本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种实体识别方法,其特征在于,包括:获取待识别的文本;利用预先训练的语言模型将所述待识别的文本转换为词向量;将所述词向量输入预先训练的融入句法依赖信息的图注意力模型中,得到实体边界信息;根据所述实体边界信息确定所述待识别的文本的里层实体和外层实体;利用预先训练的实体类型分类模型识别所述里层实体和所述外层实体的类型。2.根据权利要求1所述的实体识别方法,其特征在于,所述语言模型采用来自变换器的双向编码器表征量BERT模型。3.根据权利要求1所述的实体识别方法,其特征在于,所述方法还包括训练得到融入句法依赖信息的图注意力模型的步骤,所述训练得到融入句法依赖信息的图注意力模型的步骤包括:建立初始图注意力模型;获取第一训练样本数据,所述第一训练样本数据包括第一输入数据和第一答案数据,所述第一输入数据包括文本和所述文本的句法依赖信息,所述第一答案数据包括所述文本的实体边界信息;利用所述第一训练样本数据对所述初始图注意力模型进行训练,得到所述融入句法依赖信息的图注意力模型。4.根据权利要求1所述的实体识别方法,其特征在于,所述实体边界信息包括以下至少一项:实体的起始字和结束字;文本中相邻的两个单词的标签是否连续。5.根据权利要求1所述的实体识别方法,其特征在于,所述方法还包括训练得到实体类型分类模型的步骤,所述训练得到实体类型分类模型的步骤包括:建立初始实体类型分类模型;获取第二训练样本数据,所述第二训练样本数据包括第二输入数据和第二答案数据,所述第二输入数据包括命名实体,所述第二答案数据包括实体类型;利用所述第二训练样本数据对所述初始实体类型分类模型进行训练,得到所述实体类型分类模型。6.根据权利要求5所述的实体识别方法,其特征在于,所述训练得到实体类型分类模型的步骤中,利用所述第二答案数据、实体边界识别子任务和实体类型识别子任务的联合损失函数对所述初始实体类型分类模型进行训练。7.根据权利要求5所述的实体识别方法,其特征在于,所述利用预先训练的实体类型分类模型识别所述里层实体和所述外层实体的类型包括:对于每一里层实体,将所述里层实体的词向量与t维的零向量连接,得到第一连接向量,t为正整数;对至少一个所述第一连接向量计算向量平均值得到第一向量平均值;对至少一个所述里层实体的词向量计算向量平均值得到第二向量平均值;将所述第一向量平均值输入所述实体类型分类模型,得到所述里层实体的实体类型向
量;将所述外层实体的词向量与t维的里层实体的实体类型向量连接,得到第二连接向量;对所述第二连接向量和所述第二向量平均值计算向量平均值得到第三向量平均值;将所述第三向量平均值输入所述实体类型分类模型,得到所述外层实体的实体类型向量...

【专利技术属性】
技术研发人员:廖澍锴丁磊张佳师姜珊珊张永伟
申请(专利权)人:株式会社理光
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1