命名实体识别方法及装置制造方法及图纸

技术编号:37237307 阅读:23 留言:0更新日期:2023-04-20 23:19
本申请涉及计算机领域,提供一种命名实体识别方法及装置。所述方法包括:根据待识别命名实体所属语料中的日文汉字生成字向量矩阵和双字词向量矩阵;根据语料中日文汉字的偏旁生成偏旁图卷积向量矩阵;根据语料中的日文单词生成潜在词向量矩阵;将第一预输入矩阵、第二预输入矩阵和第三预输入矩阵进行拼接,得到拼接向量矩阵;将拼接向量矩阵输入至晶格网络模型中,得到待识别命名实体的识别结果。本申请提供的命名实体识别方法通过将字向量、偏旁图卷积向量、潜在词向量和双字词向量相结合的方式获取更多的向量特征,并利用日文汉字偏旁推断字词的性质及含义,通过晶格网络模型找到实体边界,避免单词错误切分,从而提升命名实体识别准确率。体识别准确率。体识别准确率。

【技术实现步骤摘要】
命名实体识别方法及装置


[0001]本申请涉及计算机
,具体涉及一种命名实体识别方法及装置。

技术介绍

[0002]命名实体识别在许多下游自然语言处理任务中起着不可或缺的作用。其任务目标主要是从非结构化的文本数据中抽取命名实体并赋予实体正确的标签。命名实体识别的常见标签类别包括,人名、地点、组织、时间、数量、货币以及一些专有名词。命名实体识别作为一项序列标记任务是自然语言处理的基础,包括事件提取、问答、信息检索、知识图构建等。
[0003]对于中文、日文、韩文等语种,均不能像英文文本一样以空格为标识符切分句子添加特征来进行命名实体识别任务,因此这类语言分词主要是通过句子的语义信息来进行区分,从分词阶段就带来了很多困难。对于日文来说,命名实体识别问题可能更加困难,因为它不仅有极具特色的英文外来语,还有许多中文外来汉字,这些日文汉字与中文汉字一样,其所属语料通常涉及分词,传统方式下对日文语料的分词效果不佳,导致日文命名实体识别的准确率较低。

技术实现思路

[0004]本申请实施例提供一种命名实体识别及装置,用以解决日文命名实体识别的准确率较低的技术问题。
[0005]第一方面,本申请实施例提供一种命名实体识别方法,包括:
[0006]根据待识别命名实体所属语料中的日文汉字生成字向量矩阵和双字词向量矩阵;
[0007]根据所述语料中日文汉字的偏旁生成偏旁图卷积向量矩阵;
[0008]根据所述语料中的日文单词生成潜在词向量矩阵;所述日文单词为日文汉字组成的单词;<br/>[0009]将所述字向量矩阵和所述潜在词向量矩阵作为第一预输入矩阵,将所述偏旁图卷积向量矩阵作为第二预输入矩阵,将所述双字词向量矩阵作为第三预输入矩阵,将所述第一预输入矩阵、所述第二预输入矩阵和所述第三预输入矩阵进行拼接,得到拼接向量矩阵;
[0010]将所述拼接向量矩阵输入至晶格网络模型中,得到所述待识别命名实体的识别结果。
[0011]在一个实施例中,所述根据待识别命名实体所属语料中的日文汉字生成字向量矩阵和双字词向量矩阵,包括:
[0012]根据待识别命名实体所属语料中的日文汉字生成字向量;
[0013]根据各个所述字向量生成字向量矩阵;
[0014]根据所述语料中相邻两个日文汉字组成的词生成双字词向量;
[0015]根据各个所述双字词向量生成双字词向量矩阵。
[0016]在一个实施例中,所述根据所述语料中日文汉字的偏旁生成偏旁图卷积向量矩阵,包括:
[0017]根据预设拆字字典将所述语料中的日文汉字拆解为偏旁,并生成偏旁向量矩阵;
[0018]将所述偏旁向量矩阵输入至图卷积神经网络模型,生成偏旁图卷积向量矩阵。
[0019]在一个实施例中,所述根据所述语料中的日文单词生成潜在词向量矩阵,包括:
[0020]将所述语料中的日文单词与预训练词向量进行匹配,将匹配成功的日文单词作为潜在单词;所述预训练词向量为预先训练好的日文单词向量表;
[0021]根据所述潜在单词生成潜在词向量;
[0022]根据各个所述潜在词向量生成潜在词向量矩阵。
[0023]在一个实施例中,所述将所述第一预输入矩阵、所述第二预输入矩阵和所述第三预输入矩阵进行拼接,包括:
[0024]将所述字向量矩阵中的字向量、所述偏旁图卷积向量矩阵中的偏旁图卷积向量和所述双字词向量矩阵中的双字词向量进行拼接。
[0025]在一个实施例中,所述将所述拼接向量矩阵输入至晶格网络模型中,得到所述待识别命名实体的识别结果,包括:
[0026]将所述拼接向量矩阵输入至晶格网络模型中,得到所述拼接向量矩阵中的各向量之间的相对位置矩阵;
[0027]对所述相对位置矩阵进行运算,得到所述待识别命名实体的识别结果。
[0028]在一个实施例中,所述根据预设拆字字典将所述语料中的日文汉字拆解为偏旁之前,包括:
[0029]获取中文汉字拆字字典中可拆解为偏旁的汉字,得到第一汉字;
[0030]获取日文汉字拆字字典中可拆解为偏旁的汉字,得到第二汉字;
[0031]获取所述第一汉字和所述第二汉字中相同汉字,得到第三汉字;
[0032]将所述第二汉字中的所述第三汉字剔除,得到第四汉字;
[0033]将所述第四汉字加入至所述第一汉字中,得到预设拆字字典。
[0034]第二方面,本申请实施例提供一种命名实体识别装置,包括:
[0035]字向量矩阵与双字词向量矩阵生成模块,用于根据待识别命名实体所属语料中的日文汉字生成字向量矩阵和双字词向量矩阵;
[0036]偏旁图卷积向量矩阵生成模块,用于根据所述语料中日文汉字的偏旁生成偏旁图卷积向量矩阵;
[0037]潜在词向量矩阵生成模块,用于根据所述语料中的日文单词生成潜在词向量矩阵;所述日文单词为日文汉字组成的单词;
[0038]向量拼接模块,用于将所述字向量矩阵和所述潜在词向量矩阵作为第一预输入矩阵,将所述偏旁图卷积向量矩阵作为第二预输入矩阵,将所述双字词向量矩阵作为第三预输入矩阵,将所述第一预输入矩阵、所述第二预输入矩阵和所述第三预输入矩阵进行拼接,得到拼接向量矩阵;
[0039]命名实体识别模块,用于将所述拼接向量矩阵输入至晶格网络模型中,得到所述待识别命名实体的识别结果。
[0040]第三方面,本申请实施例提供一种电子设备,包括处理器和存储有计算机程序的存储器,所述处理器执行所述程序时实现第一方面所述的命名实体识别方法的步骤。
[0041]第四方面,本申请实施例提供一种计算机程序产品,包括计算机程序,所述计算机
程序被处理器执行时实现第一方面所述的命名实体识别方法的步骤。
[0042]本申请实施例提供的命名实体识别方法及装置,根据待识别命名实体所属语料中的日文汉字生成字向量矩阵和双字词向量矩阵,根据语料中日文汉字的偏旁生成偏旁图卷积向量矩阵,根据语料中的日文单词生成潜在词向量矩阵,再将以上矩阵进行拼接,得到拼接向量矩阵,最后将拼接向量矩阵输入至晶格网络模型中,得到待识别命名实体的识别结果。本申请采用与待识别命名实体所属语料中日文汉字词相关的多种向量矩阵拼接而成的拼接向量矩阵与晶格网络模型相结合的方式,对命名实体进行识别,一方面能够通过将字向量、偏旁图卷积向量、潜在词向量和双字词向量相结合的方式,提升向量的维度,获取更多的特征信息,并利用日文汉字偏旁推断字词的性质及含义,另一方面通过晶格网络模型能够准确找到实体边界,增强模型在日文环境的适应性,避免单词错误切分,从而提升命名实体识别准确率。
附图说明
[0043]为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种命名实体识别方法,其特征在于,包括:根据待识别命名实体所属语料中的日文汉字生成字向量矩阵和双字词向量矩阵;根据所述语料中日文汉字的偏旁生成偏旁图卷积向量矩阵;根据所述语料中的日文单词生成潜在词向量矩阵;所述日文单词为日文汉字组成的单词;将所述字向量矩阵和所述潜在词向量矩阵作为第一预输入矩阵,将所述偏旁图卷积向量矩阵作为第二预输入矩阵,将所述双字词向量矩阵作为第三预输入矩阵,将所述第一预输入矩阵、所述第二预输入矩阵和所述第三预输入矩阵进行拼接,得到拼接向量矩阵;将所述拼接向量矩阵输入至晶格网络模型中,得到所述待识别命名实体的识别结果。2.根据权利要求1所述的命名实体识别方法,其特征在于,所述根据待识别命名实体所属语料中的日文汉字生成字向量矩阵和双字词向量矩阵,包括:根据待识别命名实体所属语料中的日文汉字生成字向量;根据各个所述字向量生成字向量矩阵;根据所述语料中相邻两个日文汉字组成的词生成双字词向量;根据各个所述双字词向量生成双字词向量矩阵。3.根据权利要求1所述的命名实体识别方法,其特征在于,所述根据所述语料中日文汉字的偏旁生成偏旁图卷积向量矩阵,包括:根据预设拆字字典将所述语料中的日文汉字拆解为偏旁,并生成偏旁向量矩阵;将所述偏旁向量矩阵输入至图卷积神经网络模型,生成偏旁图卷积向量矩阵。4.根据权利要求1所述的命名实体识别方法,其特征在于,所述根据所述语料中的日文单词生成潜在词向量矩阵,包括:将所述语料中的日文单词与预训练词向量进行匹配,将匹配成功的日文单词作为潜在单词;所述预训练词向量为预先训练好的日文单词向量表;根据所述潜在单词生成潜在词向量;根据各个所述潜在词向量生成潜在词向量矩阵。5.根据权利要求1所述的命名实体识别方法,其特征在于,所述将所述第一预输入矩阵、所述第二预输入矩阵和所述第三预输入矩阵进行拼接,包括:将所述字向量矩阵中的字向量、所述偏旁图卷积向量矩阵中的偏旁图卷积向量和所述双字词向量矩阵中的双字词向量进行拼接。6.根...

【专利技术属性】
技术研发人员:王光耀
申请(专利权)人:浪潮通信技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1