当前位置: 首页 > 专利查询>大连大学专利>正文

一种基于神经网络模型的命名实体识别方法技术

技术编号:36501868 阅读:16 留言:0更新日期:2023-02-01 15:24
本发明专利技术一种基于神经网络模型的命名实体识别方法,包括以下步骤:构建用于识别出中文文本中的实体的命名实体识别模型;构建用于训练命名实体识别模型的数据集,将所述数据集划分为训练集和测试集;基于训练集和测试集,对所述命名实体识别模型进行训练,得到训练好的命名实体识别模型;将需要进行命名实体识别的中文文本处理成指定格式;将处理成指定格式的中文文本输入到训练好的面向中文的命名实体识别模型,识别出该中文文本中命名实体,模型的CNNs层具有多种尺寸的卷积核,在提取词级别信息的同时可以编码所有候选实体的边界信息,有效缓解了NER模型识别实体边界困难的问题,FC层用于数据降维,可以迫使模型学习到更有效的信息。的信息。的信息。

【技术实现步骤摘要】
一种基于神经网络模型的命名实体识别方法


[0001]本专利技术属于自然语言处理领域,涉及一种基于神经网络模型的命名实体识别方法。

技术介绍

[0002]命名实体识别(Named Entity Recognition,NER)旨在从非结构化文本数据中识别出实体的边界和类型,是自然语言处理(Natural Language Processing,NLP)领域的一项基础性工作,作为实体链接、句法分析、机器翻译、知识图谱构建等众多NLP任务的上游工作,长久以来在学术界与工业界受到广泛关注,持续不断地改进NER技术具有重要的科研与应用意义。
[0003]早期命名实体识别主要基于规则方法,代表技术有字典、规则,在词典大小有限的情况下,该方法可以取得较好的效果,但此类方法召回率低、可迁移性差,面对新领域需要重新指定规则。随后,基于机器学习方法的命名实体识别技术逐渐占据主要地位,代表技术有隐马尔可夫模型、条件随机场等,此类方法基本解决了基于规则方法的命名实体识别技术所面临的问题,但是此类方法需要人工选择数据特征,且对数据特征十分敏感,要求专家有极为丰富的特征选择经验。。当前,随着计算机算力的提升,深度学习算法迎来又一次的性能解放,再度成为人工智能领域的研究热点,相比于基于机器学习的命名实体识别方法,基于深度学习的命名实体识别方法不需要人工选取数据特征,而由模型自动择优选择,基于深度学习的命名实体识别方法也在该领域占据了主要地位。
[0004]根据不同语言的特点,面向不同语言的命名实体识别模型也存在一定差异性。目前,主流NER模型均面向英文设计,迁移至中文NER仍需要一定研究。英文以空格作为自然分隔符,将词与词分隔开,英文NLP模型通常将词作为token来处理各种NLP任务,简单且有效,而中文不存在能够将词与词分隔开的自然分隔符,一个直觉性的想法是首先利用分词工具对中文文本分词处理,再利用英文NER模型处理中文NER任务,但分词过程将不可避免的产生错误而影响之后的命名实体识别,利用词典等方法又会产生OOV(out of vocabulary,未登录词)问题。有研究人员将中文字符(单个汉字)作为NER模型的token,再利用英文NER模型获取每个中文字符的NER标签,并取得了不错的效果。在中文命名实体识别领域中,以字符为token的模型被归为基于字符的NER模型一类,先分词再实体识别的模型被归为基于词的NER模型一类,多数研究工作已证实,基于字符的中文NER模型效果优于基于词的中文NER模型。但是,基于字符的中文NER模型中仅包含字符级别和句子级别的信息,而缺失了词级别信息,直接利用英文NER模型必然会影响性能。另一方面,在命名实体识别任务中,只有实体的类型和两个边界和基本事实完全匹配时,才认为该实体识别是正确的,其中实体类型的识别相对较为容易,而实体边界的识别却较为困难。

技术实现思路

[0005]为了解决上述问题,本专利技术提供本专利技术采用的技术方案是:一种基于神经网络模
型的命名实体识别方法,包括以下步骤:
[0006]构建用于识别出中文文本中的实体的命名实体识别模型;
[0007]构建用于训练命名实体识别模型的数据集,将所述数据集划分为训练集和测试集;
[0008]基于训练集和测试集,对所述命名实体识别模型进行训练,得到训练好的命名实体识别模型;
[0009]将需要进行命名实体识别的中文文本处理成指定格式;
[0010]将处理成指定格式的中文文本输入到训练好的面向中文的命名实体识别模型,识别出该中文文本中命名实体。
[0011]进一步地:所述命名实体识别模型包括串联相接的嵌入层、CNNs层、全连接层和双向长短时记忆BiLSTM层及条件随机场CRF层;
[0012]所述嵌入层用于将输入模型的字符序列即中文文本嵌入向量空间中,得到每一个字符的低维、稠密的向量表示;
[0013]所述CNNs层用于从所述嵌入层输出的向量序列中提取词级别信息,采用单通道二维卷积核,并设置多种卷积核尺寸,缓解了NER模型难以识别实体边界的问题,输出含有词级别信息的向量表示;
[0014]所述全连接层对所述多尺寸卷积核层输出的词级别信息进行数据降维,滤除词级别信息中的噪音,输出降维后的向量序列;
[0015]所述双向长短时记忆BiLSTM层从所述全连接层输出的降维后向量序列中,提取文本的全局特征,即句子级别信息,并预测输入模型的字符序列所对应的标签序列;
[0016]所述条件随机场CRF层用于对BiLSTM输出的标签序列施加一定的命名实体识别的规则约束,并解码输出最终的标签序列。
[0017]进一步地:所述指定格式指的是:每个句子之间以空行隔开,每个汉字单独成行。
[0018]进一步地:所述构建用于训练命名实体识别模型的数据集,将所述数据集划分为训练集和测试集包括以下步骤:
[0019]从互联网上收集大量中文文本;
[0020]将收集到的中文文本以句子为单位划分,每个句子之间以一个空行隔开,一个句子即一条样本数据,句子中的每个汉字单独成行;
[0021]利用BIO或BMES标注法对数据集进行标注,并以8:2的比例将数据集划分为训练集和测试集。
[0022]进一步地:所述基于训练集和测试集,对所述命名实体识别模型进行训练,得到训练好的命名实体识别模型,包括以下步骤:
[0023]设定迭代次数N,初始迭代N=1,将训练集输入到所述命名实体识别模型中,对所述命名实体识别模型进行第N次参数更新,包括权重与偏置,并将测试集输入第N次参数更新之后的所述命名实体识别模型中,输出第N次参数更新之后的所述命名实体识别模型的性能评估结果,记录该性能评估结果且保存此次参数更新之后的所述命名实体识别模型的全部参数;
[0024]选择所述命名实体识别模型具有最优性能评估结果的一组参数,令所述命名实体识别模型加载该组参数,作为训练完成的命名实体识别模型。
[0025]进一步地:所述评估指标包括精度、召回率和F1值;
[0026]其中,精度指命名实体识别模型识别正确的实体数量占该模型识别的实体总数量的比例;
[0027]召回率指命名实体识别模型识别正确的实体数量占黄金标准实体数量的比例;
[0028]F1值指精度与召回率的调和均值,一般代表命名实体识别模型的综合性能。
[0029]本专利技术提供的一种基于神经网络模型的命名实体识别方法,具有以下优点:采用本专利技术提出的的CNNs+FC模型从输入模型的字符序列中提取词级别信息,该模型的CNNs层具有多种尺寸的卷积核,在提取词级别信息的同时可以编码所有候选实体的边界信息,有效缓解了NER模型识别实体边界困难的问题,FC层用于数据降维,可以迫使模型学习到更有效的信息,另外,使用双向长短时记忆网络BiLSTM提取句子级别信息并预测输入模型的字符序列所对应的NER标签,条件随机场CRF对BiLSTM层输出的NER标签序列施加一定的规则约束,解码输出最终的NER标签。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于神经网络模型的命名实体识别方法,其特征在于:包括以下步骤:构建用于识别出中文文本中的实体的命名实体识别模型;构建用于训练命名实体识别模型的数据集,将所述数据集划分为训练集和测试集;基于训练集和测试集,对所述命名实体识别模型进行训练,得到训练好的命名实体识别模型;将需要进行命名实体识别的中文文本处理成指定格式;将处理成指定格式的中文文本输入到训练好的面向中文的命名实体识别模型,识别出该中文文本中命名实体。2.根据权利要求1所述的基于神经网络模型的命名实体识别方法,其特征在于:所述命名实体识别模型包括串联相接的嵌入层、CNNs层、全连接层和双向长短时记忆BiLSTM层及条件随机场CRF层;所述嵌入层用于将输入模型的字符序列即中文文本嵌入向量空间中,得到每一个字符的低维、稠密的向量表示;所述CNNs层用于从所述嵌入层输出的向量序列中提取词级别信息,采用单通道二维卷积核,并设置多种卷积核尺寸,缓解了NER模型难以识别实体边界的问题,输出含有词级别信息的向量表示;所述全连接层对所述多尺寸卷积核层输出的词级别信息进行数据降维,滤除词级别信息中的噪音,输出降维后的向量序列;所述双向长短时记忆BiLSTM层从所述全连接层输出的降维后向量序列中,提取文本的全局特征,即句子级别信息,并预测输入模型的字符序列所对应的标签序列;所述条件随机场CRF层用于对BiLSTM输出的标签序列施加一定的命名实体识别的规则约束,并解码输出最终的标签序列。3.根据权利要求1所述的基于神经网络模型的命名实体识别方法,其特征在于:所述指定格式指的是:每个句子之间以空行隔开,每个汉...

【专利技术属性】
技术研发人员:吕亚娜秦旭桐杜秀丽邱少明
申请(专利权)人:大连大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1