基于表示学习命名实体识别方法、系统、设备和存储介质技术方案

技术编号:32008538 阅读:14 留言:0更新日期:2022-01-22 18:25
基于表示学习命名实体识别方法、系统、设备和存储介质,根据句子级别的注意力机制,得到基于字符信息的词向量;将基于字符信息的词向量与词所在句子的特征向量拼接起来,并作为输入送入Bi

【技术实现步骤摘要】
基于表示学习命名实体识别方法、系统、设备和存储介质


[0001]本专利技术涉及自然语言处理
,具体涉及一种基于表示学习命名实体识别方法、系统、设备和存储介质。

技术介绍

[0002](1)基于规则的方法
[0003]在命名实体识别(NER)概念出现的早期,NER的研究工作大多是基于人工构建的规则,对文本中的字符串进行规则匹配,进而筛选出符合条件的实体。基于规则的提取实体方式最典型就是Rau,L.F.(1991)提出了用复杂的语言学规则不断去判断字符串是否为公司名称实体,这也是命名实体识别正式成为一种任务的标志;在那之后,Collins等陆续提出使用机器自动发现规则并进行匹配的方法,其首先规定7个简单的种子规则,随后运用DLCoTrain方法自动的发现更多的规则,最终进行相关实体的提取;除此之外,部分研究者还提出了将规则和统计模型相结合的实体提取方法,使用一个形式化半马尔科夫提取过程来扩展外部字典,进而用外部字典中实体进行相似性匹配来提取文本中的新实体。基于规则的方法虽然准确度相对较高,但由于基于规则的方法构建实体识别模型的领域性强以及模型复杂性过高等问题,近年来,研究者逐渐将目光聚焦在可迁移性更强的基于统计的方法,与此同时,伴随着机器学习的兴起,NER任务也逐渐演变成了机器学习的一个子任务。
[0004](2)基于统计的方法
[0005]近年来,运用统计模型来进行命名实体的识别已经成为主流,具体分为识别实体边界与序列化标注的方法。
[0006]识别实体边界方面,Li等使用了BdryBot框架对命名实体的边界进行检测,该框架是一种指针网络,可以有效克服输出词汇长度不固定与实体边界标记稀疏的问题,在CoNLL2003等五个数据集上都达到了最优。
[0007]序列化标注方面,当前最SORT的方法是Bi

LSTM+CRF,目前也是应用范围最广的方法,该方法对字符和字义结合的输入使用了双向LSTM后加上了CRF层,更合理的学到了序列与其对应实体标注之间的关系。近年来,研究者尝试从结合局部与全局信息来输入更合理的词语表示,改善模型框架,结合未登陆词等方式来改善模型效果。基于统计的方法相对基于规则的方法而言具有更强的泛化性,同时准确度也没有明显下降。
[0008]现有的命名实体识别方法存在着不准确或者效率低等方面的问题。

技术实现思路

[0009]为克服现有技术中的问题,本专利技术的目的是提供一种基于表示学习命名实体识别方法、系统、设备和存储介质。
[0010]为实现上述目的,本专利技术采用的技术方案如下:
[0011]一种基于表示学习命名实体识别方法,包括以下步骤:
[0012]根据句子级别的注意力机制,得到基于字符信息的词向量;
[0013]将基于字符信息的词向量与词所在句子的特征向量拼接起来,并作为输入送入Bi

LSTM模型中进行训练,得到训练后的模型;
[0014]采用训练后的模型进行申请文档的命名实体识别。
[0015]进一步的,根据句子级别的注意力机制,得到基于字符信息的词向量的具体过程为:根据词语的词频

逆文档频率值得到申请文档分词后的词语权重,然后根据词语权重使用预训练模型RoBERTa加载申请文档分词后词语的向量。
[0016]进一步的,根据句子级别的注意力机制,得到基于字符信息的词向量的具体过程为:采用cw2vec笔画模型将汉字拆分为一个个笔画,根据当前词语c与上下文词w的相似度假定已知中心词出现上下文词的概率,并根据中心词出现上下文词的概率通过负采样操作,得到对数目标函数L,如式(3)所示;
[0017][0018]其中,V为语料库中的所有词语表,T(w)为当前中心词w所在窗口的所有上下文词,σ为sigmoid函数,α为负采样操作得到的负样本个数,E为求期望,t为负采样操作得到样本;
[0019]通过梯度下降算法优化对数目标函数L,并更新上下文词向量,得到基于字符信息的词向量。
[0020]进一步的,词所在句子的特征向量通过以下过程得到:将每一个词在文档级别的权重与词经预训练模型RoBERTa输出的词向量加权相乘后相加,得到词所在句子对应的特征向量。
[0021]进一步的,申请文档分词后的词语权重通过下式计算得到:
[0022][0023][0024][0025]TF

IDF(i)=TF(i)*IDF(i)
ꢀꢀ
(6)
[0026]其中,i为词语,TF(i)为词频,IDF(i)为逆文档频数,m为某个词在申请书中出现的次数,M为申请书总词数,N为申请书的个数,N(i)为出现过该词的申请书的次数。
[0027]进一步的,当前词语c与上下文词w的相似度sim,如式(1)所示:
[0028][0029]其中,为当前的单词w通过n

gram产生n元笔画特征,为上下文单词c直接映射成的笔画特征,S为单词w所有n元笔画的集合。
[0030]进一步的,中心词出现上下文词的概率p(c|w),如式(2)所示:
[0031][0032]其中,c、w分别为上下文词与中心词,V为语料库中的所有词语表,c

为词语表中的每一个词语。
[0033]一种基于表示学习命名实体识别系统,其特征在于,包括:
[0034]基于字符信息的词向量确定模块,用于根据句子级别的注意力机制,得到基于字符信息的词向量;
[0035]训练模块,用于将基于字符信息的词向量与词所在句子的特征向量拼接起来,并作为输入送入Bi

LSTM模型中进行训练,得到训练后的模型;
[0036]识别模块,用于采用训练后的模型进行申请文档的命名实体识别。
[0037]一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器上存储有能在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的基于表示学习命名实体识别方法。
[0038]一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如上所述的基于表示学习命名实体识别方法。
[0039]与现有技术相比,本专利技术具有的有益效果:本专利技术通过根据句子级别的注意力机制,得到基于字符信息的词向量;将基于字符信息的词向量与词所在句子的特征向量拼接起来,并作为输入送入Bi

LSTM模型中进行训练,得到训练后的模型;采用训练后的模型进行申请文档的命名实体识别,得到了词向量在隐空间更合理地表示。整个命名实体识别模型训练好后是一个端到端的模型,不需要人工参与,并且训练速度相比自回归类模型快,参数量相比端到端的自回归模型少。
[0040]进一步的,将对词语对应的词语的词频

逆文档频率值权重作为文本的文档层级的权重信息,与其对应预训练模型RoBERTa映射的词向量相本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于表示学习命名实体识别方法,其特征在于,包括以下步骤:根据句子级别的注意力机制,得到基于字符信息的词向量;将基于字符信息的词向量与词所在句子的特征向量拼接起来,并作为输入送入Bi

LSTM模型中进行训练,得到训练后的模型;采用训练后的模型进行申请文档的命名实体识别。2.根据权利要求1所述的基于表示学习命名实体识别方法,其特征在于,根据句子级别的注意力机制,得到基于字符信息的词向量的具体过程为:根据词语的词频

逆文档频率值得到申请文档分词后的词语权重,然后根据词语权重使用预训练模型RoBERTa加载申请文档分词后词语的向量。3.根据权利要求1所述的基于表示学习命名实体识别方法,其特征在于,根据句子级别的注意力机制,得到基于字符信息的词向量的具体过程为:采用cw2vec笔画模型将汉字拆分为一个个笔画,根据当前词语c与上下文词w的相似度假定已知中心词出现上下文词的概率,并根据中心词出现上下文词的概率通过负采样操作,得到对数目标函数L,如式(3)所示;其中,V为语料库中的所有词语表,T(w)为当前中心词w所在窗口的所有上下文词,σ为sigmoid函数,α为负采样操作得到的负样本个数,E为求期望,t为负采样操作得到样本;通过梯度下降算法优化对数目标函数L,并更新上下文词向量,得到基于字符信息的词向量。4.根据权利要求2所述的基于表示学习命名实体识别方法,其特征在于,词所在句子的特征向量通过以下过程得到:将每一个词在文档级别的权重与词经预训练模型RoBERTa输出的词向量加权相乘后相加,得到词所在句子对应的特征向量。5.根据权利要求2所述的基于表示学习命名实体识别方法,其特征在于,申请文档分词后的词语权重通过下式计算得到:重通过下式计算得到:重通过下式计算得到:TF

IDF(i...

【专利技术属性】
技术研发人员:蔡迪李慧斌
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1