当前位置: 首页 > 专利查询>之江实验室专利>正文

一种基于不确定性量化的命名实体识别方法技术

技术编号:32268885 阅读:16 留言:0更新日期:2022-02-12 19:32
本发明专利技术公开一种基于不确定性量化的命名实体识别方法,包括以下步骤:步骤1.收集出定位到实体位置的样本集,构建一个候选实体的检测模型;步骤2.对于样本集中的实体,采用适用于长文本记忆依赖的BILSTM和self_attention网络结构分别获取实体上下文特征和实体本身特征的表示;步骤3.采用对比损失和参数共享的思想,学习一个实体的不确定性量化模型,并给出每个实体的不确定性值;步骤4.将不确定性值转化为每个实体的dropout概率,并给定阈值,剔除掉不确定性大于阈值的样本;步骤5.通过步骤4实体的dropout概率,引入贝叶斯神经网络中蒙特卡罗dropout训练的思想训练一个新的命名实体识别模型。体识别模型。体识别模型。

【技术实现步骤摘要】
一种基于不确定性量化的命名实体识别方法


[0001]本专利技术涉及计算机应用
,特别涉及一种采用实体上下文特征和实体本身特征不确定性量化并用于命名实体识别的新方法。

技术介绍

[0002]在机器学习中,始终不可避免的存在不确定性,而两种主要的不确定性就是模型不确定性和数据不确定性,其中,模型不确定性来源于我们不确定结构选择和模型参数是否能最好地描述数据分布,而数据不确定性来源于即使对于数据的观察和评价很准确,但是在数据生成中仍然有噪声,尤其对于监督学习的命名实体识别任务,监督信息本身的不确定性会对最终识别结果造成很大的影响。
[0003]近年来,随着贝叶斯神经网络的提出,量化不确定性成为了可能。在计算机视觉领域,贝叶斯神经网络量化不确定性已经应用在语义分割和单目深度估计任务上,并且通过实验对比发现通过引入贝叶斯神经网络来量化两个任务中的模型不确定性和数据不确定性均带来了效果提升。随后,贝叶斯神经网络也被用来量化自然语言处理任务中的不确定性,通过在情感分析,命名实体识别和语言模型三个任务上进行实验,分析对比得到,贝叶斯神经网络量化不确定性对于这三个自然语言处理任务效果有所提升。
[0004]目前虽然贝叶斯神经网络已经用于量化命名实体识别中的不确定性,但是,其对于命名实体识别任务中不确定性的影响因素和量化策略还不够清晰明确,对于命名实体识别中不确定性缺乏可解释性。

技术实现思路

[0005]本专利技术的目的是为了克服现有技术中的不足,提供一种基于不确定性量化的命名实体识别方法,该方法从模拟人类对实体类型进行判断的过程,分析得到命名实体识别中不确定性来源于实体上下文特征和实体本身特征的不确定性,再将其转化为dropout概率,用于最终的命名实体识别模型的训练。
[0006]本专利技术的目的是通过以下技术方案实现的:
[0007]一种基于不确定性量化的命名实体识别方法,包括以下步骤:
[0008]步骤1.收集出定位到实体位置的样本集,构建一个候选实体的检测模型;
[0009]步骤2.对于样本集中的实体,采用适用于长文本记忆依赖的BiLSTM和self_attention网络结构分别获取实体上下文特征和实体本身特征的表示;
[0010]步骤3.采用对比损失和参数共享的思想,学习一个实体的不确定性量化模型,并给出每个实体的不确定性值;
[0011]步骤4.将不确定性值转化为每个实体的dropout概率,并给定阈值,剔除掉不确定性大于阈值的样本;
[0012]步骤5.通过步骤4实体的dropout概率,引入贝叶斯神经网络中蒙特卡罗dropout训练的思想训练一个新的命名实体识别模型。
[0013]与现有技术相比,本专利技术的技术方案所带来的有益效果是:
[0014]1、本专利技术提供的一种基于不确定性量化的命名实体识别的新方法,通过确定命名实体识别中不确定性来源的主要因素:实体本身特征和上下文特征的模糊性,提出上下文

实体本身对比损失量化实体的不确定性,引入贝叶斯神经网络的蒙特卡罗dropout训练的思想来训练命名实体识别模型;
[0015]2、本专利技术在量化实体的不确定性之后,一旦不确定性大于给定的阈值,那么剔除掉该实体样本,这种方式可以使得模型不用学习特征过于模型的过难样本,加快模型学习的收敛速度。
附图说明
[0016]图1是本专利技术方法的流程示意图。
[0017]图2是本专利技术方法的实体的不确定性度量模型。
具体实施方式
[0018]以下结合附图和具体实施例对本专利技术作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0019]本实施例中应用基于不确定性量化的命名实体识别方法的执行环境采用一台具有3.0G赫兹中央处理器、Nvida 1080GPU处理器和16G字节内存的服务器并用python语言编制了量化命名实体识别中不确定性程序,实现了本专利技术采用实体上下文特征和实体本身特征的模糊性来量化命名实体识别中不确定性的新方法,还可以采用其他的执行环境,在此不再赘述。
[0020]图1为本专利技术提供的一种基于不确定性量化的命名实体识别新方法的流程图,其步骤如下:
[0021]步骤101:收集构建定位出实体位置的样本集,构建一个候选实体的检测模型;
[0022]步骤102:然后,对于样本集中的序列其中s
i,t
,...,s
i,t+l
是实体,采用ELMO模型来获取单词级词向量,同时,为了单词中的字符级特征,使用CNN来获取单词的字符级词向量表示,单词级词向量和字符级词向量拼接后的向量,即为样本序列词向量表示接下来,采用序列任务中常用的BiLSTM来获取序列中每个词的隐层表示
i,j
=BiLSTM(e
i,j
),附加上self

attention来获取权重之后的序列中每个词的隐层表示,最终按照序列中定位实体的位置信息来分别获取实体的上下文特征表示和实体本身特征表示;其中权重、上下文特征表示和实体本身特征表示的计算方式如下:
[0023]α
i,j
=Attention(
i,j
)
[0024][0025][0026]步骤103:这一步主要是为了构建实体的不确定性度量模型,采用上下文

实体本身对比损失来获取;将步骤102得到的上下文特征作为负例,将102得到的实体本身特征作为正例,分别输入到两个参数共享的模型中,使得两者在学习过程中,从实体预测得到正确类别的概率越高越好,并且从实体上下文特征预测到的正确类别的概率越低越好。其中模型1的具体计算方式如下:
[0027][0028][0029][0030]模型2的计算方式与模型1类似,损失形式为:
[0031][0032]最终实现,给定一个候选实体以及其上下文,候选实体所属类别为c,模型能够输出一个概率,1减去这个概率值就是给定候选实体的不确定性度量值v
i,t
,具体计算如下:
[0033][0034]步骤104:计算实体上下文特征和实体本身特征的不确定性性(介入0到1之间);给定阈值,剔除掉不确定性大于阈值的样本。阈值的选择可以根据交叉验证的方式来获取。
[0035]步骤105:将句子每个实体的不确定性值转化为dropout概率;在最终的实体识别模型训练过程中,采取贝叶斯神经网络中蒙特卡罗dropout训练的方式,来训练得到最终的命名实体识别模型。
[0036]将句子每个实体的不确定性值转化为dropout概率的具体方法,可以根据实际任务来设置。最简单的方式就是直接将不确定性值作为dropout概率,或者设置dropout取值范围为[0,0.5],然后将不确定性值线性映射到这个区间。
[0037]本专利技术并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本专利技术的技术本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于不确定性量化的命名实体识别方法,其特征在于,包括以下步骤:步骤1.收集出定位到实体位置的样本集,构建一个候选实体的检测模型;步骤2.对于样本集中的实体,采用适用于长文本记忆依赖的BiLSTM和self_attention网络结构分别获取实体上下文特征和实体本身特征的表示;步骤3.采用对比损失和参数...

【专利技术属性】
技术研发人员:吴偶叶迎春张吉
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1