一种基于不确定性量化的命名实体识别方法技术

技术编号：32268885 阅读：16 留言：0更新日期：2022-02-12 19:32

本发明专利技术公开一种基于不确定性量化的命名实体识别方法，包括以下步骤：步骤1.收集出定位到实体位置的样本集，构建一个候选实体的检测模型；步骤2.对于样本集中的实体，采用适用于长文本记忆依赖的BILSTM和self_attention网络结构分别获取实体上下文特征和实体本身特征的表示；步骤3.采用对比损失和参数共享的思想，学习一个实体的不确定性量化模型，并给出每个实体的不确定性值；步骤4.将不确定性值转化为每个实体的dropout概率，并给定阈值，剔除掉不确定性大于阈值的样本；步骤5.通过步骤4实体的dropout概率，引入贝叶斯神经网络中蒙特卡罗dropout训练的思想训练一个新的命名实体识别模型。体识别模型。体识别模型。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于不确定性量化的命名实体识别方法

[0001]本专利技术涉及计算机应用
，特别涉及一种采用实体上下文特征和实体本身特征不确定性量化并用于命名实体识别的新方法。

技术介绍

[0002]在机器学习中，始终不可避免的存在不确定性，而两种主要的不确定性就是模型不确定性和数据不确定性，其中，模型不确定性来源于我们不确定结构选择和模型参数是否能最好地描述数据分布，而数据不确定性来源于即使对于数据的观察和评价很准确，但是在数据生成中仍然有噪声，尤其对于监督学习的命名实体识别任务，监督信息本身的不确定性会对最终识别结果造成很大的影响。
[0003]近年来，随着贝叶斯神经网络的提出，量化不确定性成为了可能。在计算机视觉领域，贝叶斯神经网络量化不确定性已经应用在语义分割和单目深度估计任务上，并且通过实验对比发现通过引入贝叶斯神经网络来量化两个任务中的模型不确定性和数据不确定性均带来了效果提升。随后，贝叶斯神经网络也被用来量化自然语言处理任务中的不确定性，通过在情感分析，命名实体识别和语言模型三个任务上进行实验，分析对比得到，贝叶斯神经网络量化不确定性对于这三个自然语言处理任务效果有所提升。
[0004]目前虽然贝叶斯神经网络已经用于量化命名实体识别中的不确定性，但是，其对于命名实体识别任务中不确定性的影响因素和量化策略还不够清晰明确，对于命名实体识别中不确定性缺乏可解释性。

技术实现思路

[0005]本专利技术的目的是为了克服现有技术中的不足，提供一种基于不确定性量化的命名实体识别方法，该方法...

【技术保护点】

【技术特征摘要】
1.一种基于不确定性量化的命名实体识别方法，其特征在于，包括以下步骤：步骤1.收集出定位到实体位置的样本集，构建一个候选实体的检测模型；步骤2.对于样本集中的实体，采用适用于长文本记忆依赖的BiLSTM和self_attention网络结构分别获取实体上下文特征和实体本身特征的表示；步骤3.采用对比损失和参数...

【专利技术属性】
技术研发人员：吴偶，叶迎春，张吉，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人