System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于知识共享的跨域命名实体识别方法技术_技高网
当前位置: 首页 > 专利查询>河海大学专利>正文

一种基于知识共享的跨域命名实体识别方法技术

技术编号:43713649 阅读:2 留言:0更新日期:2024-12-18 21:27
本发明专利技术公开了一种基于知识共享的跨域命名实体识别方法,使用交叉自注意力编码器交换源领域与目标领域的查询矩阵,将嵌入向量转化为注意力向量,增加来自源领域任务的共享信息以提高模型性能;使用带有标签约束的最大均值差异度量源领域与目标领域的特征表示差异,计算具有相同标签的两个样本向量表示之间的总体最大均值差异,实现源领域与目标领域的特征交换,并共享源领域知识;在源领域与目标领域的条件随机场中计算两个领域标签概率的反向相对熵,用于衡量两个领域标签概率分布之间的距离,采用L2正则化约束两个域中标签概率的相对熵,使相同的标签间分布近似,获得相同的标签输出结果。本发明专利技术能够通过与文本标注丰富的通用领域(源领域)进行知识共享,实现在标注稀疏的特定领域中(目标领域)的命名实体识别,并具有较好的识别效果。

【技术实现步骤摘要】

本专利技术属于信息抽取,特别涉及一种基于知识共享的跨域命名实体识别方法


技术介绍

1、命名实体识别(ner)任务分为通用领域命名ner与特定领域ner。特定领域包括金融、司法、生物、医学、军事等。虽然现今越来越多质量良好的数据集用于中文ner的模型训练和评估,但是目前多数数据集所涉及的领域多是通用领域,且实体类别名称相对固定。特定领域公开数据集较少,在研究时多由个人自建,数据隐私问题也导致所建数据集并不能共享,人工手动标记成本很高。这些限制导致了特定领域数据集出现标注稀疏的现象。

2、目前,基于深度学习的ner模型往往需要大量的标记数据来更好地训练模型,文本规模小导致深度学习模型无法充分学习数据的隐藏特征。因而文本标记有限问题降低了基于深度学习模型的性能和识别效果。另一方面,部分研究划定源领域与目标领域。其中,源领域使用规模较大的通用领域数据集,目标领域使用资源有限的特定数据集,通过源领域数据和目标领域数据联合训练参数共享模型的方法,使源领域和目标领域的参数尽量接近以达到增进目标领域识别效果的目的。但简单的参数共享并不能使目标领域汲取到源领域文本语料的特征。并且,当两个领域数据标签分布不同时,单纯共享crf层可能导致源与目标领域中的同类标签识别出不同的标签结果。


技术实现思路

1、专利技术目的:经上述现有技术的分析可知,在跨域命名实体识别任务中,模型需要能够交换源领域与目标领域特征并共享源领域知识。为了实现对标注稀疏的特定领域中(目标领域)的命名实体的有效识别,本专利技术提供一种基于知识共享的跨域命名实体识别方法。

2、技术方案:针对现有技术中存在的问题与不足,本专利技术提供了一种基于知识共享的跨域命名实体识别方法,使用交叉自注意力编码器交换源领域与目标领域的查询矩阵,将嵌入向量转化为注意力向量,增加来自源领域任务的共享信息以提高模型性能;使用带有标签约束的最大均值差异度量源领域与目标领域的特征表示差异,计算具有相同标签的两个样本向量表示之间的总体最大均值差异,实现源领域与目标领域的特征交换,并共享源领域知识;在源领域与目标领域的条件随机场中计算两个领域标签概率的反向相对熵,用于衡量两个领域标签概率分布之间的距离,采用l2正则化约束两个域中标签概率的相对熵,使相同的标签间分布近似,获得相同的标签输出结果。

3、具体包括如下步骤:

4、步骤1:对于输入文本序列,使用交叉自注意力编码器cross-transformer交换源领域与目标领域的查询矩阵,将嵌入向量转化为注意力向量,增加来自源领域任务的共享信息,使目标领域汲取源领域的知识;

5、步骤2:在知识共享阶段,使用带有标签约束的最大均值差异mmd度量源领域与目标领域的特征表示差异,计算具有相同标签的两个样本向量表示之间的总体最大均值差异,实现源领域与目标领域的特征交换,并共享源领域知识;

6、步骤3:在源领域与目标领域的条件随机场crf中计算两个领域标签概率的反向相对熵,用于衡量两个领域标签概率分布之间的距离,采用l2正则化约束两个域中标签概率的相对熵,使相同的标签间分布近似,获得相同的标签输出结果。

7、步骤1中使用交叉自注意力编码器交换源领域与目标领域的查询矩阵,将嵌入向量转化为注意力向量的具体步骤如下:

8、将源领域的查询矩阵qs、键矩阵ks和值矩阵vs输入交叉自注意力编码器,目标领域对应的矩阵qt,kt,vt由嵌入线性变换获取:

9、

10、其中,es与et分别为源领域与目标领域的嵌入,i是单位矩阵,ws(t),q与ws(t),v是可训练参数。

11、在源领域与目标领域中,对于文本中的任意两个汉字xi与xj,i与j分别表示这两个汉字在文本语句中的位置,head[i]表示为头,tail[i]表示为尾,则相应词语的四种相对距离计算公式为:

12、

13、其中,表示xi头部和xj的头部之间的距离,表示xi头部和xj的尾部之间的距离,表示xi尾部和xj的头部之间的距离,表示xi尾部和xj的尾部之间的距离。相对位置编码是四个距离的简单非线性变换:

14、

15、

16、其中,wr和wr为可训练参数,表示连结运算符。

17、基于上述公式计算得到的自注意力编码器cross-transformer的相对位置编码,计算源领域与目标领域的注意力向量:

18、

19、其中,为可训练参数。

20、计算可得交换查询矩阵后的源领域与目标领域的注意力分数分别为:

21、atts(at,vs)=softmax(at)vs

22、attt(as,vt)=softmax(as)vt

23、其中,as与at分别为源领域与目标领域的注意力向量,vs与vt分别为源领域与目标领域的值矩阵。

24、最后随机初始化参数矩阵bmax_len×max_len,添加随机注意力采样,不局限于局部信息,得出最终分数:

25、

26、其中,vs与vt分别为源领域与目标领域的值矩阵。

27、步骤2中使用带有标签约束的mmd度量源领域与目标领域的特征表示差异,计算具有相同标签的两个样本向量表示之间的总体最大均值差异的具体步骤如下:

28、给定源领域ns样本的训练集:目标领域nt样本的训练集:且nt<<ns。源领域和目标领域的上下文信息并不全部相同,导致两个域之间的特征表示存在差异,可利用源领域的知识,提高目标领域的标签预测精度。为了减少源领域与目标领域的差异,使用带有标签约束的mmd,将源领域与目标领域向量状态保持相似的分布。

29、定义标签类是源领域与目标领域匹配标签的集合,具有相同标签y的两个样本向量表示之间的总体最大均值差异mmd为:

30、

31、其中,是隐藏表示vs的集合,是隐藏表示vt的集合,表示源领域的样本数量,表示目标领域的样本数量。

32、最后mmd的损失函数定义为:

33、

34、其中,μy是相应系数,v*为步骤1.4输出的值矩阵。

35、步骤3中计算两个领域标签概率的反向相对熵,用于衡量两个领域标签概率分布之间的距离,采用l2正则化约束两个域中标签概率的相对熵的具体步骤如下:

36、计算源领域与目标领域标签概率的反向相对熵,进一步判断两个领域标签分布之间的规律,相对熵的计算公式为:

37、

38、其中,y为标签类集合,ps(y|v*)为源领域的标签概率,pt(y|v*)为目标领域的标签概率。通过对数变换可得相对熵为:

39、

40、其中,h(·)表示分布熵。

41、通过降低pt(y|v*)到ps(y|v*)的相对熵上限减少两者的距离,将l2约束添加于源领域与目标领域中相同标签对应的参数上:

42、

4本文档来自技高网...

【技术保护点】

1.一种基于知识共享的跨域命名实体识别方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于知识共享的跨域命名实体识别方法,其特征在于,所述步骤1中,使用交叉自注意力编码器Cross-Transformer交换源领域与目标领域的查询矩阵,将嵌入向量转化为注意力向量,具体步骤如下:

3.根据权利要求1所述的基于知识共享的跨域命名实体识别方法,其特征在于,所述步骤2中,使用带有标签约束的MMD度量源领域与目标领域的特征表示差异,计算具有相同标签的两个样本向量表示之间的总体最大均值差异,具体步骤如下:

4.根据权利要求1所述的基于知识共享的跨域命名实体识别方法,其特征在于,所述步骤3中,在源领域与目标领域的条件随机场CRF中计算两个领域标签概率的反向相对熵,用于衡量两个领域标签概率分布之间的距离,采用L2正则化约束两个域中标签概率的相对熵,具体步骤如下:

5.一种计算机设备,其特征在于:该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如权利要求1-4中任一项所述的基于知识共享的跨域命名实体识别方法。

6.一种计算机可读存储介质,其特征在于:该计算机可读存储介质存储有执行如权利要求1-4中任一项所述的基于知识共享的跨域命名实体识别方法的计算机程序。

...

【技术特征摘要】

1.一种基于知识共享的跨域命名实体识别方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于知识共享的跨域命名实体识别方法,其特征在于,所述步骤1中,使用交叉自注意力编码器cross-transformer交换源领域与目标领域的查询矩阵,将嵌入向量转化为注意力向量,具体步骤如下:

3.根据权利要求1所述的基于知识共享的跨域命名实体识别方法,其特征在于,所述步骤2中,使用带有标签约束的mmd度量源领域与目标领域的特征表示差异,计算具有相同标签的两个样本向量表示之间的总体最大均值差异,具体步骤如下:

4.根据权利要求1所述的基于知识共享的跨域命名...

【专利技术属性】
技术研发人员:周晓峰张晟楠戚荣志唐斌杨欣雨
申请(专利权)人:河海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1