一种利用信息熵消歧的弱监督分词方法技术

技术编号:35270129 阅读:20 留言:0更新日期:2022-10-19 10:39
本发明专利技术公开一种利用信息熵消歧的弱监督分词方法,涉及自然语言处理技术领域。利用已有词典将未标注的分词数据分别进行正向和逆向最大匹配,将两种匹配结果合并后得到带有噪声的已标注分词数据;利用预训练语言模型获得输入文本的向量序列,将向量序列送入基于候选词首尾字符的打分模型;结合多标签分类损失计算切分的损失,针对歧义部分,基于信息熵最小计算损失;最后基于贪心策略解码。本发明专利技术提出的一种利用信息熵消歧的弱监督分词方法,在两个数据集上,相比于基线模型,评价指标F1平均提高了5.25%,集外词(outofvocabulary,OOV)的召回率平均提高了76.9%。的召回率平均提高了76.9%。

【技术实现步骤摘要】
一种利用信息熵消歧的弱监督分词方法


[0001]本专利技术涉及一种利用信息熵消歧的弱监督分词方法,涉及自然语言处理


技术介绍

[0002]分词是自然语言处理任务的前提和基础,其结果被应用到文本分类、信息检索和机器翻译等自然语言处理任务中,其实现算法的好坏直接影响到其他下游任务的可靠性和实用性。
[0003]歧义识别作为分词任务的难点之一,在基于匹配的分词方法中,设置关联规则并不能使歧义部分得到有效的解决。在基于统计的消歧方法主要分为两类:一、把基于词典匹配的结果进行统计值的计算(例如信息熵、互信息、t

test等),对统计值设置阈值辅助分词。二、通过选择基于统计语言模型的最高后验概率的候选来获得最佳分割决策,这种方法需要设置特征模版和计算大量统计信息。
[0004]目前,主流的基于深度学习的算法通常采用RNN、LSTM等神经网络或预训练语言模型进行编码,侧重于捕捉上下文信息。大多数的方法在大量的精确通用领域标注数据集上进行训练,且没有充分利用中文词典中的有用信息。而特定领域分词由于缺乏精确标注语料,且人工标注成本高,研究进展缓慢。

技术实现思路

[0005]本专利技术的目的在于,提供一种利用信息熵消歧的弱监督分词方法,在精确标注语料稀缺时,将词典、简单的统计值概念和神经网络模型组合解决弱监督分词下的歧义识别问题。
[0006]为实现上述技术目的,达到上述技术效果,本专利技术是通过以下技术方案实现:
[0007]一种利用信息熵消歧的弱监督分词方法,利用已有词典将未标注的分词数据分别进行正向和逆向最大匹配,将两种匹配结果合并后得到带有噪声的已标注分词数据;利用预训练语言模型获得输入文本的向量序列,将向量序列送入基于候选词首尾字符的打分模型;结合多标签分类损失计算切分的损失,针对歧义部分,基于信息熵最小计算损失;最后基于贪心策略解码。
[0008]一种利用信息熵消歧的弱监督分词方法,包括以下步骤:
[0009]S1:利用已有词典将未标注的分词数据分别进行正向和逆向最大匹配,将两种匹配结果合并后得到带有噪声的已标注分词数据的文本序列;
[0010]S2:将长度为n的文本序列t经过预训练语言模型编码后得到向量序列[e1,e2,

,e
n
],通过线性变换:
[0011]h
i
=W
h
e
i
+b
h
[0012]r
i
=W
r
e
i
+b
r
[0013]得到表示文本序列t的两组向量序列h=[h1,h2,

,h
n
],h∈R
n
×
d
和r=[r1,r2,


r
n
],r∈R
n
×
d
,是识别是否构成分词结果所用的向量序列;
[0014]在词嵌入矩阵h中的第i个向量表示当t
i
作为连续片段的起始字符,其编码为h
i
,在词嵌入矩阵r中的第i个向量表示当t
i
作为连续片段的结束字符,其编码为r
i

[0015]W
h
和W
r
是权重矩阵,b
h
和b
r
是偏置矩阵;
[0016]S3:定义作为从t
i
到t
j
的连续片段[t
i
:t
j
]的打分函数;u
i
和v
i
是h
i
和r
i
进行Sinusoidal位置编码后得到具有位置编码信息的向量;
[0017]打分函数的结果将呈现两种类型:
[0018]s(i,j)>0表示此片段为候选分词片段,s(i,j)<0则表示此片段不能构成分词片段;
[0019]S4:将S3得到的得分矩阵从当前第i行开始解码:
[0020]a、第i行存在一个或多个s(i,j)>0,j≥i,时,选择第i行得分最大的位置(i,j),表示以(i,j)为下标的连续片段是一个词;
[0021]b、否则,取j=i,即(i,i)为下标的连续片段作为单字词;
[0022]c、确认下一个词的起始字符下标为j+1,即i

j+1,重复执行步骤a;
[0023]S5:为了确保得分矩阵中可能构成词的片段对应的位置的得分s(i,j)>0,不能构成词的片段对应的位置的得分s(i,j)<0,在S1得到的匹配结果指导下,对整个得分矩阵采用多标签分类的损失函数计算损失其中,P表示得分s(i,j)>0的连续片段集合,N表示得分s(i,j)<0的连续片段集合:
[0024][0025]由于在模型训练过程中得分矩阵的每行中可能有多个s(i,j)>0,表示存在多个以该行的下标所代表的字符为开始的词,损失函数对所有可能的连续片段对应的分数S=[s1,s2,

,s
m
]求信息熵;
[0026]p=softmax(S)
[0027][0028]S6:采用自适应学习率的Adam优化器,并设置参数weight_decay为0.00001,调节模型复杂度对损失函数的影响,防止过拟合。
[0029]进一步的,所述S1对输入的文本序列同时进行正向和逆向最大匹配,对匹配结果取并集,得到所有基于规则的有意义的分词结果集合,集合表示为Spans=[(s
f1
,e
f1
),(s
f2
,e
f2
),(s
b2
,e
b2
),

,(s
fm
,e
fm
)],其中(s
fi
,e
fi
)分别表示正向匹配中第i个词的首尾字符的下标,(s
b2
,e
b2
)分别表示逆向匹配中第i个词的首尾字符的下标。
[0030]进一步的,所述S3定义的打分函数,打分阶段使用Sinusoidal位置编码,其中u
k,2i
,v
k,2i+1
分别是位置k的编码向量的第2i,2i+1个分量,d是位置向量的维度;
[0031][0032]将融入位置编码信息的首尾字符向量u
i
和v
i
相乘,得到对应连续片段[t
i
:t
j
]的得分。
[0033]进一步的,所述S4在分词过程中必须满足两个约束条件:一是,在连续片段[t
i
:t
j
]中j≥i;二是,上一个词的结束下标为m时,下一个词的起始下标必须为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种利用信息熵消歧的弱监督分词方法,其特征在于:利用已有词典将未标注的分词数据分别进行正向和逆向最大匹配,将两种匹配结果合并后得到带有噪声的已标注分词数据;利用预训练语言模型获得输入文本的向量序列,将向量序列送入基于候选词首尾字符的打分模型;结合多标签分类损失计算切分的损失,针对歧义部分,基于信息熵最小计算损失;最后基于贪心策略解码。2.如权利要求1所述的一种利用信息熵消歧的弱监督分词方法,其特征在于,包括以下步骤:S1:利用已有词典将未标注的分词数据分别进行正向和逆向最大匹配,将两种匹配结果合并后得到带有噪声的已标注分词数据的文本序列;S2:将长度为n的文本序列t经过预训练语言模型编码后得到向量序列[e1,e2,...,e
n
],通过线性变换:h
i
=W
h
e
i
+b
h
r
i
=W
r
e
i
+b
r
得到表示文本序列t的两组向量序列h=[h1,h2,...,h
n
],h∈R
n
×
d
和r=[r1,r2,...,r
n
],r∈R
n
×
d
,是识别是否构成分词结果所用的向量序列;在词嵌入矩阵h中的第i个向量表示当t
i
作为连续片段的起始字符,其编码为h
i
,在词嵌入矩阵r中的第i个向量表示当t
i
作为连续片段的结束字符,其编码为r
i
;W
h
和W
r
是权重矩阵,b
h
和b
r
是偏置矩阵;S3:定义作为从t
i
到t
j
的连续片段[t
i
:t
j
]的打分函数;u
i
和v
i
是h
i
和r
i
进行Sinusoidal位置编码后得到具有位置编码信息的向量;打分函数的结果将呈现两种类型:s(i,j)>0表示此片段为候选分词片段,s(i,j)<0则表示此片段不能构成分词片段;S4:将S3得到的得分矩阵从当前第i行开始解码:a、第i行存在一个或多个s(i,j)>0,j≥i,时,选择第i行得分最大的位置(i,j),表示以(i,j)为下标的连续片段是一个词;b、否则,取j=i,即(i,i)为下...

【专利技术属性】
技术研发人员:线岩团贺靖强黄于欣文永华
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1