一种利用信息熵消歧的弱监督分词方法技术

技术编号：35270129 阅读：20 留言：0更新日期：2022-10-19 10:39

本发明专利技术公开一种利用信息熵消歧的弱监督分词方法，涉及自然语言处理技术领域。利用已有词典将未标注的分词数据分别进行正向和逆向最大匹配，将两种匹配结果合并后得到带有噪声的已标注分词数据；利用预训练语言模型获得输入文本的向量序列，将向量序列送入基于候选词首尾字符的打分模型；结合多标签分类损失计算切分的损失，针对歧义部分，基于信息熵最小计算损失；最后基于贪心策略解码。本发明专利技术提出的一种利用信息熵消歧的弱监督分词方法，在两个数据集上，相比于基线模型，评价指标F1平均提高了5.25％，集外词(outofvocabulary，OOV)的召回率平均提高了76.9％。的召回率平均提高了76.9％。

全部详细技术资料下载

【技术实现步骤摘要】
一种利用信息熵消歧的弱监督分词方法

[0001]本专利技术涉及一种利用信息熵消歧的弱监督分词方法，涉及自然语言处理

技术介绍

[0002]分词是自然语言处理任务的前提和基础，其结果被应用到文本分类、信息检索和机器翻译等自然语言处理任务中，其实现算法的好坏直接影响到其他下游任务的可靠性和实用性。
[0003]歧义识别作为分词任务的难点之一，在基于匹配的分词方法中，设置关联规则并不能使歧义部分得到有效的解决。在基于统计的消歧方法主要分为两类：一、把基于词典匹配的结果进行统计值的计算(例如信息熵、互信息、t
‑
test等)，对统计值设置阈值辅助分词。二、通过选择基于统计语言模型的最高后验概率的候选来获得最佳分割决策，这种方法需要设置特征模版和计算大量统计信息。
[0004]目前，主流的基于深度学习的算法通常采用RNN、LSTM等神经网络或预训练语言模型进行编码，侧重于捕捉上下文信息。大多数的方法在大量的精确通用领域标注数据集上进行训练，且没有充分利用中文词典中的有用信息。而特定领域分词由于缺乏精确标注语料，且人工标注成本高，研究进展缓慢。

技术实现思路

[0005]本专利技术的目的在于，提供一种利用信息熵消歧的弱监督分词方法，在精确标注语料稀缺时，将词典、简单的统计值概念和神经网络模型组合解决弱监督分词下的歧义识别问题。
[0006]为实现上述技术目的，达到上述技术效果，本专利技术是通过以下技术方案实现：
[0007]一种利用信息熵消歧的弱监督分词...

【技术保护点】

【技术特征摘要】
1.一种利用信息熵消歧的弱监督分词方法，其特征在于：利用已有词典将未标注的分词数据分别进行正向和逆向最大匹配，将两种匹配结果合并后得到带有噪声的已标注分词数据；利用预训练语言模型获得输入文本的向量序列，将向量序列送入基于候选词首尾字符的打分模型；结合多标签分类损失计算切分的损失，针对歧义部分，基于信息熵最小计算损失；最后基于贪心策略解码。2.如权利要求1所述的一种利用信息熵消歧的弱监督分词方法，其特征在于，包括以下步骤：S1：利用已有词典将未标注的分词数据分别进行正向和逆向最大匹配，将两种匹配结果合并后得到带有噪声的已标注分词数据的文本序列；S2：将长度为n的文本序列t经过预训练语言模型编码后得到向量序列[e1，e2，...，e
n
]，通过线性变换：h
i
＝W
h
e
i
+b
h
r
i
＝W
r
e
i
+b
r
得到表示文本序列t的两组向量序列h＝[h1，h2，...，h
n
],h∈R
n
×
d
和r＝[r1，r2，...，r
n
],r∈R
n
×
d
，是识别是否构成分词结果所用的向量序列；在词嵌入矩阵h中的第i个向量表示当t
i
作为连续片段的起始字符，其编码为h
i
，在词嵌入矩阵r中的第i个向量表示当t
i
作为连续片段的结束字符，其编码为r
i
；W
h
和W
r
是权重矩阵，b
h
和b
r
是偏置矩阵；S3：定义作为从t
i
到t
j
的连续片段[t
i
：t
j
]的打分函数；u
i
和v
i
是h
i
和r
i
进行Sinusoidal位置编码后得到具有位置编码信息的向量；打分函数的结果将呈现两种类型：s(i，j)＞0表示此片段为候选分词片段，s(i，j)＜0则表示此片段不能构成分词片段；S4：将S3得到的得分矩阵从当前第i行开始解码：a、第i行存在一个或多个s(i，j)＞0，j≥i，时，选择第i行得分最大的位置(i，j)，表示以(i，j)为下标的连续片段是一个词；b、否则，取j＝i，即(i，i)为下...

【专利技术属性】
技术研发人员：线岩团，贺靖强，黄于欣，文永华，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人