一种词性标注系统、方法和装置制造方法及图纸

技术编号:27031477 阅读:22 留言:0更新日期:2021-01-12 11:14
本发明专利技术实施方式提出一种词性标注系统、方法和装置。系统包括:预训练模型,用于对输入单词执行向量嵌入处理以获取所述输入单词的向量表示,基于自注意力机制从所述输入单词的向量表示中提取句法特征向量,并基于自注意力机制从所述句法特征向量中提取语义特征向量;第一线性层,用于对所述语义特征向量执行降维,以获取降维后的向量;Softmax分类器,用于对所述降维后的向量执行概率规划计算,以获取输入单词的类别概率分布。

【技术实现步骤摘要】
一种词性标注系统、方法和装置
本专利技术属于自然语言处理(NaturalLanguageProcessing,NLP)
,特别是一种词性标注系统、方法和装置。
技术介绍
词性标注(Part-Of-Speechtagging,POStagging)也被称为语法标注(grammaticaltagging)或词类消疑(word-categorydisambiguation),是语料库语言学(corpuslinguistics)中将语料库内单词的词性按其含义和上下文内容进行标记的文本数据处理技术。词性标注可以由人工或特定算法完成,使用机器学习(machinelearning)方法实现词性标注是NLP的研究内容。常见的词性标注算法包括隐马尔可夫模型(HiddenMarkovModel,HMM)、条件随机场(Conditionalrandomfields,CRF)等。词性标注主要被应用于文本挖掘(textmining)和NLP领域,是各类基于文本的机器学习任务,例如语义分析(semanticanalysis)和指代消解(coreferenceresolution)的预处理步骤。目前,词性标注的一种常见模型为:基于词频的双向门控循环单元(BGRU)+卷积神经网络(CNN)+双向长短时记忆网络(BLSTM)+CRF模型。图1是现有技术中基于词频的BGRU+CNN+BLSTM+CRF模型的神经网络图。如图1所示,该词性标注模型采用CNN与BGRU作为特征提取层,其中CNN用来提取词内部的字向量特征V2;BGRU用来提取仅包含稀有词的词向量特征V3。然后,将原始文本的词向量V1与V2和V3向量直接连接,即V=[V1,V2,V3];再将向量V输入到BLSTM隐藏层,采用Sigmoid作为激活函数进行非线性计算,最终结果一部分输出到CRF层用于进行词性预测,同时另一部分用于预测词频。其中:词频预测层采用Softmax将BLSTM的输出转换成归一化的概率,即该词汇是稀有词和正常词的概率。若稀有词的概率高则输出1,正常词的概率高则输出0。对于词频预测部分,由于最终为分类问题且前后词词频关联不大,因此词频的交叉熵损失函数Lfreq为:Lfreq=-(plogq+(1-p)log(1-q)),p表示正确样本的类别概率分布;q代表预测样本的类别概率分布。词性标注的损失函数LCRF(W,b)则由CRF提供的负对数似然概率度量,公式为:LCRF(W,b)=-∑ilogp(y|z;W,b)。因此,总的损失函数Ltotal为二者之和:Ltotal=LCRF+Lfreq。目标是训练模型以最小化该损失函数,以期望模型能够自主学习如何区分稀有词及正常词,从而正确学习各自的特征,提高稀有词的词性标注准确率。其中参数优化可以采用Adam算法对损失函数进行优化,同时每3000步,学习率进行一次指数衰减,衰减基数为0.1,其余参数均采用默认设置。然而,在这种方式中,模型的性能受到语料库大小的限制,模型不能学习到更多的语言学知识。而且,无论采用BGRU模型还是BLSTM模型,都面临训练速度慢、效果差的缺点。同时,BLSTM的参数量大,最终得到的模型也较大,移植也较为困难。
技术实现思路
本专利技术实施例提出一种词性标注系统、方法和装置。本专利技术实施例的技术方案如下:一种词性标注系统,包括:预训练模型,用于对输入单词执行向量嵌入处理以获取所述输入单词的向量表示,基于自注意力机制从所述输入单词的向量表示中提取句法特征向量,并基于自注意力机制从所述句法特征向量中提取语义特征向量;第一线性层,用于对所述语义特征向量执行降维,以获取降维后的向量;Softmax分类器,用于对所述降维后的向量执行概率规划计算,以获取输入单词的类别概率分布。在一个实施方式中,所述预训练模型是对训练后的给定词预测模型执行改造的模型,其中所述给定词预测模型包括:向量嵌入层、第一注意力层、第二注意力层、第三注意力层和第二线性层;所述给定词预测模型的训练任务是基于无标注的、给定词的上下文词汇预测所述给定词;其中:向量嵌入层,用于对给定词的上下文词汇执行向量嵌入处理以获取所述上下文词汇的向量表示;第一注意力层,用于基于自注意力机制从上下文词汇的向量表示中提取句法特征向量;第二注意力层,用于基于自注意力机制从所述句法特征向量中提取语义特征向量;包含一个神经元的第三注意力层,用于将第二注意力层输出的语义特征向量加权,以得到综合输出向量;包含一个神经元的第二线性层,用于对第三注意力层输出的所述综合输出向量执行降维;其中所述改造包括:去除第三注意力层和所述第二线性层。在一个实施方式中,所述词性标注系统的损失函数为L,其中:L=-(plogq+(1-P)log(1-q));其中p表示正确样本的类别概率分布;q代表预测样本的类别概率分布。一种词性标注方法,包括:使能预训练模型对输入单词执行向量嵌入处理以获取所述输入单词的向量表示,基于自注意力机制从所述输入单词的向量表示中提取句法特征向量,并基于自注意力机制从所述句法特征向量中提取语义特征向量;使能第一线性层对所述语义特征向量执行降维,以得到降维后的向量;使能Softmax分类器对所述降维后的向量执行概率规划计算,以获取输入单词的类别概率分布。在一个实施方式中,该方法预先包括:对给定词预测模型执行训练,其中所述给定词预测模型包括:向量嵌入层、第一注意力层、第二注意力层、第三注意力层和第二线性层;训练任务是基于无标注的、给定词的上下文词汇预测所述给定词;所述训练过程包括:使能向量嵌入层对给定词的上下文词汇执行向量嵌入处理以获取所述上下文词汇的向量表示;使能第一注意力层基于自注意力机制从上下文词汇的向量表示中提取句法特征向量;使能第二注意力层基于自注意力机制从所述句法特征向量中提取语义特征向量;使能包含一个神经元的第三注意力层将第二注意力层输出的语义特征向量加权,以得到综合输出向量;使能包含一个神经元的第二线性层对第三注意力层输出的综合输出向量执行降维;对训练后的给定词预测模型执行改造以生成所述预训练模型,其中所述改造包括:去除所述第三注意力层和所述第二线性层。在一个实施方式中,所述词性标注方法的损失函数为L,其中:L=-(plogq+(1-p)log(1-q));其中p表示正确样本的类别概率分布;q代表预测样本的类别概率分布。一种词性标注装置,包括处理器和存储器;所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行如上任一项所述的词性标注方法。一种计算机可读存储介质,其中存储有计算机可读指令,该计算机可读指令用于执行如上任一项所述的词性标注方法。从上述技术方案可以看出,本专利技术实施方式的系统包括:预训练模型,用于对输入单词执行向量嵌入处理以获取所述输入单词的向量表示,基于自注意力机制从所述输入单词的向量表示中提取本文档来自技高网
...

【技术保护点】
1.一种词性标注系统,其特征在于,包括:/n预训练模型,用于对输入单词执行向量嵌入处理以获取所述输入单词的向量表示,基于自注意力机制从所述输入单词的向量表示中提取句法特征向量,并基于自注意力机制从所述句法特征向量中提取语义特征向量;/n第一线性层,用于对所述语义特征向量执行降维,以获取降维后的向量;/nSoftmax分类器,用于对所述降维后的向量执行概率规划计算,以获取输入单词的类别概率分布。/n

【技术特征摘要】
1.一种词性标注系统,其特征在于,包括:
预训练模型,用于对输入单词执行向量嵌入处理以获取所述输入单词的向量表示,基于自注意力机制从所述输入单词的向量表示中提取句法特征向量,并基于自注意力机制从所述句法特征向量中提取语义特征向量;
第一线性层,用于对所述语义特征向量执行降维,以获取降维后的向量;
Softmax分类器,用于对所述降维后的向量执行概率规划计算,以获取输入单词的类别概率分布。


2.根据权利要求1所述的词性标注系统,其特征在于,
所述预训练模型是对训练后的给定词预测模型执行改造的模型,其中所述给定词预测模型包括:向量嵌入层、第一注意力层、第二注意力层、第三注意力层和第二线性层;所述给定词预测模型的训练任务是基于无标注的、给定词的上下文词汇预测所述给定词;其中:
向量嵌入层,用于对给定词的上下文词汇执行向量嵌入处理以获取所述上下文词汇的向量表示;
第一注意力层,用于基于自注意力机制从上下文词汇的向量表示中提取句法特征向量;
第二注意力层,用于基于自注意力机制从所述句法特征向量中提取语义特征向量;
包含一个神经元的第三注意力层,用于将第二注意力层输出的语义特征向量加权,以得到综合输出向量;
包含一个神经元的第二线性层,用于对第三注意力层输出的所述综合输出向量执行降维;
其中所述改造包括:去除第三注意力层和所述第二线性层。


3.根据权利要求2所述的词性标注系统,其特征在于,
所述词性标注系统的损失函数为L,其中:
L=-(plogq+(1-p)log(1-q));
其中p表示正确样本的类别概率分布;q代表预测样本的类别概率分布。


4.一种词性标注方法,其特征在于,包括:
使能预训练模型对输入单词执行向量嵌入处理以获取所述输入单词的向量表示,基于自注意力机制从所述输入单词的向量...

【专利技术属性】
技术研发人员:张鹏
申请(专利权)人:普天信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1