一种词性标注系统、方法和装置制造方法及图纸

技术编号：27031477 阅读：22 留言：0更新日期：2021-01-12 11:14

本发明专利技术实施方式提出一种词性标注系统、方法和装置。系统包括：预训练模型，用于对输入单词执行向量嵌入处理以获取所述输入单词的向量表示，基于自注意力机制从所述输入单词的向量表示中提取句法特征向量，并基于自注意力机制从所述句法特征向量中提取语义特征向量；第一线性层，用于对所述语义特征向量执行降维，以获取降维后的向量；Softmax分类器，用于对所述降维后的向量执行概率规划计算，以获取输入单词的类别概率分布。

全部详细技术资料下载

【技术实现步骤摘要】
一种词性标注系统、方法和装置
本专利技术属于自然语言处理(NaturalLanguageProcessing，NLP)
，特别是一种词性标注系统、方法和装置。
技术介绍
词性标注(Part-Of-Speechtagging,POStagging)也被称为语法标注(grammaticaltagging)或词类消疑(word-categorydisambiguation)，是语料库语言学(corpuslinguistics)中将语料库内单词的词性按其含义和上下文内容进行标记的文本数据处理技术。词性标注可以由人工或特定算法完成，使用机器学习(machinelearning)方法实现词性标注是NLP的研究内容。常见的词性标注算法包括隐马尔可夫模型(HiddenMarkovModel,HMM)、条件随机场(Conditionalrandomfields,CRF)等。词性标注主要被应用于文本挖掘(textmining)和NLP领域，是各类基于文本的机器学习任务，例如语义分析(semanticanalysis)和指代消解(coreferenceresolution)的预处理步骤。目前，词性标注的一种常见模型为：基于词频的双向门控循环单元(BGRU)+卷积神经网络(CNN)+双向长短时记忆网络(BLSTM)+CRF模型。图1是现有技术中基于词频的BGRU+CNN+BLSTM+CRF模型的神经网络图。如图1所示，该词性标注模型采用CNN与BGRU作为特征提取层，其中CNN用来提取词内部的字向量特征V2；BGRU用...

【技术保护点】
1.一种词性标注系统，其特征在于，包括：/n预训练模型，用于对输入单词执行向量嵌入处理以获取所述输入单词的向量表示，基于自注意力机制从所述输入单词的向量表示中提取句法特征向量，并基于自注意力机制从所述句法特征向量中提取语义特征向量；/n第一线性层，用于对所述语义特征向量执行降维，以获取降维后的向量；/nSoftmax分类器，用于对所述降维后的向量执行概率规划计算，以获取输入单词的类别概率分布。/n

【技术特征摘要】
1.一种词性标注系统，其特征在于，包括：
预训练模型，用于对输入单词执行向量嵌入处理以获取所述输入单词的向量表示，基于自注意力机制从所述输入单词的向量表示中提取句法特征向量，并基于自注意力机制从所述句法特征向量中提取语义特征向量；
第一线性层，用于对所述语义特征向量执行降维，以获取降维后的向量；
Softmax分类器，用于对所述降维后的向量执行概率规划计算，以获取输入单词的类别概率分布。

2.根据权利要求1所述的词性标注系统，其特征在于，
所述预训练模型是对训练后的给定词预测模型执行改造的模型，其中所述给定词预测模型包括：向量嵌入层、第一注意力层、第二注意力层、第三注意力层和第二线性层；所述给定词预测模型的训练任务是基于无标注的、给定词的上下文词汇预测所述给定词；其中：
向量嵌入层，用于对给定词的上下文词汇执行向量嵌入处理以获取所述上下文词汇的向量表示；
第一注意力层，用于基于自注意力机制从上下文词汇的向量表示中提取句法特征向量；
第二注意力层，用于基于自注意力机制从所述句法特征向量中提取语义特征向量；
包含一个神经元的第三注意力层，用于将第二注意力层输出的语义特征向量加权，以得到综合输出向量；
包含一个神经元的第二线性层，用于对第三注意力层输出的所述综合输出向量执行降维；
其中所述改造包括：去除第三注意力层和所述第二线性层。

3.根据权利要求2所述的词性标注系统，其特征在于，
所述词性标注系统的损失函数为L，其中：
L＝-(plogq+(1-p)log(1-q))；
其中p表示正确样本的类别概率分布；q代表预测样本的类别概率分布。

4.一种词性标注方法，其特征在于，包括：
使能预训练模型对输入单词执行向量嵌入处理以获取所述输入单词的向量表示，基于自注意力机制从所述输入单词的向量...

【专利技术属性】
技术研发人员：张鹏，
申请(专利权)人：普天信息技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人