当前位置: 首页 > 专利查询>厦门大学专利>正文

一种基于参数线性约束的多任务分词方法技术

技术编号:15639283 阅读:157 留言:0更新日期:2017-06-15 22:33
一种基于参数线性约束的多任务分词方法,涉及基于深度学习的自然语言处理。使用不同分词标准的数据对不同分词模型进行初步训练;对于不同分词模型,共享部分参数,对另外的参数建立线性约束关系;建立统一的目标函数,进行不同分词模型的训练。利用参数的线性约束来建模不同分词模型之间的关系,使得不同分词标准模型的训练能够使用另外分词标准的训练数据。本发明专利技术算法明确、思路清晰,利用这个方法能够扩增现有分词模型的训练数据,提高中文分词任务的性能,更好地服务于基于分词的其他自然语言处理任务。

【技术实现步骤摘要】
一种基于参数线性约束的多任务分词方法
本专利技术涉及基于深度学习的自然语言处理,尤其是涉及一种基于参数线性约束的多任务分词方法。
技术介绍
自然语言处理是计算机学科人工智能的一个重要研究方向,它研究如何使得人与计算机之间能够使用自然语言进行有效通信。它是一门融语言学、计算机科学、数学于一体的学科。中文分词是自然语言处理的基础任务,是许多上游任务比如情感分类、机器翻译等的预处理步骤。中文分词研究一直是学术界的热点。传统的方法使用面向特定任务的人工定义的特征,起到了很好的效果,但是对于特定任务如何定义有效人工特征并不是一件容易的事情。近年来随着神经网络的兴起,不少工作探索了如何使用神经网络来对中文分词进行建模(参见文献:[1~7]),效果达到甚至超过了传统方法。使用神经网络进行建模的优点在于不需要人工定义特征,网络模型能够学习有益分词任务的特征表示。工作(参见文献:[3])中使用一个长短时记忆(Long-shortTermMemory,简称LSTM)神经网络模型进行中文分词任务,效果达到了目前最好的水平。另一方面,学术界对分词任务的基础即词的基本定义有着不用的看法。许多研究者提出了不同的分词标准,并且人工标注了相应的分词语料数据。传统研究基于特定分词标准的数据集,训练出一个中文分词模型。然而这些研究受限于数据集的大小,无法充分利用不同的分词标准的数据集。对此,近年来许多研究者对如何利用不同分词标准的数据集展开了深入研究(参见文献[8~10])。文献[8]和[9]都是先在某个分词标准的数据集上训练出一个初步的分词模型,然后使用这个模型的输出作为其他分词标准的分词模型的特征。文献[10]中探索了不同分词标准的标签映射,这样可以达到数据映射的目的。但是,目前没有相关研究探索如何在深度学习中同时应用不同分词标准的数据来联合训练不同的分词模型,该问题值得深入研究。参考文献:[1]PeiW,GeT,ChangB.Max-MarginTensorNeuralNetworkforChineseWordSegmentation[C]//ACL(1).2014:293-303.[2]ZhengX,ChenH,XuT.DeepLearningforChineseWordSegmentationandPOSTagging[C]//EMNLP.2013:647-657.[3]ChenX,QiuX,ZhuC,etal.Longshort-termmemoryneuralnetworksforchinesewordsegmentation[C]//ProceedingsoftheConferenceonEmpiricalMethodsinNaturalLanguageProcessing.2015:1385-1394.[4]ChenX,QiuX,ZhuC,etal.GatedrecursiveneuralnetworkforChinesewordsegmentation[C]//ProceedingsofAnnualMeetingoftheAssociationforComputationalLinguistics.pendencyparsingusingtwoheterogeneousgatedrecursiveneuralnetworks.InProceedingsoftheConferenceonEmpiricalMethodsinNaturalLanguageProcessing.2015.[5]ChenX,QiuX,HuangX.ALongDependencyAwareDeepArchitectureforJointChineseWordSegmentationandPOSTagging[J].arXivpreprintarXiv:1611.05384,2016.[6]XuJ,SunX.Dependency-basedgatedrecursiveneuralnetworkforchinesewordsegmentation[C]//The54thAnnualMeetingoftheAssociationforComputationalLinguistics.2016:567.[7]YaoY,HuangZ.Bi-directionalLSTMRecurrentNeuralNetworkforChineseWordSegmentation[J].arXivpreprintarXiv:1602.04874,2016.[8]JiangW,HuangL,LiuQ.Automaticadaptationofannotationstandards:ChinesewordsegmentationandPOStagging:acasestudy[C]//ProceedingsoftheJointConferenceofthe47thAnnualMeetingoftheACLandthe4thInternationalJointConferenceonNaturalLanguageProcessingoftheAFNLP:Volume1-Volume1.AssociationforComputationalLinguistics,2009:522-530.[9]SunW,WanX.ReducingapproximationandestimationerrorsforChineselexicalprocessingwithheterogeneousannotations[C]//Proceedingsofthe50thAnnualMeetingoftheAssociationforComputationalLinguistics:LongPapers-Volume1.AssociationforComputationalLinguistics,2012:232-241.[10]QiuX,ZhaoJ,HuangX.JointChineseWordSegmentationandPOSTaggingonHeterogeneousAnnotatedCorporawithMultipleTaskLearning[C]//EMNLP.2013:658-668.[11]DuchiJ,HazanE,SingerY.Adaptivesubgradientmethodsforonlinelearningandstochasticoptimization[J].JournalofMachineLearningResearch,2011,12(Jul):2121-2159.
技术实现思路
本专利技术的目的在于提供一种基于参数线性约束的多任务分词方法。本专利技术包括以下步骤:1)使用不同分词标准的数据对不同中文分词模型进行初步训练;2)对于不同中文分词模型,共享部分参数,对另外的参数建立线性约束关系;3)建立统一的目标函数,进行不同分词模型的训练。在步骤1)中,所述使用不同分词标准的数据对不同分词模型进行初步训练的具体方法可为:(1)对基于长短时记忆(Long-shortTermMemory,简称LSTM)的中文分词模型,字符的嵌入表示如下:用神经网络处理字符数据的第一步是本文档来自技高网
...
一种基于参数线性约束的多任务分词方法

【技术保护点】
一种基于参数线性约束的多任务分词方法,其特征在于其包括以下步骤:1)使用不同分词标准的数据对不同分词模型进行初步训练;2)对于不同分词模型,共享部分参数,对另外的参数建立线性约束关系;3)建立统一的目标函数,进行不同分词模型的训练。

【技术特征摘要】
1.一种基于参数线性约束的多任务分词方法,其特征在于其包括以下步骤:1)使用不同分词标准的数据对不同分词模型进行初步训练;2)对于不同分词模型,共享部分参数,对另外的参数建立线性约束关系;3)建立统一的目标函数,进行不同分词模型的训练。2.如权利要求1所述一种基于参数线性约束的多任务分词方法,其特征在于在步骤1)中,所述使用不同分词标准的数据对不同分词模型进行初步训练的具体方法为:(1)对基于LSTM的中文分词模型,字符的嵌入表示如下:用神经网络处理字符数据的第一步是用向量来表示字符的语义,即CharacterEmbedding,用C表示大小为|C|的字符词典,任何在字典中的字符c都用一个实数向量vc∈Rd表示,其中d是向量空间的维度,所有字符的嵌入表示组成字符嵌入表示矩阵M(M∈R|C|×d),矩阵M中的每一行都表示对应某个字符的嵌入表示,某个字符对应的行可以通过查找表找到;标签打分如下:把中文分词看成一个分类问题,任何一个字符可以被分成四类B,M,E,S标签中的一类,分别表示一个词的开头,中间,结尾和单独一个字作为词,给定一个字符序列x=(x1,x2,…,xn),使用LSTM网络对标签进行打分;对于字符xt(1≤t≤n),网络的输入为:其中,表示拼接,k1、k2分别表示当前字符左边和右边的窗口大小,将x输入到LSTM单元,进一步得到:其中,ct,ht分别表示LSTM单元在t时刻的记忆单元和隐层状态,向量it,ot,ft分别表示时刻t的LSTM输入,输出和遗忘门,用于控制LSTM单元信息记忆存储,表示对应的元素相乘,W1,b1是模型的参数;再根据以下公式计算在当前上下文下各个标签的分数:st=W2ht+b2其中,W2和b2也为网络的参数;为了建模标签之间的关系,进一步引入来度量从标签yt-1转移到yt的概率,yt表示xt对应的标签,经过上述过程,输入句子x的标签序列y的分数计算如下:

【专利技术属性】
技术研发人员:苏劲松阮志伟纪荣嵘
申请(专利权)人:厦门大学
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1