当前位置: 首页 > 专利查询>同济大学专利>正文

基于ResLCNN模型的短文本分类方法技术

技术编号:17007507 阅读:25 留言:0更新日期:2018-01-11 03:51
基于ResLCNN模型的短文本分类方法。本发明专利技术涉及文本挖掘和深度学习技术领域,特别涉及到用于短文本分类的深度学习模型。本发明专利技术的技术方案是结合长短时记忆网络和卷积神经网络的特性,搭建了用于短文本分类的ResLCNN深层文本分类模型。该模型包含三层长短时记忆网络层和一层卷积神经网络层,并借鉴残差模型理论,在第一层长短时记忆网络层与卷积神经网络层之间加入恒等映射,构建残差层,缓解了深层模型梯度消失问题。该模型有效结合长短时记忆网络获取文本序列数据的长距离依赖特征和卷积神经网络通过卷积操作获取句子局部特征的优势,提高了短文本分类效果。

【技术实现步骤摘要】
基于ResLCNN模型的短文本分类方法
本专利技术涉及文本挖掘和深度学习领域,特别涉及到一种用于短文本分类的深度学习模型。
技术介绍
短文本分类是自然语言处理中的关键任务,能够帮助用户从海量数据中发掘有用信息。句子模型目的是学习文本特征对句子进行表征,是短文本分类的关键模型,对于情感识别、问答系统、翻译等任务都有重要意义。传统的句子模型使用的是词袋模型。基于向量空间模型表示方法,句子和文档被看作是无序的单词集合,每个特征词之间相互独立,模型没有包含词序和语法信息,并且,普遍具有维度灾难、稀疏等问题。所以,随着研究不断改进,对词序敏感的深度神经网络框架成为句子模型的主流框架。不同于传统的方法,神经网络句子模型是基于词向量来训练的。词向量是神经网络语言模型的副产品,将词表达为低维度的向量,可以用欧氏距离来衡量向量的距离。目前,有研究者采用Skip-gram模型来预测上下文训练词向量,一同出现的信息被有效地用于表示单词,可以更好地表达出语义或句法信息。词向量具有两大特性:一是语义相近词的词向量距离相近;二是词向量线性运算也具有意义。神经网络句子模型能够自己学习如何抓取特征,这些特征比人为处理的特征在后期的自然语言处理任务中表现得更好。深度神经网络可以分为两部分:特征层(Features)和映射层(MappingLayer)。特征层,顾名思义,就是学习提取输入数据的特征;映射层是将获取的特征映射到输出层,用于分类或者递归任务。基于深度学习的句子模型关键是能通过多个特征层学习到更复杂的特征。卷积神经网络和循环神经网络(RecurrentNeuralNetwork,RNN)是应用到句子模型的两种典型深度学习框架。卷积神经网络采用权重共享的策略,可以在空间上获取较好的局部特征,在计算机视觉、语音识别领域取得了领先的研究成果,随后在语义分析、查询检索、句子建模等自然语言处理任务中都取得了较好的实分类效果。在模型中,卷积神经网络通过不同大小的卷积核来获取句子中不同的词组特征,并利用池化操作提取不同长度、不同位置的重要词组特性。循环神经网络是另一个广泛应用在自然语言处理任务中的神经网络框架。它在时间结构上存在共享特性,能够顺序处理任意长度的句子。但是存在梯度消失和梯度爆炸的问题。为了解决该问题,能够更好的记忆信息,长短时记忆网络(LongShort-TermMemory,LSTM)应运而生,并在机器翻译、情感分类、答案排序、事件获取等方面都表现良好。CNN和LSTM是比较典型的两种获取特征的神经网络结构。CNN利用卷积核在空间上获取局部特征,LSTM则能够在时间序列上获取依赖特征,它们各有优势。目前,在一些任务中,已经有结合CNN与LSTM的相关研究。例如:图片描述、语音识别、语言模型、句子文档建模等。他们训练卷积神经网络获取空间上的特征,通过长短时记忆网络结合序列方向上的特征,在空间结构和时间序列特征比较重要的任务中表现优异。深度学习的优势在于通过多个特征层来得到更复杂、更高级的特征。但是,深层的神经网络面临的一个挑战是梯度消失问题。有研究也证实多层LSTM由于梯度消失问题出现了性能“退化”,效果不如两层的LSTM好。这主要是因为误差无法有效地反向传播到上层网络,致使上层网络的参数没能充分地优化。残差网络就是为改进深层神经网络梯度消失而提出的。有研究者对残差网络进行深入研究,得出同深度的残差网络效果更好,并且计算量更少。
技术实现思路
本专利技术要解决的技术问题是提供一种面向短文本分类的深度学习模型,有效结合长短时记忆网络和卷积神经网络,从时序和空间两个层次获取文本特征,并加深网络层以学习到更复杂的特征,改进短文本分类效果。为达到上述专利技术目的,本专利技术技术方案:一种基于三层LSTM和CNN网络结构的ResLCNN深度学习模型,其特征在于,采用多层LSTM获取文本序列的长距离依赖特征,利用CNN层通过卷积操作获取句子局部特征,有效结合LSTM和CNN从时序和空间两个层次获取特征,并借鉴残差网络理论,在第一层长短时记忆网络层与卷积神经网络层之间加入恒等映射,构建残差层,缓解了深层模型梯度消失问题。本专利技术首先采用多层LSTM获取文本序列的长距离依赖特征,并将第一层LSTM的输出与第三层LSTM的输出相加,作为CNN层的输入,然后CNN层通过卷积操作结合句子空间上的特征,从而得到更复杂、更有效的文本特征。本专利技术给出了具体的方法过程技术方案,包括步骤如下:(1)输入层,预处理数据集。获取输入文本中每个单词的词向量。按照文本中单词顺序,构成表示文本的词向量矩阵M0。(2)长短时记忆网络层。以词向量构成的文本矩阵M0作为输入,长短时记忆网络层根据输入门、遗忘门、输出门过滤信息,并通过线性自连接的记忆单元积累信息,将其作为中间产物来计算当前时刻隐藏层输出,获得文本时序上的特征矩阵M1。(3)残差层。残差层有两条数据流,一条是恒等映射,结果和输入等同;另一条是残差块,包含两层长短时记忆网络,是ResLCNN模型的第二和第三网络层,对步骤(2)获得的特征矩阵M1进行同样的时序处理,学习更深层次的长距离依赖特征。残差层的输出是残差块与恒等映射两条数据流结合后的特征矩阵M3。(4)卷积神经网络层。使用多个卷积核对残差层输出的特征矩阵M3进行卷积运算,提取局部卷积特征;采用max-over-timepooling算法对局部卷积特征矩阵进行下采样,选取最优的特征,将得到的全局特征矩阵转换为语义特征向量M4。(5)Softmax分类器。将文本的语义特征向量赋予分类器,对文本的类别进行预测。在上述方法中,所述步骤(1)输入层对数据集预处理的具体方法如下:对于长度为n的文本,首先从Word2Vec(谷歌词向量)和GloVe(全局词向量)中查询每个单词对应的词向量,没有的采用正态分布函数生成;然后,将两种词向量按照公式(1)相结合得到对应单词的词向量x。随后,将每个单词的词向量按照文本顺序进行连接,见公式(2),得到词向量矩阵M0。M0=[x1,x2,…,xn](2)在上述方法中,所述步骤(2)长短时记忆网络层的对输入词向量矩阵M0的运算过程如下:公式(3)中,σ(·)和tanh(·)分别代表的是sigmoid函数和双曲正切函数。xt表示矩阵M0的第t个词的词向量。输入门it,遗忘门ft,输出门ot,这三个门是用来控制信息量的,相当于过滤器的作用。上一时刻的记忆单元Ct-1经过遗忘门ft得到从上一时刻累积流入的信息,当前输入信息经过输入门it得到当前更新流入的信息,两者相加获得当前时刻记忆单元Ct。而当前时刻隐藏层的输出ht是从Ct计算来的,将Ct通过非线性的tanh函数处理后,再由输出门ot过滤。简单来说,每一步LSTM根据输入xt、ht-1、Ct-1计算出当前时刻的ht、Ct,最后,获得文本时序上的特征矩阵M1=[h1,h2,…,hn]。在上述方法中,所述步骤(3)残差层的输出为M3=F(M1,W)+M1。其中F表示残差函数,W为权重。F(M1,W)为残差块两层长短时记忆网络的拟合结果。恒等映射的结果即输入M1。将两条数据流的结果矩阵进行按位相加得到特征矩阵M3,作为下一个网络层的输入。残差层缓解深层网络梯度消失问题的原理见公式(4)。公式(4)是梯本文档来自技高网
...
基于ResLCNN模型的短文本分类方法

【技术保护点】
一种基于ResLCNN模型的短文本分类方法,其特征在于,采用多层LSTM获取文本序列的长距离依赖特征,利用CNN层通过卷积操作获取句子局部特征,有效结合LSTM和CNN从时序和空间两个层次获取特征,并借鉴残差网络理论,在第一层长短时记忆网络层与卷积神经网络层之间加入恒等映射,构建残差层,缓解了深层模型梯度消失。

【技术特征摘要】
1.一种基于ResLCNN模型的短文本分类方法,其特征在于,采用多层LSTM获取文本序列的长距离依赖特征,利用CNN层通过卷积操作获取句子局部特征,有效结合LSTM和CNN从时序和空间两个层次获取特征,并借鉴残差网络理论,在第一层长短时记忆网络层与卷积神经网络层之间加入恒等映射,构建残差层,缓解了深层模型梯度消失。2.如权利要求1所述的方法,其特征在于,包括步骤如下:(1)输入层,预处理数据集。获取输入文本中每个单词的词向量。按照文本中单词顺序,构成表示文本的词向量矩阵M0。(2)长短时记忆网络层。以词向量构成的文本矩阵M0作为输入,长短时记忆网络层根据输入门、遗忘门、输出门过滤信息,并通过线性自连接的记忆单元积累信息,将其作为中间产物来计算当前时刻隐藏层输出,获得文本时序上的特征矩阵M1。(3)残差层。残差层有两条数据流,一条是恒等映射,结果和输入等同;另一条是残差块,包含两层长短时记忆网络,是ResLCNN模型的第二和第三网络层,对步骤(2)获得的特征矩阵M1进行同样的时序处理,学习更深层次的长距离依赖特征。残差层的输出是残差块与恒等映射两条数据流结合后的特征矩阵M3。(4)卷积神经网络层。使用多个卷积核对残差层输出的特征矩阵M3进行卷积运算,提取局部卷积特征;采用max-over-timepooling算法(此算法在本领域已属现有技术)对局部卷积特征矩阵进行下采样,选取最优的特征,将得到的全局特征矩阵转换为语义特征向量M4。(5)Softmax分类器。将文本的语义特征向量赋予分类器,对文本的类别进行预测。3.如权利要求2所述的方法,其特征在于,所述步骤(1)输入层对数据集预处理的具体方法如下:对于长度为n的文本,首先从Word2Vec(谷歌词向量)和GloVe(全局词向量)中查询每个单词对应的词向量,没有的采用正态分布函数生成;然后,将两种词向量按照公式(1)相结合得到对应单词的词向量x。随后,将每个单词的词向量按照文本顺序进行连接,见公式(2),得到词向量矩阵M0。M0=[x1,x2,...,xn](2)4.如权利要求2所述的方法,其特征在于,所述步骤(2)长短时记忆网络层的对输入词向量矩阵M0的运算过程如下:公式(3)中,σ(·)和tanh(·)分别代表的是sigmoid函数和双曲正切函数。xt表示矩阵M0的第t个词...

【专利技术属性】
技术研发人员:王俊丽杨亚星王小敏
申请(专利权)人:同济大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1