一种基于CNN与Bi-GRU的文本分类方法技术

技术编号:24122817 阅读:33 留言:0更新日期:2020-05-13 03:36
本发明专利技术公开了一种基于CNN与Bi‑GRU的文本分类方法,包括如下步骤:步骤一、对文本数据进行卷积神经网络建模,得到包含局部隐含信息的第一种文本特征表达式;步骤二、对文本数据进行Bi‑GRU神经网络建模,得到包含整个句子两个方向的序列信息的第二种文本特征表达式;步骤三、对步骤一和步骤二得到的两种文本特征表达式进行特征融合,利用LSSVM分类器进行分类。利用本发明专利技术的方法不但捕捉句子局部特征及上下文语义信息,还通过融合两种不同的文本特征表达,得到文本更多样化、丰富的特征表达,进一步提高分类的准确性。

【技术实现步骤摘要】
一种基于CNN与Bi-GRU的文本分类方法
本专利技术涉及一种基于CNN与Bi-GRU的文本分类方法。
技术介绍
文本分类技术是信息检索和文本挖掘的重要基础,其主要任务是在预先给定的类别标记集合下,根据文本内容判定它的类别。文本分类在自然语言处理与理解、信息组织与管理、内容信息过滤等领域都有着广泛的应用。文本分类有多种常用的方法,例如基于词典和规则的无监督方法,基于机器学习的有监督方法。基于词典的方法,利用权威的词典,依照经验人工构造特征,模型准确率较高,但由于词典覆盖率较低,导致模型召回率较低。基于机器学习的有监督方法,利用最大熵模型、朴素贝叶斯、KNN等机器学习方法建模。这些机器学习方法较成熟,理论基础较为坚实,应用广泛,分类效果较好,但受限于文本规模。因为基于机器学习方法需要有类别标签的文本作为训练的输入,而文本的标签需要花费大量的人力物力,因此数据规模一般较小。最近,基于深度学习的方法引起广大学者的重视。基于深度学习的方法只需要少量标识文本和大量未标识文本即可。与传统的机器学习方法不同,基于深度学习的方法不需要手动构造特征,而是通过层次结构自动学习特征,高层的特征通过底层特征的不同组合方式构建,得到的特征具有更丰富的抽象表达能力。获取输入文本句子的句向量的方法可以分成两类,一种方法是基于词向量的方法,通过不同的组合方式构造句向量,称为组合法。另一种是不通过词向量,直接训练句子得到句向量,称为分布法。组合法中可使用不同的神经网络结构组合句向量,例如卷积神经网络、循环神经网络等。卷积神经网络是一种经典的神经网络结构,具有局部感知和共享参数的特点,能够较好捕获到局部信息。但普通的卷积神经网络设定固定的过滤器和池化操作类型,捕获到的局部信息粒度固定、较为死板,缺少多样性。基于时间序列的循环神经网络,会出现梯度消失的问题。因此为解决这个问题,LSTM及GRU被提出,通过引进了遗忘门等机制,解决了长时依赖问题,能够较好地捕获到序列信息。但普通的循环神经网络对序列信息只是单方向建模,而文本不具有方向性,这样会使得捕获的序列信息较为片面。卷积神经网络(CNN)和循环神经网络(RNN)在自然语言处理上得到广泛应用,但由于自然语言在结构上存在着前后依赖关系,仅依靠卷积神经网络实现文本分类将忽略词的上下文含义,且传统的循环神经网络存在梯度消失或梯度爆炸问题,限制了文本分类的准确率。
技术实现思路
为了克服现有技术的上述缺点,本专利技术提供了一种基于CNN与Bi-GRU的文本分类方法。本专利技术使用CNN和Bi-GRU神经网络获取文本丰富的特征表达,使用较成熟的LSSVM分类器代替神经网络最后一层softmax层作为文本分类器,结合了深度学习能够得到抽象的高层特征表达的特点与机器学习方法成熟、理论基础较为坚实、分类效果较好、应用广泛的优点。利用本专利技术的方法不但捕捉句子局部特征及上下文语义信息,还通过融合两种不同的文本特征表达,得到文本更多样化、丰富的特征表达,进一步提高分类的准确性。本专利技术解决其技术问题所采用的技术方案是:一种基于CNN与Bi-GRU的文本分类方法,包括如下步骤:步骤一、对文本数据进行卷积神经网络建模,得到包含局部隐含信息的第一种文本特征表达式;步骤二、对文本数据进行Bi-GRU神经网络建模,得到包含整个句子两个方向的序列信息的第二种文本特征表达式;步骤三、对步骤一和步骤二得到的两种文本特征表达式进行特征融合,利用LSSVM分类器进行分类。与现有技术相比,本专利技术的积极效果是:(1)本专利技术使用的卷积神经网络,得到包含局部隐含信息的文本特征表达,能够捕获更全面的局部信息。(2)本专利技术使用Bi-GRU循环神经网络,得到整个句子两个方向的序列信息的文本特征表达,能够捕获更充分的序列信息。(3)本专利技术使用卷积神经网络和循环神经网络获取文本丰富的特征表达,使用较成熟的LSSVM分类器代替神经网络最后一层softmax层,作为文本分类器,结合了深度学习能够得到抽象的高层特征表达的特点与机器学习方法成熟、理论基础较为坚实、分类效果较好、应用广泛的优点。(4)本专利技术通过特征融合方式,融合两种不同的文本特征表达,得到文本更多样化、丰富的特征表达。附图说明本专利技术将通过例子并参照附图的方式说明,其中:图1为文本分类算法框架示意图;图2为Bi-GRU循环神经网络基本结构图。具体实施方式一种基于CNN与Bi-GRU的文本分类方法,框架如图1所示。该方法主要通过卷积神经网络与双向GRU循环神经网络两种神经网络结构,获取文本两种抽象的高层特征表达,通过特征融合方式,使用分类器对文本进行分类。包括以下步骤:1)对文本进行多角度的卷积神经网络的建模,包括不同的过滤器类型及池化类型,去掉最后一层softmax层,得到局部隐含信息的特征表达。具体步骤如下:1.1)建立两种不同类型的过滤器,一种为整体过滤器,就是匹配整个词向量的过滤器,另一种为单维过滤器,就是在词向量的每一维上进行匹配;假设句子输入Input∈Rlength×Dim是length个词语序列,每一个词语均由Dim维词向量表示,Inputi∈RDim代表词语序列中第i个词向量,Inputi:j代表第i到j个包括第j个词向量的连接,代表第i个词向量的第m维,代表第i到j个包括第j个词向量的第m维;假设一个整体过滤器F为四元组<ws,wf,bf,hf>,其中ws为滑窗宽度、wf∈Rws×Dim为过滤器F的权重向量,bf∈R为偏置,hf为激活函数;当过滤器F应用于输入词语序列Input,wf与Input内每一个长度为ws的词向量窗口进行内积,加上偏置bf,应用激活函数hf,得到输出向量outF∈R1+length-ws;其中第i项outF[i]=hf(wf·Inputi:i+ws-1+bf),其中i∈[1,1+len-ws];假设一个单维过滤器F[m]应用于词向量的第m维,由<ws,wfm,bfm,hfm>元组表示,其中ws为滑窗宽度,wfm∈Rws为过滤器F[m]的权重向量,bfm为偏置,hfm为激活函数;过滤器F[m]的输出向量其中第i项1.2)对卷积层输出向量使用不同池化操作;假设group(ws,pooling,Input)是针对输入句子Input进行滑窗宽度ws的卷积操作和池化操作的操作对象,其中pooling∈{max,min,mean};假设对于group(ws,pooling,Input),它的卷积层由Num个过滤器,其中过滤器包括整体过滤器、单维过滤器两种;假设池化层的输出向量为oG∈Rnum,其中第j项1.3)建立多角度的卷积神经网络,输入文本进行训练;1.4)训练完成后,去掉最后一层softmax层,输入文本,输出为文本第一种特征表达式;2)对文本数据进行Bi-GRU神经网络的建模。具体步骤如下:2.1)建立Bi-GRU循环神经网络模型结构(如图2所示),对于本文档来自技高网
...

【技术保护点】
1.一种基于CNN与Bi-GRU的文本分类方法,其特征在于:包括如下步骤:/n步骤一、对文本数据进行卷积神经网络建模,得到包含局部隐含信息的第一种文本特征表达式;/n步骤二、对文本数据进行Bi-GRU神经网络建模,得到包含整个句子两个方向的序列信息的第二种文本特征表达式;/n步骤三、对步骤一和步骤二得到的两种文本特征表达式进行特征融合,利用LSSVM分类器进行分类。/n

【技术特征摘要】
1.一种基于CNN与Bi-GRU的文本分类方法,其特征在于:包括如下步骤:
步骤一、对文本数据进行卷积神经网络建模,得到包含局部隐含信息的第一种文本特征表达式;
步骤二、对文本数据进行Bi-GRU神经网络建模,得到包含整个句子两个方向的序列信息的第二种文本特征表达式;
步骤三、对步骤一和步骤二得到的两种文本特征表达式进行特征融合,利用LSSVM分类器进行分类。


2.根据权利要求1所述的一种基于CNN与Bi-GRU的文本分类方法,其特征在于:步骤一所述对文本数据进行卷积神经网络建模的方法为:
1.1)建立两种不同类型的过滤器,一种为整体过滤器,用于匹配整个词向量,另一种为单维过滤器,用于在词向量的每一维上进行匹配;
1.2)对卷积层输出向量使用不同池化操作;
1.3)建立多角度的卷积神经网络,输入文本进行训练;
1.4)训练完成后,去掉最后一层softmax层,输入文本,输出为第一种文本特征表达式。


3.根据权利要求2所述的一种基于CNN与Bi-GRU的文本分类方法,其特征在于:所述整体过滤器对整个词向量进行匹配的方法为:
对于句子输入Input∈Rlength×Dim是length个词语序列,每一个词语均由Dim维词向量表示,Inputi∈RDim代表词语序列中第i个词向量,Inputi:j代表第i到j个包括第j个词向量的连接,
设一个整体过滤器F为四元组<ws,wf,bf,hf>,其中ws为滑窗宽度、wf∈Rws×Dim为过滤器F的权重向量,bf∈R为偏置,hf为激活函数;
当过滤器F应用于输入词语序列Input时,wf与Input内每一个长度为ws的词向量窗口进行内积,加上偏置bf,应用激活函数hf,得到输出向量outF∈R1+length-ws;其中第i项outF[i]=hf(wf·Inputi:i+ws-1+bf),其中i∈[1,1+len-ws]。


4.根据权利要求3所述的一种基于CNN与Bi-GRU的...

【专利技术属性】
技术研发人员:姬少培颜亮董贵山刘栋
申请(专利权)人:中国电子科技集团公司第三十研究所
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1