基于循环神经网络变体和卷积神经网络的文本分类算法制造技术

技术编号:20425373 阅读:32 留言:0更新日期:2019-02-23 08:34
本发明专利技术公开了一种基于循环神经网络变体和卷积神经网络的文本分类算法,具体为:步骤1,对数据集SogouC和数据集THUCNews进行预处理,并将两个数据集均分为训练集和测试集,并将各自训练集和测试集中的文本数据均训练为句向量;步骤2,利用步骤1中两个数据集中的训练集中文本建立BGRU‑CNN混合模型,步骤3,建立目标函数,采用随机梯度下降方法训练经步骤2建立好的BGRU‑CNN混合模型;步骤4,将两个数据集中将测试集的文本句向量输入经步骤3训练好的BGRU‑CNN混合模型中,得到分类结果。本发明专利技术解决了现有技术中存在的长文本在文本分类时提取语义关键特征难度大,分类效果差的问题。

【技术实现步骤摘要】
基于循环神经网络变体和卷积神经网络的文本分类算法
本专利技术属于自然语言处理方法
,涉及一种基于循环神经网络变体和卷积神经网络的文本分类算法。
技术介绍
当前,互联网发展迅猛,每时每刻产生大量文本信息。如何对大量文本进行有效的分类以及管理,进而快速了解信息价值,是许多研究者关注的焦点。其中,长文本内容多,包含多个不同关键字。所以,在文本分类中,保持长文本的结构完整,保持文本词之间的顺序,学习文本上下文语义,可以提高长文本的文本分类效果。文本分类主要包括文本表示、分类器的选择与训练、分类结果的评价与反馈等工作。其中文本表示是影响分类结果的关键步骤。词袋模型在文本表示中应用最为广泛,它将文本表示为高维度,高稀疏的One-hot向量。但One-hot向量因未考虑文本的语序和上下词之间的联系,词之间相互独立,导致文本信息大量丢失。为了克服词袋模型文本表示的缺陷,词向量的概念应运而生,将词表示成一个定长的连续的稠密向量。Skip-gram和CBOW神经网络模型提升了词向量训练的效率。PV-DM神经网络模型,考虑了文本的语序信息,将文本表示为定长的句向量或者段落向量。在文本的分类器训练方面,主要采用浅层的朴素贝叶斯,支持向量机,最大熵模型等机器学习模型。而基于时间序列的循环神经网络模型,解决了浅层机器学习模型对关联性强的样本分类效果差,无法学习到类别内信息等问题。卷积神经网络用于文本处理,通过共享权重提升了文本分类的性能。目前暂时没有出现将循环神经网络变体和卷积神经网络进行结合进行文本分类的有效算法。
技术实现思路
本专利技术的目的是提供一种基于循环神经网络变体和卷积神经网络的文本分类算法,将循环神经网络变体和卷积神经网络结合,解决了现有技术中存在的长文本在文本分类时提取语义关键特征难度大,分类效果差的问题。本专利技术所采用的技术方案是,基于循环神经网络变体和卷积神经网络的文本分类算法,具体按照以下步骤实施:步骤1,对数据集SogouC和数据集THUCNews进行预处理,并将经过预处理的数据集SogouC和数据集THUCNews均分为训练集和测试集,并将各自训练集和测试集中的文本数据均训练为句向量;步骤2,利用步骤1中两个数据集中的训练集中文本建立BGRU-CNN混合模型,具体为:将两个数据集中训练集的文本句向量,经过循环层捕捉句子上下文信息,卷积层提取文本的关键特征,通过Softmax分类,输出文本属于某个类别的概率;步骤3,建立目标函数,采用随机梯度下降方法训练经步骤2建立好的BGRU-CNN混合模型;步骤4,将两个数据集中将测试集的文本句向量输入经步骤3训练好的BGRU-CNN混合模型中,得到分类结果。对数据集SogouC和数据集THUCNews进行预处理具体为:采用jieba中文分词进行对数据集SogouC和数据集THUCNews进行分词,去除停用词和标点符号。数据集SogouC和数据集THUCNews中训练集中的文本数据量与测试集中的文本数据量之比为7:3。步骤1中通过PV-DM模型将两个数据集中各自的训练集和测试集中的文本数据均训练为句向量。步骤2中利用步骤1中两个数据集中的训练集中文本建立BGRU-CNN混合模型的具体步骤为:步骤2.1,经过循环神经网络保留文本的语序信息采用双向循环结构分别捕获两个数据集的训练集文本第i个句子Si上文L(Si)和句子下文R(Si)的信息,计算方式如公式(1)和公式(2);L(Si)=f(W(l)L(Si-1)+W(sl)e(Si-1)),(1)R(Si)=f(W(r)R(Si+1)+W(sr)e(Si+1)),(2)其中,公式(1)中,e(Si-1)表示句子Si-1的句向量,L(Si-1)表示句子Si-1的上文信息,W(sl)表示Si句子和Si-1句子语义信息组合的权阵,W(l)为隐藏层的转换权阵,f为激活函数,然后,通过公式(3)构成训练集文本第i个句子的句向量xi,保留了句子左侧的信息L(Si)和右侧的信息R(Si);xi=[L(Si);e(Si);R(Si)](3)采用GRU结构进行神经元的节点设计,GRU网络节点通过重置门r和更新门z对输入信息进行处理,t时刻的激活状态ht计算方式如公式(4);ht-1是t-1时刻的激活状态,与ht呈线性关系表示向量矩阵对应元素相乘;zt表示t时刻更新门的状态,计算方式为公式(5);t时刻的激活状态hc的计算方式如公式(6);t时刻的重置门rt的计算方式如公式(7);zt=σ(Wzxt+Uzht-1),(5)rt=σ(Wrxt+Urht-1),(7)其中,σ为sigmoid函数,xt是t时刻该节点输入的句向量,Wz,Wx,Wr和Uz,U,Ur是更新门z、当前候选的激活状态hc和重置门r要训练的权重参数;步骤2.2,根据循环层,分别得到两个训练集中的整个文本的语序特征句向量xi后,使用CNN卷积神经网络进行深层次特征的提取,最后经Softmax分类,得到分类结果。步骤2.2具体按照以下步骤实施:步骤2.2.1在循环层获取所有句向量xi后,使用CNN网络进行特征yi的提取,计算方式如公式(8)所示;yi=f(w·xi:h+b),(8)其中,卷积核用w∈Rhk来表示,h和k分别表示卷积核的窗口高度和宽度,用来对循环层的输出进行卷积,xi:h表示输入特征向量第i行到第h行的特征值,b为偏置项,f为激活函数;获取所有yi后,通过公式(9),构建关键特征图Y;Y=[y1,y2,y3...yn],(9)然后使用最大池化层来确定文本的最佳特征,计算方式如公式(10)所示;步骤2.2.2,得到最佳特征y,然后将其输入分类层分类,分类层采用dropout方式将最佳特征y连接到Softmax分类器中,其输出向量O的计算方式如公式(11)所示:O=f(Wccd+bc),(11)其中,Wc和bc分别表示Softmax分类器的权重参数和偏置项,cd为通过dropout产生的向量,f为sigmoid函数;最后根据输出向量O预测文本属于第k类的概率,其计算方式如公式(12)所示;其中,Ok表示输出向量O中的第k个元素,N表示类别数。步骤3建立目标函数,采用随机梯度下降方法训练经步骤2建立好的BGRU-CNN混合模型的具体过程如下:将所有BGRU-CNN模型的参数定义为θ;将循环层所有参数定义为包括初始上下文信息L(S1)和R(Sn)、权重参数W(sl)、W(l)、W(sr)、W(r);将卷积层所有参数定义为包括Wz、Wx、Wr、Uz、U、Ur;则θ包括句向量S、偏置项bc、Wc、w,如公式(13)所示,其中,S代表整个训练集文本的句向量;然后经过神经网络训练,找到最小代价的θ,如公式(14)所示:其中D为训练的文档集,p(classT|T,θ)表示文档T在参数θ下属于目标类别classT的概率,采用随机梯度下降方法训练BGRU-CNN模型,则θ的更新如公式(15)所示,其中α为学习率:得到训练好的BGRU-CNN混合模型。步骤4具体为:使用测试集中的文本按照步骤2.1-2.2的方法,将测试集中的文本输入到训练好BGRU-CNN模型中,得到分类结果。本专利技术的有益效果是:与现有的方法相比,针对长文本在文本分类时提取语义关键特征难度大,分类效果差等问题,经双本文档来自技高网...

【技术保护点】
1.基于循环神经网络变体和卷积神经网络的文本分类算法,其特征在于,具体按照以下步骤实施:步骤1,对数据集SogouC和数据集THUCNews进行预处理,并将经过预处理的数据集SogouC和数据集THUCNews均分为训练集和测试集,并将各自训练集和测试集中的文本数据均训练为句向量;步骤2,利用步骤1中两个数据集中的训练集中文本建立BGRU‑CNN混合模型,具体为:将两个数据集中训练集的文本句向量,经过循环层捕捉句子上下文信息,卷积层提取文本的关键特征,通过Softmax分类,输出文本属于某个类别的概率;步骤3,建立目标函数,采用随机梯度下降方法训练经步骤2建立好的BGRU‑CNN混合模型;步骤4,将两个数据集中将测试集的文本句向量输入经步骤3训练好的BGRU‑CNN混合模型中,得到分类结果。

【技术特征摘要】
1.基于循环神经网络变体和卷积神经网络的文本分类算法,其特征在于,具体按照以下步骤实施:步骤1,对数据集SogouC和数据集THUCNews进行预处理,并将经过预处理的数据集SogouC和数据集THUCNews均分为训练集和测试集,并将各自训练集和测试集中的文本数据均训练为句向量;步骤2,利用步骤1中两个数据集中的训练集中文本建立BGRU-CNN混合模型,具体为:将两个数据集中训练集的文本句向量,经过循环层捕捉句子上下文信息,卷积层提取文本的关键特征,通过Softmax分类,输出文本属于某个类别的概率;步骤3,建立目标函数,采用随机梯度下降方法训练经步骤2建立好的BGRU-CNN混合模型;步骤4,将两个数据集中将测试集的文本句向量输入经步骤3训练好的BGRU-CNN混合模型中,得到分类结果。2.根据权利要求1所述的基于循环神经网络变体和卷积神经网络的文本分类算法,其特征在于,所述对数据集SogouC和数据集THUCNews进行预处理具体为:采用jieba中文分词进行对数据集SogouC和数据集THUCNews进行分词,去除停用词和标点符号。3.根据权利要求1所述的基于循环神经网络变体和卷积神经网络的文本分类算法,其特征在于,所述数据集SogouC和数据集THUCNews中训练集中的文本数据量与测试集中的文本数据量之比为7:3。4.根据权利要求1所述的基于循环神经网络变体和卷积神经网络的文本分类算法,其特征在于,所述步骤1中通过PV-DM模型将两个数据集中各自的训练集和测试集中的文本数据均训练为句向量。5.根据权利要求1所述的基于循环神经网络变体和卷积神经网络的文本分类算法,其特征在于,所述步骤2中利用步骤1中两个数据集中的训练集中文本建立BGRU-CNN混合模型的具体步骤为:步骤2.1,经过循环神经网络保留文本的语序信息采用双向循环结构分别捕获两个数据集的训练集文本第i个句子Si上文L(Si)和句子下文R(Si)的信息,计算方式如公式(1)和公式(2);L(Si)=f(W(l)L(Si-1)+W(sl)e(Si-1)),(1)R(Si)=f(W(r)R(Si+1)+W(sr)e(Si+1)),(2)其中,公式(1)中,e(Si-1)表示句子Si-1的句向量,L(Si-1)表示句子Si-1的上文信息,W(sl)表示Si句子和Si-1句子语义信息组合的权阵,W(l)为隐藏层的转换权阵,f为激活函数,然后,通过公式(3)构成训练集文本第i个句子的句向量xi,保留了句子左侧的信息L(Si)和右侧的信息R(Si);xi=[L(Si);e(Si);R(Si)](3)采用GRU结构进行神经元的节点设计,GRU网络节点通过重置门r和更新门z对输入信息进行处理,t时刻的激活状态ht计算方式如公式(4);ht-1是t-1时刻的激活状态,与ht呈线性关系,表示向量矩阵对应元素相乘;zt表示t时刻更新门的状态,计算方式为公式(5);t时刻的激活状态hc的计算方式如公式(6);t时...

【专利技术属性】
技术研发人员:李云红梁思程汤汶慕兴张轩张欢欢聂梦瑄
申请(专利权)人:西安工程大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1