【技术实现步骤摘要】
基于循环神经网络变体和卷积神经网络的文本分类算法
本专利技术属于自然语言处理方法
,涉及一种基于循环神经网络变体和卷积神经网络的文本分类算法。
技术介绍
当前,互联网发展迅猛,每时每刻产生大量文本信息。如何对大量文本进行有效的分类以及管理,进而快速了解信息价值,是许多研究者关注的焦点。其中,长文本内容多,包含多个不同关键字。所以,在文本分类中,保持长文本的结构完整,保持文本词之间的顺序,学习文本上下文语义,可以提高长文本的文本分类效果。文本分类主要包括文本表示、分类器的选择与训练、分类结果的评价与反馈等工作。其中文本表示是影响分类结果的关键步骤。词袋模型在文本表示中应用最为广泛,它将文本表示为高维度,高稀疏的One-hot向量。但One-hot向量因未考虑文本的语序和上下词之间的联系,词之间相互独立,导致文本信息大量丢失。为了克服词袋模型文本表示的缺陷,词向量的概念应运而生,将词表示成一个定长的连续的稠密向量。Skip-gram和CBOW神经网络模型提升了词向量训练的效率。PV-DM神经网络模型,考虑了文本的语序信息,将文本表示为定长的句向量或者段落向量。在文本的分类器训练方面,主要采用浅层的朴素贝叶斯,支持向量机,最大熵模型等机器学习模型。而基于时间序列的循环神经网络模型,解决了浅层机器学习模型对关联性强的样本分类效果差,无法学习到类别内信息等问题。卷积神经网络用于文本处理,通过共享权重提升了文本分类的性能。目前暂时没有出现将循环神经网络变体和卷积神经网络进行结合进行文本分类的有效算法。
技术实现思路
本专利技术的目的是提供一种基于循环神经网络变体和卷 ...
【技术保护点】
1.基于循环神经网络变体和卷积神经网络的文本分类算法,其特征在于,具体按照以下步骤实施:步骤1,对数据集SogouC和数据集THUCNews进行预处理,并将经过预处理的数据集SogouC和数据集THUCNews均分为训练集和测试集,并将各自训练集和测试集中的文本数据均训练为句向量;步骤2,利用步骤1中两个数据集中的训练集中文本建立BGRU‑CNN混合模型,具体为:将两个数据集中训练集的文本句向量,经过循环层捕捉句子上下文信息,卷积层提取文本的关键特征,通过Softmax分类,输出文本属于某个类别的概率;步骤3,建立目标函数,采用随机梯度下降方法训练经步骤2建立好的BGRU‑CNN混合模型;步骤4,将两个数据集中将测试集的文本句向量输入经步骤3训练好的BGRU‑CNN混合模型中,得到分类结果。
【技术特征摘要】
1.基于循环神经网络变体和卷积神经网络的文本分类算法,其特征在于,具体按照以下步骤实施:步骤1,对数据集SogouC和数据集THUCNews进行预处理,并将经过预处理的数据集SogouC和数据集THUCNews均分为训练集和测试集,并将各自训练集和测试集中的文本数据均训练为句向量;步骤2,利用步骤1中两个数据集中的训练集中文本建立BGRU-CNN混合模型,具体为:将两个数据集中训练集的文本句向量,经过循环层捕捉句子上下文信息,卷积层提取文本的关键特征,通过Softmax分类,输出文本属于某个类别的概率;步骤3,建立目标函数,采用随机梯度下降方法训练经步骤2建立好的BGRU-CNN混合模型;步骤4,将两个数据集中将测试集的文本句向量输入经步骤3训练好的BGRU-CNN混合模型中,得到分类结果。2.根据权利要求1所述的基于循环神经网络变体和卷积神经网络的文本分类算法,其特征在于,所述对数据集SogouC和数据集THUCNews进行预处理具体为:采用jieba中文分词进行对数据集SogouC和数据集THUCNews进行分词,去除停用词和标点符号。3.根据权利要求1所述的基于循环神经网络变体和卷积神经网络的文本分类算法,其特征在于,所述数据集SogouC和数据集THUCNews中训练集中的文本数据量与测试集中的文本数据量之比为7:3。4.根据权利要求1所述的基于循环神经网络变体和卷积神经网络的文本分类算法,其特征在于,所述步骤1中通过PV-DM模型将两个数据集中各自的训练集和测试集中的文本数据均训练为句向量。5.根据权利要求1所述的基于循环神经网络变体和卷积神经网络的文本分类算法,其特征在于,所述步骤2中利用步骤1中两个数据集中的训练集中文本建立BGRU-CNN混合模型的具体步骤为:步骤2.1,经过循环神经网络保留文本的语序信息采用双向循环结构分别捕获两个数据集的训练集文本第i个句子Si上文L(Si)和句子下文R(Si)的信息,计算方式如公式(1)和公式(2);L(Si)=f(W(l)L(Si-1)+W(sl)e(Si-1)),(1)R(Si)=f(W(r)R(Si+1)+W(sr)e(Si+1)),(2)其中,公式(1)中,e(Si-1)表示句子Si-1的句向量,L(Si-1)表示句子Si-1的上文信息,W(sl)表示Si句子和Si-1句子语义信息组合的权阵,W(l)为隐藏层的转换权阵,f为激活函数,然后,通过公式(3)构成训练集文本第i个句子的句向量xi,保留了句子左侧的信息L(Si)和右侧的信息R(Si);xi=[L(Si);e(Si);R(Si)](3)采用GRU结构进行神经元的节点设计,GRU网络节点通过重置门r和更新门z对输入信息进行处理,t时刻的激活状态ht计算方式如公式(4);ht-1是t-1时刻的激活状态,与ht呈线性关系,表示向量矩阵对应元素相乘;zt表示t时刻更新门的状态,计算方式为公式(5);t时刻的激活状态hc的计算方式如公式(6);t时...
【专利技术属性】
技术研发人员:李云红,梁思程,汤汶,慕兴,张轩,张欢欢,聂梦瑄,
申请(专利权)人:西安工程大学,
类型:发明
国别省市:陕西,61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。