一种基于CNN与Bi-GRU的文本分类方法技术

技术编号：24122817 阅读：33 留言：0更新日期：2020-05-13 03:36

本发明专利技术公开了一种基于CNN与Bi‑GRU的文本分类方法，包括如下步骤：步骤一、对文本数据进行卷积神经网络建模，得到包含局部隐含信息的第一种文本特征表达式；步骤二、对文本数据进行Bi‑GRU神经网络建模，得到包含整个句子两个方向的序列信息的第二种文本特征表达式；步骤三、对步骤一和步骤二得到的两种文本特征表达式进行特征融合，利用LSSVM分类器进行分类。利用本发明专利技术的方法不但捕捉句子局部特征及上下文语义信息，还通过融合两种不同的文本特征表达，得到文本更多样化、丰富的特征表达，进一步提高分类的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于CNN与Bi-GRU的文本分类方法
本专利技术涉及一种基于CNN与Bi-GRU的文本分类方法。
技术介绍
文本分类技术是信息检索和文本挖掘的重要基础，其主要任务是在预先给定的类别标记集合下，根据文本内容判定它的类别。文本分类在自然语言处理与理解、信息组织与管理、内容信息过滤等领域都有着广泛的应用。文本分类有多种常用的方法，例如基于词典和规则的无监督方法，基于机器学习的有监督方法。基于词典的方法，利用权威的词典，依照经验人工构造特征，模型准确率较高，但由于词典覆盖率较低，导致模型召回率较低。基于机器学习的有监督方法，利用最大熵模型、朴素贝叶斯、KNN等机器学习方法建模。这些机器学习方法较成熟，理论基础较为坚实，应用广泛，分类效果较好，但受限于文本规模。因为基于机器学习方法需要有类别标签的文本作为训练的输入，而文本的标签需要花费大量的人力物力，因此数据规模一般较小。最近，基于深度学习的方法引起广大学者的重视。基于深度学习的方法只需要少量标识文本和大量未标识文本即可。与传统的机器学习方法不同，基于深度学习的方法不需要手动构造特征，而是通过层次结构自动学习特征，高层的特征通过底层特征的不同组合方式构建，得到的特征具有更丰富的抽象表达能力。获取输入文本句子的句向量的方法可以分成两类，一种方法是基于词向量的方法，通过不同的组合方式构造句向量，称为组合法。另一种是不通过词向量，直接训练句子得到句向量，称为分布法。组合法中可使用不同的神经网络结构组合句向量，例如卷积神经网络、循环神经网络等。卷积神经网络是一种...

【技术保护点】
1.一种基于CNN与Bi-GRU的文本分类方法，其特征在于：包括如下步骤：/n步骤一、对文本数据进行卷积神经网络建模，得到包含局部隐含信息的第一种文本特征表达式；/n步骤二、对文本数据进行Bi-GRU神经网络建模，得到包含整个句子两个方向的序列信息的第二种文本特征表达式；/n步骤三、对步骤一和步骤二得到的两种文本特征表达式进行特征融合，利用LSSVM分类器进行分类。/n

【技术特征摘要】
1.一种基于CNN与Bi-GRU的文本分类方法，其特征在于：包括如下步骤：
步骤一、对文本数据进行卷积神经网络建模，得到包含局部隐含信息的第一种文本特征表达式；
步骤二、对文本数据进行Bi-GRU神经网络建模，得到包含整个句子两个方向的序列信息的第二种文本特征表达式；
步骤三、对步骤一和步骤二得到的两种文本特征表达式进行特征融合，利用LSSVM分类器进行分类。

2.根据权利要求1所述的一种基于CNN与Bi-GRU的文本分类方法，其特征在于：步骤一所述对文本数据进行卷积神经网络建模的方法为：
1.1)建立两种不同类型的过滤器，一种为整体过滤器，用于匹配整个词向量，另一种为单维过滤器，用于在词向量的每一维上进行匹配；
1.2)对卷积层输出向量使用不同池化操作；
1.3)建立多角度的卷积神经网络，输入文本进行训练；
1.4)训练完成后，去掉最后一层softmax层，输入文本，输出为第一种文本特征表达式。

3.根据权利要求2所述的一种基于CNN与Bi-GRU的文本分类方法，其特征在于：所述整体过滤器对整个词向量进行匹配的方法为：
对于句子输入Input∈Rlength×Dim是length个词语序列，每一个词语均由Dim维词向量表示，Inputi∈RDim代表词语序列中第i个词向量，Inputi:j代表第i到j个包括第j个词向量的连接，
设一个整体过滤器F为四元组<ws,wf,bf,hf>，其中ws为滑窗宽度、wf∈Rws×Dim为过滤器F的权重向量，bf∈R为偏置，hf为激活函数；
当过滤器F应用于输入词语序列Input时，wf与Input内每一个长度为ws的词向量窗口进行内积，加上偏置bf，应用激活函数hf，得到输出向量outF∈R1+length-ws；其中第i项outF[i]＝hf(wf·Inputi:i+ws-1+bf)，其中i∈[1,1+len-ws]。

4.根据权利要求3所述的一种基于CNN与Bi-GRU的...

【专利技术属性】
技术研发人员：姬少培，颜亮，董贵山，刘栋，
申请(专利权)人：中国电子科技集团公司第三十研究所，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人