一种基于深度学习的文本分类方法技术

技术编号:33130588 阅读:15 留言:0更新日期:2022-04-17 00:46
本发明专利技术公开了一种基于深度学习的文本分类方法,首先进行噪音清除,包含去除标点符号、特殊字符。构建字典、依据字典构建数据集;词嵌入和对抗训练;训练双向长短时记忆网络层;训练注意力机制层;计算输出结果。本发明专利技术方法将广泛应用于图像领域的对抗训练方法应用于自然语言处理领域,通过在深度神经网络中添加对抗扰动,使得模型训练过程中网络向loss增大的方向改变,利用loss对输入求导从而更新参数,从而降低模型对于对抗扰动的敏感性,有效地缓解模型过拟合,提高文本分类效果。提高文本分类效果。提高文本分类效果。

【技术实现步骤摘要】
一种基于深度学习的文本分类方法


[0001]本专利技术属于自然语言处理领域。文本分类是自然语言处理中最基础、最关键的技术之一,准确而高效的文本分类对于自然语言处理任务具有重要意义。对此利用深度学习算法进行准确的文本分类。

技术介绍

[0002]在人工智能发展的各个领域中,自然语言处理是其中发展最快,应用最广泛的领域之一。自然语言处理是人类语言的机器处理,旨在教授机器如何处理和理解人类的语言,从而在人与机器之间建立一个简单的沟通渠道。而文本分类是自然语言处理中最基础、最关键的技术之一,是将文本进行转换然后自动分类到指定的某个或某几个类别当中的技术。在大数据时代背景下,应用深度学习算法的文本分类技术可以自动高效地执行分类任务,大大降低了成本消耗。文本分类任务在情感分析、舆论分析、领域识别、意图识别等多个领域都发挥着重要作用。
[0003]文本分类任务包含了两个部分:文本表示和文本分类。文本表示经历了从符号表示到隐性语义表示的过程,包括文本预处理技术和文本表示技术。文本预处理指在大多数情况下,文本中存在着一定的噪声和无用的部分,因此,在进行分类之前,我们需要对文本进行预处理,其通常包含清除噪声、去停用词、中文分词、统一英文大小写等步骤。文本表示技术是指在原始的自然语言是由人类才能识别的自然语言文字组成的情况下,计算机无法直接进行理解和处理,所以需要将由自然语言构成的文本转换成计算机可以识别的数字化表示方式。。其中包含基于独热编码的表示方法、基于向量空间模型的表示方法和基于分布式词向量的表示方法等。
[0004]目前基于深度学习的文本分类模型首先有基于卷积神经网络的文本分类模型;其次是基于循环神经网络的分类模型,它的出现主要是为了更好地处理序列信息,以序列数据作为输入,在序列的演进方向上进行递归,且所有节点按链式连接,可以有效的识别顺序特征并使用先前的模式来预测下一个可能的情况,从而有效地解决了传统神经网络无法捕获各输入之相关性的问题,但由于RNN反馈环路的缘故,梯度可以很快的发散到无穷大或迅速变为0,即存在梯度消失和梯度爆炸的问题,在这两种情况下,网络将停止学习任何有用的东西。其中梯度爆炸的问题可以通过梯度裁剪解决,而梯度消失问题则需要更复杂的RNN基本单元来定义;还有使用了更复杂的RNN基本单元,改进得到的长短时记忆网络模型和门控循环单元模型,他们都通过“门”这一机制,从而有选择性的使信息通过,更新或保留历史信息,从而一定程度上解决梯度问题;还包括可以对重要的内容和次要的内容给予不同注意力程度的注意力机制,它作为深度学习领域常用的辅助技术,使神经网络更专注某些特定神经元的学习。

技术实现思路

[0005]针对现有的大部分基于深度学习的文本分类模型没有通过在训练中引入噪音,模
型鲁棒性都有待增强的问题。
[0006]本专利技术采用的技术方案为提出了一种在模型训练过程中引入噪音数据的基于深度学习的文本分类模型。为了实现上述目的,本专利技术采用的技术方案包括以下步骤:
[0007]步骤1,文本预处理。
[0008]对本文进行噪音清除,包含去除标点符号、特殊字符。构建字典、依据字典构建数据集。
[0009]步骤2,词嵌入和对抗训练。
[0010]步骤2.1使用基于预训练的词向量进行词嵌入的方式,以词+字为上下文特征的预训练词向量,并通过微调的方式适应当前语境。
[0011]步骤2.2用X+δ作为新的样本输入表示,其中X为原有的输入表示,δ为叠加在输入上的扰动,δ的计算方法为δ=α*Sign(g),其中g表示损失函数Loss关于输入X的梯度。计算在样本X上叠加一个扰动δ,再经过神经网络函数f
θ
(),与标签y比较得到的损失,并寻找到使该损失最大的δ。
[0012]步骤2.3,针对上一步得到的损失值,用最小化公式对神经网络进行优化。
[0013]步骤3,训练双向长短时记忆网络层。
[0014]把词嵌入结果输入到双向长短时记忆神经网络层,由前项的LSTM和后向的LSTM组合而成,通过Bi

LSTM更好地捕捉双向的语义依赖。其中Bi

LSTM的第i个隐层状态h
i
由h
i

和h
i

拼接而成,h
i

和h
i

分别是前向和反向的所有信息。其中每个LSTM层都由多个cell构成,任一时刻t的输出H
t
由H
t
‑1、C
t
‑1和X
t
计算得出,其中C
t
‑1为t

1时刻的候选单元状态,X
t
为时间步长t的输入。
[0015]步骤4,训练注意力机制层。
[0016]训练注意力机制层输入为H=[h1,h2,...,h
T
],其中T表示输入序列的长度。注意力得分M由tanh(H)计算得到,注意力得分的概率分布α由softmax(ω
T
M)计算得到,其中ω
T
是可训练的参数。
[0017]训练注意力机制层的输出r由H与α
T
进行矩阵相乘得到。
[0018]步骤5,计算输出结果。
[0019]使用全连接层则将提取到的特征映射到具体类别中,输入由两个LSTM层提取到的特征拼接而成,通过与权重矩阵的相乘并加上偏置项从而将特征信息映射到各个类别中,最后再通过Softmax函数得到概率,计算方法为Lable[]=softmax(F
c
(A)),其中A=[A0,A2,...,A
i
]为输入特征,i为输入特征的维度。C=[C0,C2,...,C
n
]为特征经过全连接层后得到的各个类别的分数,n代表了类别的个数。然后C0到C
n
再经过了Softmax函数从而得到类别分数到各个类别的概率分布L。
[0020]本专利技术方法将广泛应用于图像领域的对抗训练方法应用于自然语言处理领域,通过在深度神经网络中添加对抗扰动,使得模型训练过程中网络向loss增大的方向改变,利用loss对输入求导从而更新参数,从而降低模型对于对抗扰动的敏感性,有效地缓解模型过拟合,提高文本分类效果。
附图说明
[0021]图1为本专利技术具体实施方式的流程图。
具体实施方式
[0022]实施方式的流程图如图1所示,包括以下步骤:
[0023](1)文本预处理
[0024]包括清除噪声的操作,即去除标点符号、特殊字符等噪声。然后进行构建字典、依据字典构建数据集的工作。
[0025](2)词嵌入和FGSM攻击层
[0026]词嵌入的作用是将简单的词语ID映射成稠密的空间向量。词语是深度学习模型进行文本处理的基本单元,首先需要对词语进行符号化表示,将由自然语言构成的文本转换成数字化的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的文本分类方法,其特征在于:该方法的实现步骤如下:步骤1,文本预处理;对本文进行噪音清除,包含去除标点符号、特殊字符;构建字典、依据字典构建数据集;步骤2,词嵌入和对抗训练;步骤2.1使用基于预训练的词向量进行词嵌入的方式,以词+字为上下文特征的预训练词向量,并通过微调的方式适应当前语境;步骤2.2用X+δ作为新的样本输入表示,其中X为原有的输入表示,δ为叠加在输入上的扰动,δ的计算方法为δ=α*Sign(g),其中g表示损失函数Loss关于输入X的梯度;计算在样本X上叠加一个扰动δ,再经过神经网络函数f
θ
(),与标签y比较得到的损失,并寻找到使该损失最大的损失值;步骤2.3,针对上一步得到的损失值,用最小化公式对神经网络进行优化;步骤3,训练双向长短时记忆网络层;把词嵌入结果输入到双向长短时记忆神经网络层,由前项的LSTM和后向的LSTM组合而成,通过Bi

LSTM更好地捕捉双向的语义依赖;其中Bi

LSTM的第i个隐层状态h
i
由h
i

和h
i

拼接而成,h
i

和h
i

分别是前向和反向的所有信息;其中每个LSTM层都由多个cell构成,任一时刻t的输出H
t
...

【专利技术属性】
技术研发人员:张丽王月怡
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1