一种基于深度学习的文本分类方法技术

技术编号：33130588 阅读：15 留言：0更新日期：2022-04-17 00:46

本发明专利技术公开了一种基于深度学习的文本分类方法，首先进行噪音清除，包含去除标点符号、特殊字符。构建字典、依据字典构建数据集；词嵌入和对抗训练；训练双向长短时记忆网络层；训练注意力机制层；计算输出结果。本发明专利技术方法将广泛应用于图像领域的对抗训练方法应用于自然语言处理领域，通过在深度神经网络中添加对抗扰动，使得模型训练过程中网络向loss增大的方向改变，利用loss对输入求导从而更新参数，从而降低模型对于对抗扰动的敏感性，有效地缓解模型过拟合，提高文本分类效果。提高文本分类效果。提高文本分类效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的文本分类方法

[0001]本专利技术属于自然语言处理领域。文本分类是自然语言处理中最基础、最关键的技术之一，准确而高效的文本分类对于自然语言处理任务具有重要意义。对此利用深度学习算法进行准确的文本分类。

技术介绍

[0002]在人工智能发展的各个领域中，自然语言处理是其中发展最快，应用最广泛的领域之一。自然语言处理是人类语言的机器处理，旨在教授机器如何处理和理解人类的语言，从而在人与机器之间建立一个简单的沟通渠道。而文本分类是自然语言处理中最基础、最关键的技术之一，是将文本进行转换然后自动分类到指定的某个或某几个类别当中的技术。在大数据时代背景下，应用深度学习算法的文本分类技术可以自动高效地执行分类任务，大大降低了成本消耗。文本分类任务在情感分析、舆论分析、领域识别、意图识别等多个领域都发挥着重要作用。
[0003]文本分类任务包含了两个部分：文本表示和文本分类。文本表示经历了从符号表示到隐性语义表示的过程，包括文本预处理技术和文本表示技术。文本预处理指在大多数情况下，文本中存在着一定的噪声和无用的部分，因此，在进行分类之前，我们需要对文本进行预处理，其通常包含清除噪声、去停用词、中文分词、统一英文大小写等步骤。文本表示技术是指在原始的自然语言是由人类才能识别的自然语言文字组成的情况下，计算机无法直接进行理解和处理，所以需要将由自然语言构成的文本转换成计算机可以识别的数字化表示方式。。其中包含基于独热编码的表示方法、基于向量空间模型的表示方法和基于分布式词向量的表示方法等。
[000...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的文本分类方法，其特征在于：该方法的实现步骤如下：步骤1，文本预处理；对本文进行噪音清除，包含去除标点符号、特殊字符；构建字典、依据字典构建数据集；步骤2，词嵌入和对抗训练；步骤2.1使用基于预训练的词向量进行词嵌入的方式，以词+字为上下文特征的预训练词向量，并通过微调的方式适应当前语境；步骤2.2用X+δ作为新的样本输入表示，其中X为原有的输入表示，δ为叠加在输入上的扰动，δ的计算方法为δ＝α*Sign(g)，其中g表示损失函数Loss关于输入X的梯度；计算在样本X上叠加一个扰动δ，再经过神经网络函数f
θ
()，与标签y比较得到的损失，并寻找到使该损失最大的损失值；步骤2.3，针对上一步得到的损失值，用最小化公式对神经网络进行优化；步骤3，训练双向长短时记忆网络层；把词嵌入结果输入到双向长短时记忆神经网络层，由前项的LSTM和后向的LSTM组合而成，通过Bi
‑
LSTM更好地捕捉双向的语义依赖；其中Bi
‑
LSTM的第i个隐层状态h
i
由h
i
→
和h
i
←
拼接而成，h
i
→
和h
i
←
分别是前向和反向的所有信息；其中每个LSTM层都由多个cell构成，任一时刻t的输出H
t
...

【专利技术属性】
技术研发人员：张丽，王月怡，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人