文档分类方法及装置制造方法及图纸

技术编号：34532586 阅读：28 留言：0更新日期：2022-08-13 21:25

本申请提供文档分类方法及装置，其中所述文档分类方法包括：对待处理文档进行分割，得到多个文本；将多个文本分别输入特征提取模型，确定每个文本的类别特征；对多个文本的类别特征进行组合，得到待处理文档的类别特征向量；将所述类别特征向量输入分类模型，确定所述待处理文档的类别。该方法不仅能够适用于长文档处理，而且能够得到融合了待处理文档全文类别信息的类别特征向量，该类别特征向量不仅能够体现待处理文档中各部分内容的类别特征，还能够体现待处理文档中各部分内容之间的关联，因此将该类别特征向量输入分类模型进行分类，能够给分类模型提供更多的信息，使得分类模型的分类结果更加准确，提高了文档分类的准确率。确率。确率。

全部详细技术资料下载

【技术实现步骤摘要】
文档分类方法及装置

[0001]本说明书涉及数据处理
，特别涉及文档分类方法及装置。

技术介绍

[0002]文档分类是对文档进行智能识别，从而确定文档的类别，判断该文档是否是目标类别。现有技术中，通常采用基于文本截取的深度学习方法进行文档分类，如对于较长的文档，如3000字以上的文档，因此现有技术一般从文档的前面部分或者中间部分截取部分文本，通过LSTM(Long Short
‑
Term Memory，长短期记忆网络)、CNN(Convolutional Neural Networks，卷积神经网络)等神经网络模型对截取的部分文本进行分类，以确定输入文档的类别。
[0003]但由于文档较长，无法全部输入神经网络模型，而从文档中截取的部分文本会造成文本信息缺失，影响文档分类的准确性。因此亟需一种文档分类方法以解决上述问题。

技术实现思路

[0004]有鉴于此，本申请实施例提供了一种文档分类方法，以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种文档分类装置，一种计算设备，以及一种计算机可读存储介质。
[0005]根据本申请实施例的第一方面，提供了一种文档分类方法，包括：
[0006]对待处理文档进行分割，得到多个文本；
[0007]将所述多个文本分别输入特征提取模型，确定每个文本的类别特征；
[0008]对所述多个文本的类别特征进行组合，得到所述待处理文档的类别特征向量；
[0009]将所述类别特征向量输入分类模型，确定所述...

【技术保护点】

【技术特征摘要】
1.一种文档分类方法，其特征在于，所述方法包括：对待处理文档进行分割，得到多个文本；将所述多个文本分别输入特征提取模型，确定每个文本的类别特征；对所述多个文本的类别特征进行组合，得到所述待处理文档的类别特征向量；将所述类别特征向量输入分类模型，确定所述待处理文档的类别。2.如权利要求1所述的方法，其特征在于，所述特征提取模型包括输入层、嵌入层和输出层，将所述多个文本分别输入特征提取模型，确定每个文本的类别特征，包括：通过所述输入层，对每个文本进行分词处理，得到每个文本的词单元；通过所述嵌入层，对每个文本的词单元分别进行词嵌入处理，得到每个文本中词单元的词嵌入向量；针对任一文本，通过所述输出层，基于该文本中词单元的词嵌入向量，确定该文本的类别特征。3.如权利要求2所述的方法，其特征在于，所述输出层包括词级注意力层和全连接层，针对任一文本，通过所述输出层，基于该文本中词单元的词嵌入向量，确定该文本的类别特征，包括：针对任一文本，通过所述词级注意力层，将该文本的第一词单元的词嵌入向量与该文本中每个词单元的词嵌入向量进行注意力计算，确定该文本的特征向量，其中，所述第一词单元是该文本中的任一词单元；通过所述全连接层，基于该文本的特征向量确定该文本的类别特征。4.如权利要求3所述的方法，其特征在于，所述输出层还包括文本级注意力层，通过所述全连接层，基于该文本的特征向量确定该文本的类别特征之前，还包括：通过所述文本级注意力层，将该文本的特征向量与多个文本中每个文本的特征向量进行注意力计算，确定该文本的增强特征向量；通过所述全连接层，基于该文本的特征向量确定该文本的类别特征，包括：通过所述全连接层，基于该文本的增强特征向量确定该文本的类别特征。5.如权利要求1所述的方法，其特征在于，对所述多个文本的类别特征进行组合，得到所述待处理文档的类别特征向量，包括：按照所述多个文本在所述待处理文档中的先后顺序，对所述多个文本的类别特征进行拼接，得到所...

【专利技术属性】
技术研发人员：王得贤，李长亮，
申请(专利权)人：成都金山互动娱乐科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人