文档分类方法及装置制造方法及图纸

技术编号:34532586 阅读:22 留言:0更新日期:2022-08-13 21:25
本申请提供文档分类方法及装置,其中所述文档分类方法包括:对待处理文档进行分割,得到多个文本;将多个文本分别输入特征提取模型,确定每个文本的类别特征;对多个文本的类别特征进行组合,得到待处理文档的类别特征向量;将所述类别特征向量输入分类模型,确定所述待处理文档的类别。该方法不仅能够适用于长文档处理,而且能够得到融合了待处理文档全文类别信息的类别特征向量,该类别特征向量不仅能够体现待处理文档中各部分内容的类别特征,还能够体现待处理文档中各部分内容之间的关联,因此将该类别特征向量输入分类模型进行分类,能够给分类模型提供更多的信息,使得分类模型的分类结果更加准确,提高了文档分类的准确率。确率。确率。

【技术实现步骤摘要】
文档分类方法及装置


[0001]本说明书涉及数据处理
,特别涉及文档分类方法及装置。

技术介绍

[0002]文档分类是对文档进行智能识别,从而确定文档的类别,判断该文档是否是目标类别。现有技术中,通常采用基于文本截取的深度学习方法进行文档分类,如对于较长的文档,如3000字以上的文档,因此现有技术一般从文档的前面部分或者中间部分截取部分文本,通过LSTM(Long Short

Term Memory,长短期记忆网络)、CNN(Convolutional Neural Networks,卷积神经网络)等神经网络模型对截取的部分文本进行分类,以确定输入文档的类别。
[0003]但由于文档较长,无法全部输入神经网络模型,而从文档中截取的部分文本会造成文本信息缺失,影响文档分类的准确性。因此亟需一种文档分类方法以解决上述问题。

技术实现思路

[0004]有鉴于此,本申请实施例提供了一种文档分类方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种文档分类装置,一种计算设备,以及一种计算机可读存储介质。
[0005]根据本申请实施例的第一方面,提供了一种文档分类方法,包括:
[0006]对待处理文档进行分割,得到多个文本;
[0007]将所述多个文本分别输入特征提取模型,确定每个文本的类别特征;
[0008]对所述多个文本的类别特征进行组合,得到所述待处理文档的类别特征向量;
[0009]将所述类别特征向量输入分类模型,确定所述待处理文档的类别
[0010]根据本申请实施例的第二方面,提供了一种文档分类装置,包括:
[0011]分割模块,被配置为对待处理文档进行分割,得到多个文本;
[0012]第一确定模块,被配置为将所述多个文本分别输入特征提取模型,确定每个文本的类别特征;
[0013]组合模块,被配置为对所述多个文本的类别特征进行组合,得到所述待处理文档的类别特征向量;
[0014]第二确定模块,被配置为将所述类别特征向量输入分类模型,确定所述待处理文档的类别。
[0015]根据本申请实施例的第三方面,提供了一种计算设备,包括:
[0016]存储器和处理器;
[0017]所述存储器用于存储计算机可执行指令,所述处理器执行所述计算机可执行指令时实现所述文档分类方法的步骤。
[0018]根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述文档分类方法的步骤。
[0019]根据本申请实施例的第五方面,提供了一种芯片,其存储有计算机程序,该计算机程序被芯片执行时实现所述文档分类方法的步骤。
[0020]本申请提供的文档分类方法,对待处理文档进行分割,得到多个文本;将所述多个文本分别输入特征提取模型,确定每个文本的类别特征;对所述多个文本的类别特征进行组合,得到所述待处理文档的类别特征向量;将所述类别特征向量输入分类模型,确定所述待处理文档的类别。上述方法先将待处理文档分割成比较短的文本,适用于长文档处理,并且先确定每个文本的类别特征,然后将多个文本的类别特征组合得到待处理文档的类别特征向量,则可以认为该类别特征向量融合了待处理文档全文的类别信息,即该类别特征向量不仅能够体现待处理文档中各部分内容的类别特征,还能够体现待处理文档中各部分内容之间的关联,因此将该类别特征向量输入分类模型进行分类,能够给分类模型提供更多的信息,使得分类模型的分类结果更加准确,即提高了文档分类的准确率。
附图说明
[0021]图1是本申请实施例提供的一种执行文档分类方法的系统的系统架构图;
[0022]图2是本申请一实施例提供的一种文档分类方法的流程图;
[0023]图3是本申请一实施例提供的一种分类模型的训练方法的流程图;
[0024]图4是本申请一实施例提供的一种确定文本的类别特征的方法的流程图;
[0025]图5是本申请一实施例提供的另一种确定文本的类别特征的方法的流程图;
[0026]图6是本申请一实施例提供的又一种确定文本的类别特征的方法的流程图;
[0027]图7是本申请一实施例提供的一种确定待处理文档的类别特征向量的方法的流程图;
[0028]图8是本申请一实施例提供的一种分割待处理文档的方法的流程图;
[0029]图9是本申请一实施例提供的一种应用于合同文档识别的文档分类方法的处理流程图;
[0030]图10是本申请一实施例提供的一种文档分类方法的处理过程示意图;
[0031]图11是本申请一实施例提供的一种文档分类装置的结构示意图;
[0032]图12是本申请一实施例提供的一种计算设备的结构框图。
具体实施方式
[0033]在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
[0034]在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0035]应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。
例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。
[0036]首先,对本申请一个或多个实施例涉及的名词术语进行解释。
[0037]特征提取模型:用于对输入的文本进行特征提取,得到输入文本的类别特征。
[0038]类别特征:用于表征文本所属类别的特征。
[0039]分类模型:用于对输入的文档进行分类,确定文档所属的类别。
[0040]类别特征向量:可以用来确定文档所属类别的特征向量,不仅能够表征文档中各部分内容的类别特征,还能够表征文档中各部分内容之间的关联。
[0041]词单元:对输入文本做任何实际处理前,都需要将其分割成诸如字、标点符号、数字或字母等语言单元,这些语言单元被称为词单元。对于英文文本,词单元可以是一个单词、一个标点符号、一个数字等;对于中文文本,最小的词单元可以是一个字、一个标点符号、一个数字等。
[0042]Word Embedding Layer(嵌入层):用于对输入的文本进行嵌入式编码处理的层,可以通过一个映射或者一个函数生成文本在新的空间上的表达,该表达可以是文本的词嵌入向量。
[0043]词嵌入:是指把本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档分类方法,其特征在于,所述方法包括:对待处理文档进行分割,得到多个文本;将所述多个文本分别输入特征提取模型,确定每个文本的类别特征;对所述多个文本的类别特征进行组合,得到所述待处理文档的类别特征向量;将所述类别特征向量输入分类模型,确定所述待处理文档的类别。2.如权利要求1所述的方法,其特征在于,所述特征提取模型包括输入层、嵌入层和输出层,将所述多个文本分别输入特征提取模型,确定每个文本的类别特征,包括:通过所述输入层,对每个文本进行分词处理,得到每个文本的词单元;通过所述嵌入层,对每个文本的词单元分别进行词嵌入处理,得到每个文本中词单元的词嵌入向量;针对任一文本,通过所述输出层,基于该文本中词单元的词嵌入向量,确定该文本的类别特征。3.如权利要求2所述的方法,其特征在于,所述输出层包括词级注意力层和全连接层,针对任一文本,通过所述输出层,基于该文本中词单元的词嵌入向量,确定该文本的类别特征,包括:针对任一文本,通过所述词级注意力层,将该文本的第一词单元的词嵌入向量与该文本中每个词单元的词嵌入向量进行注意力计算,确定该文本的特征向量,其中,所述第一词单元是该文本中的任一词单元;通过所述全连接层,基于该文本的特征向量确定该文本的类别特征。4.如权利要求3所述的方法,其特征在于,所述输出层还包括文本级注意力层,通过所述全连接层,基于该文本的特征向量确定该文本的类别特征之前,还包括:通过所述文本级注意力层,将该文本的特征向量与多个文本中每个文本的特征向量进行注意力计算,确定该文本的增强特征向量;通过所述全连接层,基于该文本的特征向量确定该文本的类别特征,包括:通过所述全连接层,基于该文本的增强特征向量确定该文本的类别特征。5.如权利要求1所述的方法,其特征在于,对所述多个文本的类别特征进行组合,得到所述待处理文档的类别特征向量,包括:按照所述多个文本在所述待处理文档中的先后顺序,对所述多个文本的类别特征进行拼接,得到所...

【专利技术属性】
技术研发人员:王得贤李长亮
申请(专利权)人:成都金山互动娱乐科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1