基于层次注意的分层多标签文本分类模型的构建方法技术

技术编号：30145747 阅读：22 留言：0更新日期：2021-09-23 15:19

本发明专利技术公开了一种基于层次注意的分层多标签文本分类模型的构建方法，包括步骤：S1，构建多层级文本分类体系，将文本标签拆分为向量矩阵的形式；S2，将文本内容以文本为单位构建文本内容的向量矩阵；S3，计算文本

全部详细技术资料下载

【技术实现步骤摘要】
基于层次注意的分层多标签文本分类模型的构建方法

[0001]本专利技术涉及文本自动分类领域，更为具体的，涉及一种基于层次注意的分层多标签文本分类模型的构建方法。

技术介绍

[0002]分层多标签文本分类（HMTC）是一个基础但巨有挑战性的任务，是大量的应用程序（例如专利注释），在层次结构中，文档被分配到多个存储类别。文档的不同层级间的类别往往具有很强的依赖关系。然而，大多数的分层多标签文本分类任务的研究使用分类器来处理或者同时分解所有的问题转化为一组平面多标签分类子问题，忽略了文本与层级结构的关联与层次结构不同层次之间的依赖关系。

技术实现思路

[0003]本专利技术的目的在于克服现有技术的不足，提供一种基于层次注意的分层多标签文本分类模型的构建方法，解决了有层级结构的文本分类问题，从而提升了文本分类预测的准确性等。
[0004]本专利技术的目的是通过以下方案实现的：一种基于层次注意的分层多标签文本分类模型的构建方法，包括：S1，根据文本数据的标签构建相应的多层级文本分类体系，再将每一文本数据的标签以层级为单位拆分为向量矩阵的形式；S2，将步骤S1中已经将标签拆分为向量矩阵的文本，将其文本内容通过分词和向量化的形式，以文本为单位构建文本内容的向量矩阵；S3，基于步骤S2得到的文本内容的向量矩阵以及文本的第h
‑
1层语义表示，分别计算第h层的文本
‑
类别注意力矩阵和文本
‑
类别表示；其中，，为正整数，为所构建的多层级文本分类体系的最大层级，当...

【技术保护点】

【技术特征摘要】
1.一种基于层次注意的分层多标签文本分类模型的构建方法，其特征在于，包括步骤：S1，根据文本数据的标签构建相应的多层级文本分类体系，再将每一文本数据的标签以层级为单位拆分为向量矩阵的形式；S2，将步骤S1中已经将标签拆分为向量矩阵的文本，将其文本内容通过分词和向量化的形式，以文本为单位构建文本内容的向量矩阵；S3，基于步骤S2得到的文本内容的向量矩阵以及文本的第h
‑
1层语义表示，分别计算第h层的文本
‑
类别注意力矩阵和文本
‑
类别表示；其中，，为正整数，为所构建的多层级文本分类体系的最大层级，当h=1时，第h
‑
1层语义表示为全1向量矩阵；S4，基于步骤S3计算得到的第h层的文本
‑
类别表示，通过整合文本的第h
‑
1层语义表示，生成第h层的统一文本表示和文本类别预测；S5，基于步骤S3计算得到的第h层的文本
‑
类别注意力矩阵以及步骤S4生成的第h层的文本类别预测，计算获得用于第h+1层的语义表示；S6，从h=1开始，将对于每一层的步骤S3至步骤S5合称为一个递归层，重复递归步骤S3至步骤S5，最终获得每一文本从第一层至第n层全部的统一文本表示和文本类别预测，根据文本类别预测和实际的文本类别，用神经网络的方式训练模型以获得能够准确预测出文本相应类别的文本分类模型。2.根据权利要求1所述的基于层次注意的分层多标签文本分类模型的构建方法，其特征在于，在步骤S1中，包括子步骤：S11，确定文本的分类体系，该分类体系包括每一层级的类别和不同层级的类别之间的隶属关系；S12，根据步骤S11确定的分类体系，获取每个类别的文本；S13，将文本的类别进行向量表示。3.根据权利要求1所述的基于层次注意的分层多标签文本分类模型的构建方法，其特征在于，在步骤S2中，包括子步骤：S21，将文本内容以单词的形式，使用向量化将文本单词嵌入到一个向量矩阵中；S22，将步骤S21得到的向量矩阵，学习每个单词的隐表示，作为文本的统一表示。4.根据权利要求1所述的基于层次注意的分层多标签文本分类模型的构建方法，其特征在于...

【专利技术属性】
技术研发人员：王炜，杨瀚，翁文生，党博，
申请(专利权)人：成都索贝数码科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人