基于多类型文本的自动分类方法、装置、设备和存储介质制造方法及图纸

技术编号:32652097 阅读:14 留言:0更新日期:2022-03-17 10:58
本发明专利技术实施例公开了一种基于多类型文本的自动分类方法、装置、设备和存储介质。该方法包括:获取目标文本和所述目标文本的目标文本类型;将所述目标文本输入至预先训练好的神经网络模型以得到所述目标文本的第一文本主题,并根据所述目标文本类型确定所述目标文本的预设分类方案;将所述第一文本主题映射至所述预设分类方案以得到所述第一文本主题和预设分类方案的第一映射关系;根据所述第一映射关系将所述第一文本主题修改为匹配所述预设分类方案的第二文本主题;将所述第二文本主题输入至预先构建好的分类器模型以得到所述目标文本的目标分类类别。本发明专利技术实施例实现了多类型文本的自动分类。型文本的自动分类。型文本的自动分类。

【技术实现步骤摘要】
基于多类型文本的自动分类方法、装置、设备和存储介质


[0001]本专利技术实施例涉及文字技术,尤其涉及一种基于多类型文本的自动分类方法、装置、设备和存储介质。

技术介绍

[0002]在各行各业中,技术的最新进展以及与竞争对手活动有关的情报信息来源越来越广泛,包括专利、期刊、教科书、会议记录和行业标准手册等多种类型的文本,这些信息来源对于获取准确而完整的工业技术信息都很重要,近年来,在线社交媒体的发展还推动了非结构化文本的增长,例如消费者的评论、新闻稿、博客内容、社交网络消息和产品手册/目录等等,非结构化文本数据已成为研发和市场研究的重要组成部分,因此迫切需要将这些非结构化数据拟合到相关的分类方案中,以便于文本分类。
[0003]目前对于专利,已经开发了几种复杂的工具和模式(CPC、IPC、F-term和ECLA等),用于通过特定的结构来管理不断增加的专利技术数量和多样性,以便于导航和精确搜索,也已经开发了几种自动分类器(例如CLAIMS,OWAKE等)以将专利自动分类,具体的,获取到专利的内容,包括标题、摘要、子类和文件识别码等信息,进行词嵌入和输入神经网络模型的操作,获得预测的CPC分类号,并得到该CPC分类号的描述;对于期刊,已经开发了几种开放式数据库(例如Microsoft Academic、Chemtiva和CASSTN等),以将期刊分类为有序的分类层次结构。
[0004]但是其他文本以及非结构化文本都没有这种有序的分类方案,因此很难将这些文本分类为相关类别,也没有通用的分类方案,使得自动分类器可以来同时处理期刊、新闻、专利和非结构化文本并将它们分类为一个通用的分类模式。

技术实现思路

[0005]本专利技术实施例提供一种基于多类型文本的自动分类方法、装置、设备和存储介质,以实现多类型文本的自动分类。
[0006]为达此目的,本专利技术实施例提供了一种基于多类型文本的自动分类方法,该方法包括:
[0007]获取目标文本和所述目标文本的目标文本类型;
[0008]将所述目标文本输入至预先训练好的神经网络模型以得到所述目标文本的第一文本主题,并根据所述目标文本类型确定所述目标文本的预设分类方案;
[0009]将所述第一文本主题映射至所述预设分类方案以得到所述第一文本主题和预设分类方案的第一映射关系;
[0010]根据所述第一映射关系将所述第一文本主题修改为匹配所述预设分类方案的第二文本主题;
[0011]将所述第二文本主题输入至预先构建好的分类器模型以得到所述目标文本的目标分类类别。
[0012]进一步的,所述获取目标文本和所述目标文本的目标文本类型之后包括:
[0013]根据所述目标文本和目标文本类型判断所述目标文本是否包括第二文本主题,所述第二文本主题为基于预设分类方案生成的文本主题;
[0014]若所述目标文本包括第二文本主题,将所述第二文本主题输入至预先基于多种所述预设分类方案构建好的分类器模型以得到所述目标文本的目标分类类别。
[0015]进一步的,所述神经网络模型的训练包括:
[0016]从预设数据库中获取样本文本和所述样本文本的第一文本主题;
[0017]根据所述样本文本和所述样本文本的第一文本主题对所述神经网络模型进行训练。
[0018]进一步的,所述分类器模型的构建包括:
[0019]构建分类器模型,所述分类器模型包括多个父主题,每个所述父主题包括多个层级,每个所述层级包括一个或多个子主题,每个所述父主题和子主题包括一个二进制分类器;
[0020]从预设数据库中获取样本文本的第二文本主题和所述样本文本的目标分类类别,所述第二文本主题为基于预设分类方案生成的文本主题;
[0021]根据所述样本文本的第二文本主题和所述样本文本的目标分类类别对所述分类器模型进行训练。
[0022]进一步的,所述若所述目标文本包括第二文本主题,将所述第二文本主题输入至预先基于多种所述预设分类方案构建好的分类器模型以得到所述目标文本的目标分类类别包括:
[0023]将所述第二文本主题输入至预先构建好的分类器模型;
[0024]根据每个所述父主题的二进制分类器确定所述第二文本主题的第一父主题,所述第一父主题为每个所述父主题中分类分数最高的父主题;
[0025]根据所述第一父主题的下一层级的每个子主题的二进制分类器确定所述第二文本主题的第一子主题,所述第一子主题为所述第一父主题的下一层级的每个子主题中分类分数最高的子主题;
[0026]根据所述第一子主题的下一层级的每个子主题的二进制分类器确定所述第二文本主题的第二子主题,所述第二子主题为所述第一子主题的下一层级的每个子主题中分类分数最高的子主题,直至获取到最后层级的子主题,并将所述最后层级的子主题作为所述目标文本的目标分类类别。
[0027]进一步的,所述将所述最后层级的子主题作为所述目标文本的目标分类类别之后包括:
[0028]将所述第一父主题至所述最后层级的子主题的分类分数合并,以得到所述目标文本基于所述目标分类类别的总分类分数。
[0029]进一步的,所述将所述第一文本主题映射至所述预设分类方案以得到所述第一文本主题和预设分类方案的第一映射关系之后包括:
[0030]根据所述第一映射关系获取所述第一文本主题基于所述预设分类方案的预设分类号。
[0031]进一步的,所述目标分类类别包括目标分类号和目标分类解释。
[0032]进一步的,所述目标文本类型包括专利、期刊、教科书、会议记录、行业标准手册和非结构化文本中的一种或多种,所述非结构化文本包括评论、新闻稿、博客内容、社交网络消息和产品手册中的一种或多种。
[0033]进一步的,所述预设分类方案包括IPC分类方案、ECLA分类方案、CPC分类方案和F-terms分类方案中的一种或多种。
[0034]进一步的,所述父主题包括产品和过程主题、机械主题、化学主题、生物主题、电气主题和材料主题中的一种或多种。
[0035]进一步的,所述二进制分类器基于BERT算法或XLNet算法构建。
[0036]一方面,本专利技术实施例还提供了一种基于多类型文本的自动分类装置,该装置包括:
[0037]文本获取模块,用于获取目标文本和所述目标文本的目标文本类型;
[0038]主题获取模块,用于将所述目标文本输入至预先训练好的神经网络模型以得到所述目标文本的第一文本主题,并根据所述目标文本类型确定所述目标文本的预设分类方案;
[0039]主题映射模块,用于将所述第一文本主题映射至所述预设分类方案以得到所述第一文本主题和预设分类方案的第一映射关系;
[0040]主题匹配模块,用于根据所述第一映射关系将所述第一文本主题修改为匹配所述预设分类方案的第二文本主题;
[0041]文本分类模块,用于将所述第二文本主题输入至预先构建好的分类器模型以得到所述目标文本的目标分类类别。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多类型文本的自动分类方法,其特征在于,包括:获取目标文本和所述目标文本的目标文本类型;将所述目标文本输入至预先训练好的神经网络模型以得到所述目标文本的第一文本主题,并根据所述目标文本类型确定所述目标文本的预设分类方案;将所述第一文本主题映射至所述预设分类方案以得到所述第一文本主题和预设分类方案的第一映射关系;根据所述第一映射关系将所述第一文本主题修改为匹配所述预设分类方案的第二文本主题;将所述第二文本主题输入至预先构建好的分类器模型以得到所述目标文本的目标分类类别。2.根据权利要求1所述的方法,其特征在于,所述获取目标文本和所述目标文本的目标文本类型之后包括:根据所述目标文本和目标文本类型判断所述目标文本是否包括第二文本主题,所述第二文本主题为基于预设分类方案生成的文本主题;若所述目标文本包括第二文本主题,将所述第二文本主题输入至预先基于多种所述预设分类方案构建好的分类器模型以得到所述目标文本的目标分类类别。3.根据权利要求1所述的方法,其特征在于,所述神经网络模型的训练包括:从预设数据库中获取样本文本和所述样本文本的第一文本主题;根据所述样本文本和所述样本文本的第一文本主题对所述神经网络模型进行训练。4.根据权利要求1所述的方法,其特征在于,所述分类器模型的构建包括:构建分类器模型,所述分类器模型包括多个父主题,每个所述父主题包括多个层级,每个所述层级包括一个或多个子主题,每个所述父主题和子主题包括一个二进制分类器;从预设数据库中获取样本文本的第二文本主题和所述样本文本的目标分类类别,所述第二文本主题为基于预设分类方案生成的文本主题;根据所述样本文本的第二文本主题和所述样本文本的目标分类类别对所述分类器模型进行训练。5.根据权利要求4所述的方法,其特征在于,所述若所述目标文本包括第二文本主题,将所述第二文本主题输入至预先基于多种所述预设分类方案构建好的分类器模型以得到所述目标文本的目标分类类别包括:将所述第二文本主题输入至预先构建好的分类器模型;根据每个所述父主题的二进制分类器确定所述第二文本主题的第一父主题,所述第一父主题为每个所述父主题中分类分数最高的父主题;根据所述第一父主题的下一层级的每个子主题的二进制分类器确定所述第二文本主题的第一子主题,所述第一子主题为所述第一父主题的下一层级的每个子主题中分类分数最高的子主题;根据所述第一子主题的下一层级的每个子主题的二进制分类器确定所述第二文本主题的第二子主题,所述第二子主题为所述第一子主题的下一层级的每个子主题中分类分数最高的子主题,直...

【专利技术属性】
技术研发人员:马库斯
申请(专利权)人:智慧芽中国科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1