一种文本分类方法、装置、网络及存储介质制造方法及图纸

技术编号:24010732 阅读:28 留言:0更新日期:2020-05-02 01:39
本申请涉及一种文本分类方法、装置、网络及存储介质,其中,一种文本分类方法包括步骤:获取待分类文本的中文字形信息,所述中文字形信息基于五笔输入法字根得到、将所述中文字形信息编码为独热编码、通过第一神经网络将所述独热编码转换为五笔字形编码、利用第二神经网络将所述五笔字形编码转换为注意力编码、根据所述注意力编码计算得到所述待分类文本的特征向量、通过第三神经网络对所述特征向量进行运算并根据运算结果确定所述待分类文本的标签类型。本申请能够对中文类型的待分类文本进行精确分类。

A text classification method, device, network and storage medium

【技术实现步骤摘要】
一种文本分类方法、装置、网络及存储介质
本申请涉及自然语言处理
,具体而言,涉及一种文本分类方法、装置、网络及存储介质。
技术介绍
通常,在自然语言处理领域中,为了实现对文本精确分类,需要考虑到文本中的不同词组的语义对前后文本的影响。目前,现有技术中存在一种模型框架,该模型框架通过“多头自注意力机制”兼顾文本中不同词组对整个文本的影响,进而可实现对文本精确分类。但是,技术人员发现该模型框架难以从中文文本的字形层面对中文文本进行卷积,并获取相关的词向量信息,因此,该模型框架无法适用于对中文文本精确分类。
技术实现思路
本申请实施例的目的在于公开一种文本分类方法、装置、网络及存储介质,用于解决现有文本分类模型无法对中文类型的待分类文本进行分类这一技术问题,从而实现对中文类型的待分类文本进行精确分类。本申请第一方面公开一种文本分类方法,该方法包括:获取待分类文本的中文字形信息,中文字形信息基于五笔输入法字根得到;将中文字形信息编码为独热编码;通过第一神经网络将独热编码转换为五笔字形编码;利用第二神经网络将五笔字形编码转换为注意力编码;根据注意力编码计算得到待分类文本的特征向量;通过第三神经网络对特征向量进行运算并根据运算结果确定待分类文本的标签类型。本申请通过中文与五笔字根的对应关系,将待分类的中文文本转换为五笔字形编码,该五笔字形编码与英文文本相似,进而该五笔字形编码能够被第二神经网络处理生成待分类的中文文本对应的特征向量,最终,使得第三神经网络能够根据特征向量对待分类的中文文本进行分类,与现有技术相比,本申请能够实现精确分类待分类的中文文本。在一些可选的实施方式中,根据注意力编码计算得到待分类文本的特征向量这一步骤,包括子步骤:当注意力编码的数量大于等于两个时,拼接所有注意力编码并得到待分类文本的特征向量。本可选实施方式能够将多个注意力编码拼接成一个注意力编码,这样一来,本申请就能够处理包含多个注意力编码的中文文本,因此,本可选实施方式进一步提高了本申请的文本分类方法的适用范围,与此同时,本可选实施方式可以使得多个第二神经网络同时进行将独热编码转换为注意力编码,其中,每个第二神经网络处理不同的独热编码片段,这样一来就能够提高独热编码转换效率,尤其是在需要对大量的待分析的中文文本进行文本分类这一场景中,本可选实施方式具有有更快的处理速度。在一些可选的实施方式中,利用第二神经网络将五笔字形编码转换为注意力编码这一步骤,包括子步骤:将五笔字形编码转换为向量元素;创建向量元素的查询向量、关键向量、价值向量;根据查询向量、关键向量计算向量元素的注意力得分;根据价值向量和对注意力得分进行归一化后的得分,获得注意力编码。本可选的实施方式通过查询向量、关键向量、价值向量得到五笔字形编码的注意力得分,进而能够根据价值向量和对注意力得分进行归一化后的得分获得注意力编码,这样一来,就能够缩小五笔字形编码转换为注意力编码的误差,提高五笔字形编码的转换精度。在一些可选的实施方式中,创建向量元素的查询向量、关键向量、价值向量这一步骤,包括子步骤:将向量元素与预设第一权重相乘获得查询向量;将向量元素与预设第二权重相乘获得关键向量;将向量元素与预设第三权重相乘获得价值向量。本实施例能够预设第一权重、预设第二权重、预设第三权重获取查询向量、关键向量、价值向量。在一些可选的实施方式中,通过第三神经网络对特征向量进行运算并根据运算结果确定待分类文本的标签类型这一步骤,包括子步骤:根据特征向量、第三神经网络运算得到待分类文本对应的至少两个预选分类标签及每个预选分类标签对应的概率;根据每个预选分类标签对应的概率确定待分类文本的标签类型。在本可选的实施方式中,由于待分类文本的标签类型是基于第三神经网络运算得到的预选分类标签对应的概率确定,其中,预选分类标签对应的概率根据大量的分类训练结果获得,因此,本可选的实施方式能够基于大量的分类训练结果,提高待分类文本的分类准确度。本申请第二方面公开一种文本分类网络,文本分类网络包括:第一神经网络,用于将独热编码编码为五笔字形编码;第二神经网络,用于将五笔字形编码编码为注意力编码;第三神经网络,用于对特征向量进行运算并根据运算结果确定待分类文本的标签类型。本申请第二方面公开的文本分类网络能够基于中文对应的五笔字根点对待分类的中文文本分类。在一些可选的实施方式中,第一神经网络为循环神经网络,其中,循环神经网络包括若干个循环单元。本申请第三方面公开了一种文本分类装置,该文本分类装置包括:获取模块,用于获取待分类文本中的中文字形信息,中文字形信息基于待分类文本中的五笔输入法字根得到;第一编码模块,用于将中文字形信息编码为独热编码;第二编码模块,用于通过第一神经网络将独热编码转换为五笔字形编码;第三编码模块,用于利用第二神经网络将五笔字形编码转换为注意力编码;计算模块,用于根据注意力编码计算得到待分类文本的特征向量;运算模块,用于通过第三神经网络对特征向量进行运算并根据运算结果确定待分类文本的标签类型。本申请第三方面的文本分类装置通过执行文本分类方法,能够基于中文对应的五笔字根点对待分类的中文文本分类。本申请第四方面公开了一种文本分类装置,该文本分类装置包括:处理器;以及存储器,配置用于存储机器可读指令,指令在由处理器执行时,使得处理器执行如本申请第一方面的文本分类方法。本申请第四方面的文本分类装置通过执行文本分类方法,能够基于中文对应的五笔字根点对待分类的中文文本分类。本申请第五方面公开一种存储介质,计算机存储介质存储有计算机程序,计算机程序被处理器执行本申请第一方面的文本分类方法。本申请第五方面的存储介质通过执行文本分类方法,能够基于中文对应的五笔字根点对待分类的中文文本分类。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1为本申请实施例一公开的一种文本分类方法的流程示意图;图2为本申请实施例提公开的一种五笔字根图;图3为本申请实施例公开的通过第一神经网络将独热编码转换为五笔字形编码的示意图;图4为步骤104的子步骤的流程示意图;图5为步骤1042的子步骤的流程示意图;图6为步骤106的子步骤的流程示意图;图7为本申请实施例二公开的一种文本分类网络的结构示意图;图8为本申请实施例二公开的一种Transformer模型的结构示意图;图9为本申请实施例三公开的一本文档来自技高网...

【技术保护点】
1.一种文本分类方法,其特征在于,所述方法包括:/n获取待分类文本的中文字形信息,所述中文字形信息基于五笔输入法字根得到;/n将所述中文字形信息编码为独热编码;/n通过第一神经网络将所述独热编码转换为五笔字形编码;/n利用第二神经网络将所述五笔字形编码转换为注意力编码;/n根据所述注意力编码计算得到所述待分类文本的特征向量;/n通过第三神经网络对所述特征向量进行运算并根据运算结果确定所述待分类文本的标签类型。/n

【技术特征摘要】
1.一种文本分类方法,其特征在于,所述方法包括:
获取待分类文本的中文字形信息,所述中文字形信息基于五笔输入法字根得到;
将所述中文字形信息编码为独热编码;
通过第一神经网络将所述独热编码转换为五笔字形编码;
利用第二神经网络将所述五笔字形编码转换为注意力编码;
根据所述注意力编码计算得到所述待分类文本的特征向量;
通过第三神经网络对所述特征向量进行运算并根据运算结果确定所述待分类文本的标签类型。


2.如权利要求1所述的文本分类方法,其特征在于,根据所述注意力编码计算得到所述待分类文本的特征向量,包括:
当所述注意力编码的数量大于等于两个时,拼接所有所述注意力编码并得到所述待分类文本的特征向量。


3.如权利要求1所述的文本分类方法,其特征在于,利用第二神经网络将所述五笔字形编码转换为注意力编码,包括:
将所述五笔字形编码转换为向量元素;
创建所述向量元素的查询向量、关键向量、价值向量;
根据所述查询向量、关键向量计算所述向量元素的注意力得分;
根据所述价值向量和对所述注意力得分进行归一化后的得分,获得所述注意力编码。


4.如权利要求3所述的文本分类方法,其特征在于:创建所述向量元素的查询向量、关键向量、价值向量,包括:
将所述向量元素与预设第一权重相乘获得所述查询向量;
将所述向量元素与预设第二权重相乘获得所述关键向量;
将所述向量元素与预设第三权重相乘获得所述价值向量。


5.如权利要求1所述的文本分类方法,其特征在于,通过第三神经网络对所述特征向量进行运算并根据运算结果确定所述待分类文本的标签类型,包括:
根据所述特征向量、所述第三神...

【专利技术属性】
技术研发人员:赵茜周玥胡浩廖凤玲谢晓婷严彦昌杨金辉余梓玲
申请(专利权)人:广东博智林机器人有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1