一种文本处理方法、装置、电子设备及计算机可读介质制造方法及图纸

技术编号:30319172 阅读:12 留言:0更新日期:2021-10-09 23:24
本申请公开了文本处理方法、装置、电子设备及计算机可读介质,涉及人工智能技术领域,具体涉及机器学习、深度学习和自然语言处理技术领域,该方法包括接收文本分类请求,获取文本分类请求对应文本的文本标题和标签类别;调用多层神经网络模型,以对文本标题进行语义信息提取,基于提取的语义信息生成文本标题语义信息向量;调用标签类别对应的标签语义信息向量,基于标签语义信息向量、文本标题语义信息向量和分类器,生成对文本的主题标识和类别标识,以基于主题标识和类别标识对文本进行处理。实现只通过一个多层级神经网络模型即可完成多维度、多层级标签的分类,以基于分类对文本进行处理,节省时间和人力。节省时间和人力。节省时间和人力。

【技术实现步骤摘要】
一种文本处理方法、装置、电子设备及计算机可读介质


[0001]本申请涉及人工智能
,具体涉及机器学习、深度学习和自然语言处理
,尤其涉及一种文本处理方法、装置、电子设备及计算机可读介质。

技术介绍

[0002]目前,对于一篇文本处理时,需要对文本进行多标签分类,这个分类会存在多个层级,并且每一层级的大类中包含多个小类别时,会去分别处理数据,训练模型,需要花费大量的时间和人力。
[0003]在实现本申请过程中,专利技术人发现现有技术中至少存在如下问题:
[0004]对文本进行多标签分类以对文本进行处理时,在分类存在多个层级,每一层级的大类中包含多个小类别时,会去分别处理数据,训练模型,需要花费大量的时间和人力。

技术实现思路

[0005]有鉴于此,本申请实施例提供一种文本处理方法、装置、电子设备及计算机可读介质,能够解决现有的对文本进行多标签分类以对文本进行处理时,在分类存在多个层级,每一层级的大类中包含多个小类别时,会去分别处理数据,训练模型,需要花费大量的时间和人力。的问题。
[0006]为实现上述目的,根据本申请实施例的一个方面,提供了一种文本处理方法,包括:
[0007]接收文本分类请求,获取文本分类请求对应文本的文本标题和标签类别;
[0008]调用多层神经网络模型,以对文本标题进行语义信息提取,进而基于提取的语义信息生成文本标题语义信息向量;
[0009]调用标签类别对应的标签语义信息向量,进而基于标签语义信息向量、文本标题语义信息向量和分类器,生成对文本的主题标识和类别标识,以基于主题标识和类别标识对文本进行处理。
[0010]可选地,对文本标题进行语义信息提取,进而基于提取的语义信息生成文本标题语义信息向量,包括:
[0011]将文本标题输入语言模型中,以输出文本标题对应的文本标题语义信息,其中,语言模型用于表征文本与语义信息的对应关系。
[0012]可选地,基于提取的语义信息生成文本标题语义信息向量,包括:
[0013]确定文本标题对应的标题标识;
[0014]将提取的语义信息输入至多层神经网络模型中的与标题标识对应的模型中,以输出对应的文本标题语义信息向量。
[0015]可选地,对文本标题进行语义信息提取,包括:
[0016]确定标签类别对应的预设文字长度;
[0017]确定文本标题对应的文字长度;
[0018]根据预设文字长度和文本标题对应的文字长度,确定目标文字长度;
[0019]将文本标题对应的文字长度扩充至目标文字长度,进而对目标文字长度的文本标题进行语义信息提取。
[0020]可选地,调用标签类别对应的标签语义信息向量,包括:
[0021]调用对应目标文字长度的标签类别对应的标签语义信息向量。
[0022]可选地,基于标签语义信息向量、文本标题语义信息向量和分类器,生成对应文本的主题标识和类别标识,包括:
[0023]将标签语义信息向量与标题语义信息向量相乘,生成向量矩阵,进而将向量矩阵输入分类器,生成对应文本的主题标识和类别标识。
[0024]可选地,在调用多层神经网络模型之前,方法还包括:
[0025]获取初始多层神经网络模型;
[0026]获取训练样本集,训练样本集包括多维度的文本标题、多层级的标签类别、标注的文本标题对应的主题标识和标注的文本标题对应的类别标识;
[0027]将多维度的文本标题和多层级的标签类别作为多层神经网络模型的输入,将标注的文本标题对应的主题标识和标注的文本标题对应的类别标识作为期望输出,对初始多层神经网络模型进行训练,以得到多层神经网络模型。
[0028]另外,本申请还提供了一种文本处理装置,包括:
[0029]接收单元,被配置成接收文本分类请求,获取文本分类请求对应文本的文本标题和标签类别;
[0030]文本标题语义信息向量生成单元,被配置成调用多层神经网络模型,以对文本标题进行语义信息提取,进而基于提取的语义信息生成文本标题语义信息向量;
[0031]文本分类单元,被配置成调用标签类别对应的标签语义信息向量,进而基于标签语义信息向量、文本标题语义信息向量和分类器,生成对应文本的主题标识和类别标识,以基于主题标识和类别标识对文本进行处理。
[0032]可选地,文本标题语义信息向量生成单元进一步被配置成:
[0033]将文本标题输入语言模型中,以输出文本标题对应的文本标题语义信息,其中,语言模型用于表征文本与语义信息的对应关系。
[0034]可选地,文本标题语义信息向量生成单元进一步被配置成:
[0035]确定文本标题对应的标题标识;
[0036]将提取的语义信息输入至多层神经网络模型中的与标题标识对应的模型中,以输出对应的文本标题语义信息向量。
[0037]可选地,文本标题语义信息向量生成单元进一步被配置成:
[0038]确定标签类别对应的预设文字长度;
[0039]确定文本标题对应的文字长度;
[0040]根据预设文字长度和文本标题对应的文字长度,确定目标文字长度;
[0041]将文本标题对应的文字长度扩充至目标文字长度,进而对目标文字长度的文本标题进行语义信息提取。
[0042]可选地,文本分类单元进一步被配置成:
[0043]调用对应目标文字长度的标签类别对应的标签语义信息向量。
[0044]可选地,文本分类单元进一步被配置成:
[0045]将标签语义信息向量与标题语义信息向量相乘,生成向量矩阵,进而将向量矩阵输入分类器,以生成对应文本的主题标识和类别标识。
[0046]可选地,文本处理装置还包括训练单元,被配置成:
[0047]获取初始多层神经网络模型;
[0048]获取训练样本集,训练样本集包括多维度的文本标题、多层级的标签类别、标注的文本标题对应的主题标识和标注的文本标题对应的类别标识;
[0049]将多维度的文本标题和多层级的标签类别作为多层神经网络模型的输入,将标注的文本标题对应的主题标识和标注的文本标题对应的类别标识作为期望输出,对初始多层神经网络模型进行训练,以得到多层神经网络模型。
[0050]另外,本申请还提供了一种文本处理电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上述的文本处理方法。
[0051]另外,本申请还提供了一种计算机可读介质,其上存储有计算机程序,程序被处理器执行时实现如上述的文本处理方法。
[0052]上述专利技术中的一个实施例具有如下优点或有益效果:本申请通过接收文本分类请求,获取文本分类请求对应文本的文本标题和标签类别;调用多层神经网络模型,以对文本标题进行语义信息提取,进而基于提取的语义信息生成文本标题语义信息向量;调用标签类别对应的标签语义信息向量本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:接收文本分类请求,获取所述文本分类请求对应文本的文本标题和标签类别;调用多层神经网络模型,以对所述文本标题进行语义信息提取,进而基于提取的语义信息生成文本标题语义信息向量;调用所述标签类别对应的标签语义信息向量,进而基于所述标签语义信息向量、所述文本标题语义信息向量和分类器,生成对应所述文本的主题标识和类别标识,以基于所述主题标识和类别标识对所述文本进行处理。2.根据权利要求1所述的方法,其特征在于,所述对所述文本标题进行语义信息提取,进而基于提取的语义信息生成文本标题语义信息向量,包括:将所述文本标题输入语言模型中,以输出所述文本标题对应的文本标题语义信息,其中,所述语言模型用于表征文本与语义信息的对应关系。3.根据权利要求1所述的方法,其特征在于,所述基于提取的语义信息生成文本标题语义信息向量,包括:确定所述文本标题对应的标题标识;将提取的语义信息输入至多层神经网络模型中的与所述标题标识对应的模型中,以输出对应的文本标题语义信息向量。4.根据权利要求1所述的方法,其特征在于,所述对所述文本标题进行语义信息提取,包括:确定所述标签类别对应的预设文字长度;确定所述文本标题对应的文字长度;根据所述预设文字长度和所述文本标题对应的文字长度,确定目标文字长度;将所述文本标题对应的文字长度扩充至所述目标文字长度,进而对目标文字长度的文本标题进行语义信息提取。5.根据权利要求4所述的方法,其特征在于,所述调用所述标签类别对应的标签语义信息向量,包括:调用对应所述目标文字长度的标签类别对应的标签语义信息向量。6.根据权利要求1所述的方法,其特征在于,所述基于所述标签语义信息向量、所述文本标题语义信息向量和分类器,生成对应所述文本的主题标识和类别标识,包括:将所述标签语义信息向量与所述标题语义信息向量相乘,生成向量矩阵,进而将所述向量矩阵输入分类器,以生成对应所述文本的主题标识和类别标识。7.根据权利要求1所述的方法,其特征在于,在所述调用多层神经网络模型之前,所述方...

【专利技术属性】
技术研发人员:罗奕康刘海聂砂贾国琛师文宝戴菀庭崔震张士存
申请(专利权)人:中国建设银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1