文本数据分类方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37787644 阅读:10 留言:0更新日期:2023-06-09 09:18
本公开提供了一种文本数据分类方法、装置、电子设备及存储介质,可以应用于大数据技术领域。该方法包括:获取文本数据,文本数据用于限定数据表中M个字段的属性信息,M≥2;将文本数据输入编码器,根据文本数据的文本信息和位置信息,输出与文本数据对应的编码向量;利用M个全连接网络对编码向量进行处理,得到M个预测结果,其中,M个全连接网络用于执行与M个字段对应的分类任务,预测结果用于表征与字段对应的目标属性类别。对应的目标属性类别。对应的目标属性类别。

【技术实现步骤摘要】
文本数据分类方法、装置、电子设备及存储介质


[0001]本公开涉及大数据
,具体涉及一种文本数据分类方法、装置、电子设备及存储介质。

技术介绍

[0002]在生成业务数据表的过程中,需要利用规则库中的规则对业务数据表内字段的属性信息进行限定。在相关技术中,一般通过业务人员判断规则文本的属性信息;或者将规则文本与模板进行匹配,确定规则文本的属性信息。在确定规则文本的属性信息之后,利用规则文本以及确定的属性信息构建规则库。
[0003]在确定属性信息的过程中,无论是通过业务人员判断属性信息,还是通过模板匹配确定属性信息,均存在人工成本高、处理效率低、准确性差的技术问题。

技术实现思路

[0004]鉴于上述问题,本公开提供了一种文本数据分类方法、装置、电子设备及存储介质。
[0005]根据本公开的第一个方面,提供了一种文本数据分类方法,包括:
[0006]获取文本数据,文本数据用于限定数据表中M个字段的属性信息,M≥2;
[0007]将文本数据输入编码器,根据文本数据的文本信息和位置信息,输出与文本数据对应的编码向量;
[0008]利用M个全连接网络对编码向量进行处理,得到M个预测结果,其中,M个全连接网络用于执行与M个字段对应的分类任务,预测结果用于表征与字段对应的目标属性类别。
[0009]根据本公开的实施例,其中,全连接网络包括私有层和输出层,全连接网络的输出层的节点数目与分类任务的属性类别数目相关联;
[0010]利用M个全连接网络对编码向量进行处理,得到M个预测结果,包括:
[0011]将编码向量分别输入M个全连接网络的私有层,输出M个特征提取数据;以及
[0012]将M个特征提取数据分别输入M个全连接网络的输出层,输出M个预测结果。
[0013]根据本公开的实施例,其中,私有层包括N个级联的子私有层,N≥1;
[0014]将编码向量分别输入M个全连接网络的私有层,输出M个特征提取数据,包括:
[0015]针对第m个全连接网络,将编码向量输入第1个子私有层,得到第一子特征数据,1≤m≤M;以及
[0016]将第一子特征数据输入第2个子私有层,直至第N个子私有层输出第N子特征数据,将第N子特征数据作为与第m个全连接网络对应的第m个特征提取数据。
[0017]根据本公开的实施例,其中,将M个特征提取数据分别输入M个全连接网络的输出层,输出M个预测结果,包括:
[0018]针对第i个全连接网络,将第i个特征提取数据映射至第i个类别向量,其中,第i个全连接网络的输出层包括P个节点,第i个类别向量包括P个参量,P≥2,1≤i≤M;
[0019]利用分类函数处理P个参量,得到与P个参量对应的P个类别概率;以及
[0020]根据P个类别概率,确定与第i个全连接网络对应的第i个预测结果。
[0021]根据本公开的实施例,其中,编码器包括输入层和编码层;将文本数据输入编码器,根据文本数据的文本信息和位置信息,输出与文本数据对应的编码向量,包括:
[0022]将文本数据输入输入层,输出文本数据的字符数据,字符数据满足预设数据格式;以及
[0023]将字符数据输入编码层,根据文本数据的文本信息和位置信息,输出编码向量,其中,编码向量用于表征文本数据中每个字符与其他字符之间的注意力信息。
[0024]根据本公开的实施例,其中,编码层包括嵌入转换层、注意力层、残差层和前馈层,注意力层由K个注意力网络构成,K≥2;
[0025]将字符数据输入编码层,根据文本数据的文本信息和位置信息,输出编码向量,包括:
[0026]将字符数据输入嵌入转换层,根据所述文本数据的文本信息和位置信息,输出文本数据的词嵌入向量数据,其中,词嵌入向量数据包括文本数据中多个字符的字符嵌入特征数据和位置嵌入特征数据;
[0027]将词嵌入向量数据输入注意力层,输出包括K个维度的注意力数据;
[0028]将注意力数据输入残差层,输出中间特征数据;以及
[0029]将中间特征数据输入前馈层,输出编码向量。
[0030]根据本公开的实施例,其中,在利用M个全连接网络对编码向量进行处理,得到M个预测结果之后,还包括:
[0031]根据M个预测结果表征的M个目标属性类别,获取与M个目标属性类别对应的M个属性值;以及
[0032]将文本数据的标识信息作为键值对的主键,M个属性值作为键值对的键值,将文本数据存储至目标数据库。
[0033]根据本公开的实施例,其中,在将文本数据输入编码器,输出与文本数据对应的编码向量之前,还包括:
[0034]基于迁移学习原理,从教师模型获取初始参数,并将所述初始参数作为原始编码器的参数,所述教师模型是利用无监督语料训练得到的;以及
[0035]利用规则文本数据集训练原始编码器和M个原始全连接网络,在满足预设条件的情况下,得到训练好的编码器和M个全连接网络。
[0036]本公开的第二方面提供了一种文本数据分类装置,包括:
[0037]获取模块,用于获取文本数据,文本数据用于限定数据表中M个字段的属性信息,M≥2;
[0038]编码模块,用于将文本数据输入编码器,根据文本数据的文本信息和位置信息,输出与文本数据对应的编码向量;
[0039]预测模块,用于利用M个全连接网络对编码向量进行处理,得到M个预测结果,其中,M个全连接网络用于执行与M个字段对应的分类任务,预测结果用于表征与字段对应的目标属性类别。
[0040]本公开的第三方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于
存储一个或多个程序,其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器执行上述文本数据分类方法。
[0041]本公开的第四方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述文本数据分类方法。
[0042]本公开的第五方面还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述文本数据分类方法。
[0043]本公开通过获取文本数据;将文本数据输入编码器,根据文本数据的文本信息和位置信息,输出与文本数据对应的编码向量;利用M个全连接网络对编码向量进行处理,得到M个预测结果,其中,M个全连接网络用于执行与M个字段对应的分类任务,预测结果用于表征与字段对应的目标属性类别。实现了对文本数据同时进行多种属性区分,无需业务人员根据经验手动进行属性划分,也无需构建模板对实现属性匹配,降低了文本数据属性分类的人工成本,提高了后续构建规则库的效率和属性分类准确性。
[0044]此外,由于利用M个全连接网络与编码器执行不同的分类任务,无需针对多个分类任务训练多个预测模型,很大程序上减少了训练参数的数量,降低了训练难度。并且,通过利用M个全连接网络同时对一个编码器输出的编码向量进行处理,还可本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本数据分类方法,包括:获取文本数据,所述文本数据用于限定数据表中M个字段的属性信息,M≥2;将所述文本数据输入编码器,根据所述文本数据的文本信息和位置信息,输出与所述文本数据对应的编码向量;利用M个全连接网络对所述编码向量进行处理,得到M个预测结果,其中,M个所述全连接网络用于执行与M个所述字段对应的分类任务,所述预测结果用于表征与所述字段对应的目标属性类别。2.根据权利要求1所述的方法,其中,所述全连接网络包括私有层和输出层,所述全连接网络的输出层的节点数目与所述分类任务的属性类别数目相关联;所述利用M个全连接网络对所述编码向量进行处理,得到M个预测结果,包括:将所述编码向量分别输入M个所述全连接网络的私有层,输出M个特征提取数据;以及将所述M个特征提取数据分别输入M个所述全连接网络的输出层,输出M个预测结果。3.根据权利要求2所述的方法,其中,所述私有层包括N个级联的子私有层,N≥1;所述将所述编码向量分别输入M个所述全连接网络的私有层,输出M个特征提取数据,包括:针对第m个全连接网络,将所述编码向量输入第1个子私有层,得到第一子特征数据,1≤m≤M;以及将第一子特征数据输入第2个子私有层,直至第N个子私有层输出第N子特征数据,将所述第N子特征数据作为与所述第m个全连接网络对应的第m个特征提取数据。4.根据权利要求2所述的方法,其中,将所述M个特征提取数据分别输入M个所述全连接网络的输出层,输出M个预测结果,包括:针对第i个全连接网络,将第i个特征提取数据映射至第i个类别向量,其中,所述第i个全连接网络的输出层包括P个节点,所述第i个类别向量包括P个参量,P≥2,1≤i≤M;利用分类函数处理所述P个参量,得到与所述P个参量对应的P个类别概率;以及根据所述P个类别概率,确定与所述第i个全连接网络对应的第i个预测结果。5.根据权利要求1所述的方法,其中,所述编码器包括输入层和编码层;所述将所述文本数据输入编码器,根据所述文本数据的文本信息和位置信息,输出与所述文本数据对应的编码向量,包括:将所述文本数据输入所述输入层,输出所述文本数据的字符数据,所述字符数据满足预设数据格式;以及将所述字符数据输入所述编码层,根据所述文本数据的文本信息和位置信息,输出所述编码向量,其中,所述编码向量用于表征所述文本数据中每个字符与其他字符之间的注意力信息。6.根据权利要求5所述的方法,其中,所述编码层包括嵌入转换层、注意力层、残差层和...

【专利技术属性】
技术研发人员:王文坤
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1