文本规范化分类方法、装置、设备及存储介质制造方法及图纸

技术编号:35039926 阅读:11 留言:0更新日期:2022-09-24 23:18
本发明专利技术涉及数据处理技术领域,尤其涉及一种文本规范化分类方法、装置、设备及存储介质,所述方法基于预训练模型,对所述语料库中的文本句子进行训练,生成至少一类句向量样本;基于分类算法模型对所述句向量样本进行分类训练,获得分类样本;基于降维算法模型对所述分类样本进行坐标变换,获得目标样本。通过分类算法模型对预训练模型生成的句向量样本进行映射,能够将不同类别的样本分离,且能够使得不同类别的样本均匀分布在空间中,获得分类样本;然后基于降维算法,通过坐标变换,对分类样本进行降维处理,将不同类别的分类样本进一步分离,从而提高对样本数据的分类准确性。从而提高对样本数据的分类准确性。从而提高对样本数据的分类准确性。

【技术实现步骤摘要】
文本规范化分类方法、装置、设备及存储介质


[0001]本专利技术涉及数据处理
,尤其涉及一种文本规范化分类方法、装置、设备及存储介质。

技术介绍

[0002]文本分类在文本处理中是很重要的一个模块,它的应用也非常广泛,比如:垃圾过滤、新闻分类、词性标注等等。它和其他的分类没有本质的区别,核心方法为首先提取分类数据的特征,然后选择最优的匹配,从而分类。文本分类任务是指在给定的分类体系中,将文本指定分到某个或某几个类别中。被分类的对象有短文本,例如句子、标题、商品评论等等,长文本,如文章等。
[0003]但是在小样本任务中,由于项目前期可用数据较少,应用场景灵活,使得前期文本分类模型对未见过的句子判断能力较差,模型训练过程中不能有效区分不同类别的样本,而导致训练后的样本数据分布不均匀,使得训练结果对于样本数据的分类准确性低。因此,目前文本分类模型对样本数据的分类准确性低成为亟待解决的技术问题。

技术实现思路

[0004]本专利技术的主要目的在于提供一种文本规范化分类方法、装置、设备及存储介质,旨在解决目前文本分类模型对样本数据的分类准确性低的技术问题。
[0005]为实现上述目的,本专利技术提供一种文本规范化分类方法,所述文本规范化分类方法包括:获取语料库,并基于预训练模型,对所述语料库中的文本句子进行训练,生成至少一类句向量样本;基于分类算法模型和所述句向量样本,生成投影矩阵,并基于所述投影矩阵,对所述句向量样本进行分类训练,获得分类样本;基于降维算法模型和所述投影矩阵,计算协方差矩阵,并基于所述协方差矩阵,对所述分类样本进行坐标变换,获得目标样本。
[0006]此外,为实现上述目的,本专利技术还提供一种文本规范化分类装置,所述文本规范化分类装置包括:句向量样本生成模块,用于获取语料库,并基于预训练模型,对所述语料库中的文本句子进行训练,生成至少一类句向量样本;分类样本获得模块,用于基于分类算法模型和所述句向量样本,生成投影矩阵,并基于所述投影矩阵,对所述句向量样本进行分类训练,获得分类样本;目标样本获得模块,用于基于降维算法模型和所述投影矩阵,计算协方差矩阵,并基于所述协方差矩阵,对所述分类样本进行坐标变换,获得目标样本。
[0007]此外,为实现上述目的,本专利技术还提供一种文本规范化分类设备,所述文本规范化分类设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的文本规范化分类程序,其中所述文本规范化分类程序被所述处理器执行时,实现如上述的文本规范化分类的步骤。
[0008]此外,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有文本规范化分类程序,其中所述文本规范化分类程序被处理器执行时,实现如上述的文本规范化分类方法的步骤。
[0009]本专利技术提供一种文本规范化分类方法,所述方法获取语料库,并基于预训练模型,对所述语料库中的文本句子进行训练,生成至少一类句向量样本;基于分类算法模型和所述句向量样本,生成投影矩阵,并基于所述投影矩阵,对所述句向量样本进行分类训练,获得分类样本;基于降维算法模型和所述投影矩阵,计算协方差矩阵,并基于所述协方差矩阵,对所述分类样本进行坐标变换,获得目标样本。通过上述方式,本专利技术采用分类算法模型对预训练模型生成的句向量样本进行映射,能够将不同类别的样本分离,且能够使得不同类别的样本均匀分布在空间中,获得分类样本;然后基于降维算法,通过坐标变换,对分类样本进行降维处理,将不同类别的分类样本进一步分离,从而提高对样本数据的分类准确性,解决了目前文本分类模型对样本数据的分类准确性低的技术问题。
附图说明
[0010]图1为本专利技术实施例方案中涉及的文本规范化分类设备的硬件结构示意图;
[0011]图2为本专利技术文本规范化分类方法第一实施例的流程示意图;
[0012]图3为本专利技术文本规范化分类方法第一实施例一场景示意图;
[0013]图4为本专利技术文本规范化分类方法第二实施例的流程示意图;
[0014]图5为本专利技术文本规范化分类方法第三实施例的流程示意图;
[0015]图6为本专利技术文本规范化分类装置第一实施例的功能模块示意图。
[0016]本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0017]应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0018]本专利技术实施例涉及的文本规范化分类方法主要应用于文本规范化分类设备,该文本规范化分类设备可以是PC、便携计算机、移动终端等具有显示和处理功能的设备。
[0019]参照图1,图1为本专利技术实施例方案中涉及的文本规范化分类设备的硬件结构示意图。本专利技术实施例中,文本规范化分类设备可以包括处理器1001(例如CPU),通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信;用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard);网络接口1004可选的可以包括标准的有线接口、无线接口(如WI

FI接口);存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non

volatile memory),例如磁盘存储器,存储器1005可选的还可以是独立于前述处理器1001的存储装置。
[0020]本领域技术人员可以理解,图1中示出的硬件结构并不构成对文本规范化分类设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
[0021]继续参照图1,图1中作为一种计算机可读存储介质的存储器1005可以包括操作系统、网络通信模块以及文本规范化分类程序。
[0022]在图1中,网络通信模块主要用于连接服务器,与服务器进行数据通信;而处理器1001可以调用存储器1005中存储的文本规范化分类程序,并执行本专利技术实施例提供的文本规范化分类方法。
[0023]本专利技术实施例提供了一种文本规范化分类方法。
[0024]参照图2,图2为本专利技术文本规范化分类方法第一实施例的流程示意图。
[0025]本实施例中,所述文本规范化分类方法包括以下步骤:
[0026]步骤S10,获取语料库,并基于预训练模型,对所述语料库中的文本句子进行训练,生成至少一类句向量样本;
[0027]本实施例中,文本分类是对文本集(或其他实体或物件)按照一定的分类体系或标准进行自动分类标记。根据一个已经被标注的训练文档集合,找到文档特征和文档类别之间的关系模型,然后利用这种学习得到的关系模型对新的文档进行类别判断。预训练模型用于对语料库中的文本句子进行预处理,文本预处理过程是在文本中提取关键词表示文本的过程。
[0028]在一示例性的实施方式中,预训练模型可以是BERT预训练模型。BERT预训练模型通过无需标注的数据预训练模型,提取语句的双向上下文特征。BER本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本规范化分类方法,其特征在于,所述方法包括:获取语料库,并基于预训练模型,对所述语料库中的文本句子进行训练,生成至少一类句向量样本;基于分类算法模型和所述句向量样本,生成投影矩阵,并基于所述投影矩阵,对所述句向量样本进行分类训练,获得分类样本;基于降维算法模型和所述投影矩阵,计算协方差矩阵,并基于所述协方差矩阵,对所述分类样本进行坐标变换,获得目标样本。2.根据权利要求1所述的文本规范化分类方法,其特征在于,所述基于分类算法模型和所述句向量样本,生成投影矩阵,包括:获取所述至少一类句向量样本,基于所述分类算法模型,计算类内散度矩阵;基于所述分类算法模型和所述至少两类句向量样本,计算类间散度矩阵;基于所述类内散度矩阵和所述类间散度矩阵,生成所述投影矩阵。3.根据权利要求2所述的文本规范化分类方法,其特征在于,所述基于所述分类算法模型和所述至少两类句向量样本,计算类间散度矩阵,包括:基于至少一类所述句向量样本,计算至少一个样本中心,并基于预设投影函数和所述样本中心,计算所述各类句向量样本的投影中心;基于所述各类句向量样本的投影中心,计算所述各类句向量样本之间的投影距离,获得类间距离;基于所述类间距离和所述预设投影函数,计算所述类间散度矩阵。4.根据权利要求3所述的文本规范化分类方法,其特征在于,所述基于所述类内散度矩阵和所述类间散度矩阵,生成所述投影矩阵,包括:基于所述预设投影函数,计算所述各类句向量样本的投影坐标,并基于所述投影坐标和所述投影中心,计算所述各类句向量样本的类内方差;基于所述类内方差和所述预设投影函数,计算所述类内散度矩阵;基于所述类间散度矩阵和所述类内散度矩阵,计算所述句向量样本的特征向量,并基于所述特征向量,确定所述投影矩阵。5.根据权利要求1所述的文本规范化分类方法,其特征在于,所述基于降维算法模型和所述投影矩阵,计算协方差矩阵,并基于所述协方差矩阵,对所述分类样本进行坐标变换,获得目标样本,包括:基于所述投影矩阵和正交基变换,获得所述协方差矩阵;基于所述协方差矩阵的求解结果...

【专利技术属性】
技术研发人员:田兴黄忠品
申请(专利权)人:宁波牛信网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1