System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文本分类的方法、装置以及电子设备制造方法及图纸_技高网

文本分类的方法、装置以及电子设备制造方法及图纸

技术编号:42710259 阅读:21 留言:0更新日期:2024-09-13 12:01
本申请属于数据处理技术领域,公开了文本分类的方法、装置以及电子设备,该方法包括:获取待分类文本;采用预先训练好的文本分类模型,对待分类文本进行类别预测,获得文本类别预测结果;文本分类模型是基于训练样本数据以及各文本类别两两之间的类别相关性进行文本分类模型训练获得的,类别相关性是根据训练样本数据中各文本样本分别对应的文本类别标签确定的。这样,提高了文本分类预测的准确度。

【技术实现步骤摘要】

本申请涉及数据处理,具体而言,涉及文本分类的方法、装置以及电子设备


技术介绍

1、在自然语言处理领域中,通常需要对文本进行多标签分类。多标签分类是指同一文本可以对应一个或多个文本类别。

2、现有技术下,通常将多标签分类转化为多个二分类任务,并将每个二分类任务单独训练,从而获得训练好的文本分类模型,并通过该文本分类模型对待分类文本进行文本分类预测。

3、但是,采用这种方式,文本类别预测结果的准确度较低。


技术实现思路

1、本申请实施例的目的在于提供文本分类的方法、装置以及电子设备,用以在对待分类文本进行文本分类预测时,提高文本类别预测结果的准确度。

2、一方面,提供一种文本分类的方法,包括:

3、获取待分类文本;

4、采用预先训练好的文本分类模型,对待分类文本进行类别预测,获得文本类别预测结果;文本分类模型是基于训练样本数据以及各文本类别两两之间的类别相关性进行文本分类模型训练获得的,类别相关性是根据训练样本数据中各文本样本分别对应的文本类别标签确定的。

5、一方面,提供一种文本分类的装置,包括:

6、获取单元,用于获取待分类文本;

7、预测单元,用于采用预先训练好的文本分类模型,对待分类文本进行类别预测,获得文本类别预测结果;文本分类模型是基于训练样本数据以及各文本类别两两之间的类别相关性进行文本分类模型训练获得的,类别相关性是根据训练样本数据中各文本样本分别对应的文本类别标签确定的。

8、一方面,提供了一种电子设备,包括处理器以及存储器,存储器存储有计算机可读取指令,当计算机可读取指令由处理器执行时,运行如上述任一种文本分类的各种可选实现方式中提供的方法的步骤。

9、一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时运行如上述任一种文本分类的各种可选实现方式中提供的方法的步骤。

10、一方面,提供了一种计算机程序产品,计算机程序产品在计算机上运行时,使得计算机执行如上述任一种文本分类的各种可选实现方式中提供的方法的步骤。

11、本申请实施例提供的文本分类的方法、装置以及电子设备中,获取待分类文本;采用预先训练好的文本分类模型,对待分类文本进行类别预测,获得文本类别预测结果;文本分类模型是基于训练样本数据以及各文本类别两两之间的类别相关性进行文本分类模型训练获得的,类别相关性是根据训练样本数据中各文本样本分别对应的文本类别标签确定的。这样,结合各文本类别两两之间的类别相关性进行文本分类模型的训练,从而在模型训练时,考虑了不同文本类别之间的依赖性,进而提高了基于文本分类模型进行文本分类的准确度。

12、本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

本文档来自技高网...

【技术保护点】

1.一种文本分类的方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述文本分类模型时采用以下步骤训练获得的:

3.如权利要求2所述的方法,其特征在于,在根据各文本类别两两之间的类别相关性,对各类别预测值进行修正,获得各文本样本分别对应每一文本类别的类别预测修正值之前,所述方法还包括:

4.如权利要求3所述的方法,其特征在于,所述根据各文本样本对应的文本类别标签,确定各文本类别分别对应的类别概率,以及各文本类别组合的联合概率,包括:

5.如权利要求2所述的方法,其特征在于,所述根据各文本类别两两之间的类别相关性,对各类别预测值进行修正,获得各文本样本分别对应每一文本类别的类别预测修正值,包括:

6.如权利要求5所述的方法,其特征在于,所述根据所述第一类别预测值、所述第二类别预测值,以及所述目标文本类别组合对应的类别相关性,获得所述目标文本类别组合的相关组合概率,包括:

7.如权利要求2-6任一项所述的方法,其特征在于,所述根据各文本样本的文本类别标签,及其对应每一文本类别的类别预测修正值,对所述文本分类初始模型进行参数调整,直至获得训练好的所述文本分类模型,包括:

8.如权利要求7所述的方法,其特征在于,所述根据各文本样本对应的文本类别标签,确定各文本类别分别对应的样本分布信息熵,包括:

9.一种文本分类的装置,其特征在于,包括:

10.一种电子设备,其特征在于,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如权利要求1-8任一所述方法。

...

【技术特征摘要】

1.一种文本分类的方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述文本分类模型时采用以下步骤训练获得的:

3.如权利要求2所述的方法,其特征在于,在根据各文本类别两两之间的类别相关性,对各类别预测值进行修正,获得各文本样本分别对应每一文本类别的类别预测修正值之前,所述方法还包括:

4.如权利要求3所述的方法,其特征在于,所述根据各文本样本对应的文本类别标签,确定各文本类别分别对应的类别概率,以及各文本类别组合的联合概率,包括:

5.如权利要求2所述的方法,其特征在于,所述根据各文本类别两两之间的类别相关性,对各类别预测值进行修正,获得各文本样本分别对应每一文本类别的类别预测修正值,包括:

6.如权利要求5所述的方法,其特征在于,所...

【专利技术属性】
技术研发人员:苏义伟柴华杨玉树郭祥
申请(专利权)人:上海桔晟科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1