一种基于改进Tri-training算法的文本分类方法技术

技术编号：42828544 阅读：3 留言：0更新日期：2024-09-24 21:03

本发明专利技术公开了文本数据处理技术领域的一种基于改进Tri‑training算法的文本分类方法，包括如下步骤：文本预处理、文本特征选择和分类器训练；文本处理包括对所选文本数据进行标准化处理，将其转换为后续特征提取的形式；文本特征选择，基于信息增益公式，以反映特征的重要性，信息增益越大，特征就越重要；分类器训练是基于改进Tri‑training算法进行训练。本发明专利技术算法在三个分类器中共享一个训练集，这降低了分类器出错的概率。对进入标记数据集的样本施加了更严格的限制。此外，在每次迭代训练后，根据样本类别比例的变化动态更新概率阈值。此外，将RemoveOnly编辑操作和自适应数据编辑策略结合到Tri‑training算法学习过程中。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于文本数据处理，具体是一种基于改进tri-training算法的文本分类方法。

技术介绍

1、随着计算机技术和网络技术的不断进步，互联网上的文本数据量正在迅速增长。作为分布最广、数据量最大的主要信息载体，通过文本分类技术科学地组织和管理海量数据势在必行。因此，在当今的机器学习领域中，文本分类在自然语言处理中起着至关重要的作用。传统的监督学习需要手动标记文本类别，这导致了高昂的劳动力成本。半监督文本分类可以从未标记的样本中学习，因此越来越受到关注。最普遍的弱监督文本分类方法包括生成伪标签和训练分类器来学习文档和类之间的映射。不可否认的是，伪标签的质量对最终分类的准确性有很大贡献。然而，它们不可避免地会产生噪声。伪标签通常使用启发式方法生成，如用户提供的文档和种子词之间的字符串匹配，这种噪声标签上训练的错误预测的高风险是不能忽视的。因此，尽可能减少伪标签产生的噪声是至关重要的。

2、集成学习作为一种机器学习技术，已被证明通过集成多个弱监督分类器来有效降低分类问题中的噪声。集成学习可以将多个独立模型相结合，以提高其整体性能。与浅层或传统分类模型相比，具有多层处理架构的深度学习模型显示出优越的性能。集成学习背后的主要思想是通过特定的规则生成多个学习者，使用集成策略将其集成，并根据最终结果做出综合决策。通常，集成学习中的许多分类器是同质的，被认为是“弱分类器”。基于这个弱分类器，可以通过样本集、输入特征、输出表示和算法参数扰动等扰动生成几个分类器。通过将这些分类器融合在一起，可以获得精度提高的“强分类器”。这种方法

3、为了解决联合训练的局限性，周志华等人提出了tri-training算法，通过消除联合训练过程中使用多个分类器的长验证时间来提高效率。该算法首先对标记样本集进行自举采样，以获得三个标记训练集，然后从每个训练集生成一个分类器。在训练过程中，其他两个分类器协同提供每个分类器获得的新标记示例。如果两个分类器对同一未标记示例的预测相同，则该示例被认为具有高标记置信度，并且在标记之后被添加到第三分类器的标记训练集。当预测看不见的例子时，tri-training不再像以前的算法那样选择单个分类器；相反，它利用集成学习中常用的投票方法来形成三个分类器的集成。与以前的联合训练算法不同，tri-training通过判断三个分类器预测的一致性，隐式地比较不同未标记样本的置信度。这种方法解决了频繁使用耗时的统计测试技术的问题。

4、然而，tri-training算法也有其缺点。传统的tri-training算法通过确定三个分类器预测的一致性，隐式地比较不同未标记示例的标记置信度。然而，隐式处理通常不如标记置信度的外显估计准确。例如，如果初始分类器较弱，则未标记的示例可能被错误标记，从而导致第三分类器的训练中出现噪声。此外，该算法没有考虑由于分类器误差累积而导致训练集中样本类不平衡的问题。而且由于应用相同的学习方法来训练数据，因此即使训练集不同，所获得的分类器也具有相同的分类结果，而与数据的概率无关。因此，tri-training算法的泛化能力并不强。

技术实现思路

1、本专利技术提供为了解决上述问题，提出了一种基于改进tri-training算法的文本分类方法。提出的算法在三个分类器中共享一个训练集，这降低了分类器出错的概率。还对进入标记数据集的样本施加了更严格的限制。此外，在每次迭代训练后，根据样本类别比例的变化动态更新概率阈值。此外，将removeonly编辑操作和自适应数据编辑策略结合到tri-training算法学习过程中。

2、为了实现上述目的，本专利技术的技术方案如下：一种基于改进tri-training算法的文本分类方法，包括如下步骤：文本预处理、文本特征选择和分类器训练；

3、文本处理包括对所选文本数据进行标准化处理，将其转换为后续特征提取的形式；

4、文本特征选择，基于信息增益公式，以反映特征的重要性，信息增益越大，特征就越重要；

5、分类器训练是基于改进tri-training算法进行训练，具体方法如下：

6、输入数据：原始标注平衡训练集未标注训练集du、验证集dv和测试集dt、未标注训练集子集数n、迭代次数t0、样本类别比例上限ph,、下限pl和微调step；

7、训练：预处理有标签的平衡训练集h1；降低预处理集的维度，得到特征向量，然后用朴素贝叶斯、支持向量机和k近邻算法训练特征向量，得到三个初始分类器h1,h2和h3；

8、(1)使用h1,h2和h3初步确定du，得到l0；

9、(2)计算m个类别的l0中的频率；

10、

11、(3)将du随机分成若干子集，用h1,h2和h3确定du，得到

12、

13、(4)对于中的每个文本

14、

15、(5)如果i(di中的类别)>ph，则否则

16、(6)重复步骤(3)至(5)；遍历中的所有文本；

17、(7)使用removeonly剪切di并计算性能；

18、(8)用更新后的di重新训练h1,h2和h3；用dv验证，记录结果；

19、(9)重复步骤(2)至(8)，直到迭代次数等于t0；

20、输出数据：将初始分类器h1,h2和h3中验证结果最好的一个作为最终分类器h，在dt上对其进行测试，并输出f1。

21、进一步，信息增益公式：

22、k是文本类型的数量；p(ci)是特定类型的文本出现在所有类型的文本的总数中的概率，是某些类型的文本的数量，n是文本的总数；p(t)是包含特征t的文本出现在所有文本中的概率，nt是包含特征t的文本的数量；p(ci|t)是当特征t出现时文本属于ci的条件概率；是ci中具有特征t的文本的数量，是没有特征t的文本出现在总文本中的概率，是没有特征t的文本的数量；是当特征不出现时文本属于ci的条件概率，是ci中不具有特征的文本的数量。

23、上述方案的技术原理及有益效果如下：本专利技术算法在三个分类器中共享一个训练集，这降低了分类器出错的概率。还对进入标记数据集的样本施加了更严格的限制。此外，在每次迭代训练后，根据样本类别比例的变化动态更新概率阈值。此外，将removeonly编辑操作和自适应数据编辑策略结合到tri-training算法学习过程中。

24、本专利技术的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本本文档来自技高网...

【技术保护点】

1.一种基于改进Tri-training算法文本分类方法，其特征在于：包括如下步骤：文本预处理、文本特征选择和分类器训练；

2.根据权利要求1所述的基于改进Tri-training算法的文本分类方法，其特征在于：信息增益公式：

【技术特征摘要】

1.一种基于改进tri-training算法文本分类方法，其特征在于：包括如下步骤：文本预处理、文本特征选择和分类器训练...

【专利技术属性】
技术研发人员：章超，李波，
申请(专利权)人：四川警察学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人