基于信度混淆矩阵的文本分类方法技术

技术编号:39804651 阅读:11 留言:0更新日期:2023-12-22 02:36
本申请涉及一种基于信度混淆矩阵的文本分类方法

【技术实现步骤摘要】
基于信度混淆矩阵的文本分类方法、装置和计算机设备


[0001]本申请涉及文本分类
,特别是涉及一种基于信度混淆矩阵的文本分类方法

装置和计算机设备


技术介绍

[0002]装备智能化是指将人工智能算法有机地嵌入到现有装备系统中,提升其识别

推理

判断

决策

控制和环境适应的能力

传统装备试验鉴定方法难以对智能化装备究竟有多智能进行衡量,难以对其性能及可靠性进行较为准确的分析与评价

为解决对智能化装备的评估问题,需要对其中的机器学习算法进行评估,用以描述装备的智能化程度

目前,针对算法智能化水平评估的研究主要围绕对抗鲁棒性

数据安全性

公平性和可解释性等维度展开

[0003]当前,对抗鲁棒性评估方法主要分为基准评估和指标评估两类

前者主要通过使用不同的攻防算法进行对抗训练的方式获得基准排名,并以此比较对抗鲁棒性的强弱;后者聚焦对抗样本的产生过程,提出一系列对抗鲁棒性的评估指标,使得对于对抗鲁棒性的衡量更加全面合理

针对模型输入

训练

决策等各个阶段,可以将指标细分为面向模型的指标和面向数据的指标

例如,对抗样本分类准确率

对抗类别平均置信度等指标依据对抗环境下模型的输出结果进行对抗鲁棒性度量;神经元敏感度
、CLEVER score
等指标观察模型内部对于对抗样本的反映,进而衡量模型的对抗鲁棒性;
k
节神经元覆盖率

平均结构相似度等指标从测试充分性和视觉不可感知性的角度衡量训练数据的质量,以此间接衡量模型的对抗鲁棒性

然而,这些评估方法或者侧重于量化对抗鲁棒性,或者侧重于可视化对抗鲁棒性,均无法同时实现评估的可量化且可视化

[0004]混淆矩阵是智能分类算法分类结果的总结矩阵,其行和列分别代表了样本的真实类别和预测类别,每一列中的数值表示真实样本被预测为该类别的数目,广泛用于多分类任务准确率评估,以及智能候选分类算法性能评价等方面,是对智能候选分类算法输出结果进行对抗鲁棒性度量的重要手段之一

[0005]然而,混淆矩阵侧重于对单个智能候选分类算法的对抗鲁棒性进行量化和可视化,在对不同智能候选分类算法的对抗鲁棒性差异的可视化上则存在一定的局限性,无法对差异进行直观

定量的描述,如此无法简单快速地进行多个智能候选分类算法的性能对比,来选择嵌入有对抗鲁棒性最佳的候选分类算法的智能化设备,难以保证文本分类效果的稳定性

[0006]其中,文本样本可以是邮件,其分类标签可以包括重要

不重要和不确定,或者招聘类邮件

培训机构类邮件

商讯类邮件

广告邮件

订阅邮件等等

若对抗鲁棒性不佳的文本分类算法受到攻击后,会出现邮件类别误判的现象,而使得用户不能及时查看到所需要的邮件:比如,用户在求职期间可能较为关心招聘类邮件,现有技术的方法却可能将招聘类邮件划分到培训机构类邮件中,使得用户不能及时得到招聘类邮件的信息,给用户带来极大不便

因此,需要保证邮件等文本系统嵌入有对抗鲁棒性强大的文本分类算法,以此满足
用户的需求,优化用户的使用体验


技术实现思路

[0007]基于此,有必要针对上述技术问题,提供一种能够快速筛选出对抗鲁棒性最佳的分类算法进行文本分类,从而提高文本分类效果稳定性的基于混淆矩阵的文本分类方法

装置和计算机设备

[0008]一种基于信度混淆矩阵的文本分类方法,所述方法包括:获取评估文本样本集;评估文本样本集中的评估文本样本均有对应的真实分类标签;分别采用多种文本分类算法对评估文本样本集进行预测分类,基于预测分类的结果得到每一文本分类算法对应的第一信度混淆矩阵,并计算第一信度混淆矩阵中多个质心偏移四边形的第一总面积,根据第一总面积的大小从多种文本分类算法中筛选出预设数量的候选文本分类算法;在信度混淆矩阵中,每一方格的中心点的横坐标为评估文本样本的真实分类标签,纵坐标为评估文本样本的预测分类标签;每一方格的中心点的权重为对应方格中的评估文本样本量;评估文本样本量是根据预测分类标签对应的置信度计算得到的;质心偏移四边形的数量为个,
N
表示分类标签的数量;其中,计算质心偏移四边形的面积的步骤包括:根据信度混淆矩阵中任意两个真实分类标签以及与其坐标值相同的两个预测分类标签所对应的方格确定当前的质心偏移四边形的构建区域,在构建区域内,根据两个真实分类标签分别确定两个偏移质心的横坐标,根据每一真实分类标签及其对应的两个预测分类标签所对应的两个方格的中心点的纵坐标和权重分别确定两个偏移质心的纵坐标,根据偏移质心的横坐标和纵坐标分别确定两个偏移质心的位置,根据两个偏移质心以及两个预测分类正确对应的方格的中心点,得到质心偏移四边形的区域,并计算得到质心偏移四边形的面积;采用预先选定的攻击算法在每一种候选文本分类算法对评估文本样本集进行预测分类的过程中加入欺骗文本样本,得到每一候选文本分类算法对应的第二信度混淆矩阵,并计算第二信度混淆矩阵中多个质心偏移四边形的第二总面积;根据质心偏移四边形的第一总面积和第二总面积的差值比较各个候选文本分类算法的对抗鲁棒性;将对抗鲁棒性最佳的候选分类算法嵌入至智能化设备进行目标文本分类

[0009]一种基于信度混淆矩阵的文本分类装置,所述装置包括:评估文本样本集获取模块,用于获取评估文本样本集;评估文本样本集中的评估文本样本均有对应的真实分类标签;第一总面积计算模块,用于分别采用多种文本分类算法对评估文本样本集进行预测分类,基于预测分类的结果得到每一文本分类算法对应的第一信度混淆矩阵,并计算第一信度混淆矩阵中多个质心偏移四边形的第一总面积,根据第一总面积的大小从多种文本分类算法中筛选出预设数量的候选文本分类算法;在信度混淆矩阵中,每一方格的中心点的横坐标为评估文本样本的真实分类标签,纵坐标为评估文本样本的预测分类标签;每一方格的中心点的权重为对应方格中的评估文本样本量;评估文本样本量是根据预测分类标
签对应的置信度计算得到的;质心偏移四边形的数量为个,
N
表示分类标签的数量;其中,计算质心偏移四边形的面积的步骤包括:根据信度混淆矩阵中任意两个真实分类标签以及与其坐标值相同的两个预测分类标签所对应的方格确定当前的质心偏移四边形的构建区域,在构建区域内,根据两个真实分类标签分别确定两个偏移质心的横坐标,根据每一真实分类标签及其对应的两个预测分类标签所对应的两个方格的中心点的纵坐本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于信度混淆矩阵的文本分类方法,其特征在于,所述方法包括:获取评估文本样本集;所述评估文本样本集中的评估文本样本均有对应的真实分类标签;分别采用多种文本分类算法对所述评估文本样本集进行预测分类,基于预测分类的结果得到每一文本分类算法对应的第一信度混淆矩阵,并计算所述第一信度混淆矩阵中多个质心偏移四边形的第一总面积,根据第一总面积的大小从多种文本分类算法中筛选出预设数量的候选文本分类算法;在信度混淆矩阵中,每一方格的中心点的横坐标为评估文本样本的真实分类标签,纵坐标为评估文本样本的预测分类标签;每一方格的中心点的权重为对应方格中的评估文本样本量;所述评估文本样本量是根据预测分类标签对应的置信度计算得到的;质心偏移四边形的数量为个,
N
表示分类标签的数量;其中,计算质心偏移四边形的面积的步骤包括:根据信度混淆矩阵中任意两个真实分类标签以及与其坐标值相同的两个预测分类标签所对应的方格确定当前的质心偏移四边形的构建区域,在所述构建区域内,根据两个真实分类标签分别确定两个偏移质心的横坐标,根据每一真实分类标签及其对应的两个预测分类标签所对应的两个方格的中心点的纵坐标和权重分别确定两个偏移质心的纵坐标,根据偏移质心的横坐标和纵坐标分别确定两个偏移质心的位置,根据两个偏移质心以及两个预测分类正确对应的方格的中心点,得到质心偏移四边形的区域,并计算得到所述质心偏移四边形的面积;采用预先选定的攻击算法在每一种候选文本分类算法对所述评估文本样本集进行预测分类的过程中加入欺骗文本样本,得到每一候选文本分类算法对应的第二信度混淆矩阵,并计算所述第二信度混淆矩阵中多个质心偏移四边形的第二总面积;根据质心偏移四边形的第一总面积和第二总面积的差值比较各个候选文本分类算法的对抗鲁棒性;将对抗鲁棒性最佳的候选分类算法嵌入至智能化设备进行目标文本分类
。2.
根据权利要求1所述的方法,其特征在于,在所述第一信度混淆矩阵中,构建质心偏移四边形的步骤包括:根据第一信度混淆矩阵中任意两个真实分类标签以及与其坐标值相同的两个预测分类标签所对应的方格的中心点的连线确定当前的质心偏移四边形的构建区域;在所述构建区域内:将两个方格的中心点的横坐标分别作为两个偏移质心的横坐标:;;其中,表示真实分类标签为的偏移质心的横坐标,表示真实分类标签为的方格的中心点的横坐标,表示真实分类标签为的偏移质心的横坐标,表示真实分类标签为的方格的中心点的横坐标;将方格中的评估文本样本量作为对应方格的中心点的权重;根据每一真实分类标签及其对应的两个预测分类标签所对应的两个方格的中心点的纵坐标和权重分别确定两个偏移质心的纵坐标:
;;其中,表示真实分类标签为的偏移质心的纵坐标,表示真实分类标签为的偏移质心的纵坐标,表示真实分类标签为的方格的中心点的纵坐标,表示真实分类标签为的方格的中心点的纵坐标,表示各个真实分类标签对应的方格中的评估文本样本总量,表示真实分类标签为,预测分类标签为的方格对应的置信度,表示真实分类标签为,预测分类标签为的方格对应的置信度,表示真实分类标签为,预测分类标签也为的方格对应的置信度表示真实分类标签为,预测分类标签也为的方格对应的置信度;根据偏移质心的两个横坐标和两个纵坐标得到构建质心偏移四边形
。3.
根据权利要求2所述的方法,其特征在于,计算所述第一信度混淆矩阵中多个质心偏移四边形的第一总面积,包括:计算所述第一信度混淆矩阵中多个质心偏移四边形的第一总面积为:,;其中,表示真实分类标签分别为,,预测分类标签也分别为,的4个方格中的质心偏移四边形的第一面积
。4.
根据权利要求3所述的方法,其特征在于,在所述第二信度混淆矩阵中,构建质心偏移四边形的步骤包括:根据第一信度混淆矩阵中任意两个真实分类标签以及与其坐标值相同的两个预测分类标签所对应的方格的中心点的连线确定当前的质心偏移四边形的构建区域;在所述构建区域内:将两个方格的中心点的横坐标分别作为两个偏移质心的横坐标:;;其中,表示真实分类标签...

【专利技术属性】
技术研发人员:孙建彬姚雪湄杨克巍李自拓姜江于海跃赵蕊蕊剧伦豪秦宇琪
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1