基于信度混淆矩阵的文本分类方法技术

技术编号：39804651 阅读：11 留言：0更新日期：2023-12-22 02:36

本申请涉及一种基于信度混淆矩阵的文本分类方法

全部详细技术资料下载

【技术实现步骤摘要】
基于信度混淆矩阵的文本分类方法、装置和计算机设备

[0001]本申请涉及文本分类
，特别是涉及一种基于信度混淆矩阵的文本分类方法
、
装置和计算机设备
。

技术介绍

[0002]装备智能化是指将人工智能算法有机地嵌入到现有装备系统中，提升其识别
、
推理
、
判断
、
决策
、
控制和环境适应的能力
。
传统装备试验鉴定方法难以对智能化装备究竟有多智能进行衡量，难以对其性能及可靠性进行较为准确的分析与评价
。
为解决对智能化装备的评估问题，需要对其中的机器学习算法进行评估，用以描述装备的智能化程度
。
目前，针对算法智能化水平评估的研究主要围绕对抗鲁棒性
、
数据安全性
、
公平性和可解释性等维度展开
。
[0003]当前，对抗鲁棒性评估方法主要分为基准评估和指标评估两类
。
前者主要通过使用不同的攻防算法进行对抗训练的方式获得基准排名，并以此比较对抗鲁棒性的强弱；后者聚焦对抗样本的产生过程，提出一系列对抗鲁棒性的评估指标，使得对于对抗鲁棒性的衡量更加全面合理
。
针对模型输入
、
训练
、
决策等各个阶段，可以将指标细分为面向模型的指标和面向数据的指标
。
例如，对抗样本分类准确率
、
对抗类别平均置信度等指标依据对抗环境下模型的输出...

【技术保护点】

【技术特征摘要】
1.
一种基于信度混淆矩阵的文本分类方法，其特征在于，所述方法包括：获取评估文本样本集；所述评估文本样本集中的评估文本样本均有对应的真实分类标签；分别采用多种文本分类算法对所述评估文本样本集进行预测分类，基于预测分类的结果得到每一文本分类算法对应的第一信度混淆矩阵，并计算所述第一信度混淆矩阵中多个质心偏移四边形的第一总面积，根据第一总面积的大小从多种文本分类算法中筛选出预设数量的候选文本分类算法；在信度混淆矩阵中，每一方格的中心点的横坐标为评估文本样本的真实分类标签，纵坐标为评估文本样本的预测分类标签；每一方格的中心点的权重为对应方格中的评估文本样本量；所述评估文本样本量是根据预测分类标签对应的置信度计算得到的；质心偏移四边形的数量为个，
N
表示分类标签的数量；其中，计算质心偏移四边形的面积的步骤包括：根据信度混淆矩阵中任意两个真实分类标签以及与其坐标值相同的两个预测分类标签所对应的方格确定当前的质心偏移四边形的构建区域，在所述构建区域内，根据两个真实分类标签分别确定两个偏移质心的横坐标，根据每一真实分类标签及其对应的两个预测分类标签所对应的两个方格的中心点的纵坐标和权重分别确定两个偏移质心的纵坐标，根据偏移质心的横坐标和纵坐标分别确定两个偏移质心的位置，根据两个偏移质心以及两个预测分类正确对应的方格的中心点，得到质心偏移四边形的区域，并计算得到所述质心偏移四边形的面积；采用预先选定的攻击算法在每一种候选文本分类算法对所述评估文本样本集进行预测分类的过程中加入欺骗文本样本，得到每一候选文本分类算法对应的第二信度混淆矩阵，并计算所述第二信度混淆矩阵中多个质心偏移四边形的第二总面积；根据质心偏移四边形的第一总面积和第二总面积的差值比较各个候选文本分类算法的对抗鲁棒性；将对抗鲁棒性最佳的候选分类算法嵌入至智能化设备进行目标文本分类
。2.
根据权利要求1所述的方法，其特征在于，在所述第一信度混淆矩阵中，构建质心偏移四边形的步骤包括：根据第一信度混淆矩阵中任意两个真实分类标签以及与其坐标值相同的两个预测分类标签所对应的方格的中心点的连线确定当前的质心偏移四边形的构建区域；在所述构建区域内：将两个方格的中心点的横坐标分别作为两个偏移质心的横坐标：；；其中，表示真实分类标签为的偏移质心的横坐标，表示真实分类标签为的方格的中心点的横坐标，表示真实分类标签为的偏移质心的横坐标，表示真实分类标签为的方格的中心点的横坐标；将方格中的评估文本样本量作为对应方格的中心点的权重；根据每一真实分类标签及其对应的两个预测分类标签所对应的两个方格的中心点的纵坐标和权重分别确定两个偏移质心的纵坐标：
；；其中，表示真实分类标签为的偏移质心的纵坐标，表示真实分类标签为的偏移质心的纵坐标，表示真实分类标签为的方格的中心点的纵坐标，表示真实分类标签为的方格的中心点的纵坐标，表示各个真实分类标签对应的方格中的评估文本样本总量，表示真实分类标签为，预测分类标签为的方格对应的置信度，表示真实分类标签为，预测分类标签为的方格对应的置信度，表示真实分类标签为，预测分类标签也为的方格对应的置信度表示真实分类标签为，预测分类标签也为的方格对应的置信度；根据偏移质心的两个横坐标和两个纵坐标得到构建质心偏移四边形
。3.
根据权利要求2所述的方法，其特征在于，计算所述第一信度混淆矩阵中多个质心偏移四边形的第一总面积，包括：计算所述第一信度混淆矩阵中多个质心偏移四边形的第一总面积为：，；其中，表示真实分类标签分别为，，预测分类标签也分别为，的4个方格中的质心偏移四边形的第一面积
。4.
根据权利要求3所述的方法，其特征在于，在所述第二信度混淆矩阵中，构建质心偏移四边形的步骤包括：根据第一信度混淆矩阵中任意两个真实分类标签以及与其坐标值相同的两个预测分类标签所对应的方格的中心点的连线确定当前的质心偏移四边形的构建区域；在所述构建区域内：将两个方格的中心点的横坐标分别作为两个偏移质心的横坐标：；；其中，表示真实分类标签...

【专利技术属性】
技术研发人员：孙建彬，姚雪湄，杨克巍，李自拓，姜江，于海跃，赵蕊蕊，剧伦豪，秦宇琪，
申请(专利权)人：中国人民解放军国防科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人