本发明专利技术涉及用于训练分类器的装置和方法。一种用于训练分类器(60)、具体地二元分类器的计算机实施的方法,该分类器用于根据不可分解的度量对输入信号(
【技术实现步骤摘要】
用于训练分类器的装置和方法
本专利技术涉及一种用于训练分类器的方法、一种用于使用该分类器的方法、一种计算机程序和一种机器可读存储介质、一种控制系统以及一种训练系统。
技术介绍
ZhanShi、XinhuaZhang和YaoliangYu在AdvancesinNeuralInformationProcessingSystems(神经信息处理系统进展),2017年第6033–6043页中的“Bregmandivergenceforstochasticvariancereduction:Saddle-pointandadversarialprediction(用于随机方差消减的布雷格曼散度:鞍点和对抗性预测)”公开了一种用于通过应用使用边缘化的对抗性预测技术优化F1分数度量(scoremetric)的机器学习方法,该边缘化减少对全指数大小的条件分布在其多项式大小的边缘分布中的优化。HongWang、WeiXing、KaiserAsif和BrianZiebart在AdvancesinNeuralInformationProcessingSystems(神经信息处理系统进展),2015年第2710–2718页)中的“Adversarialpredictiongamesformultivariatelosses(针对多元损失的对抗性预测游戏)”公开了使用双甲骨文(doubleoracle)技术来为一些性能度量训练分类器。
技术实现思路
本专利技术的优点尽管准确率度量是最受欢迎的评估量度,但是许多应用要求使用更复杂的评估度量,这些评估度量不能够累加分解为呈样本方式的量度,即它们不能表达为评估数据集中的各个样本的贡献之和。在现实世界应用中,机器学习算法的性能优选地利用专门针对感兴趣问题制定的评估度量来衡量。这样的评估度量常常是不可分解的度量。例如,在光学查验任务(其可例如在工业生产环境中使用以自动检查生产的商品是否根据规格生产)中,可期望使用精确率、召回率、特异度或Fβ分数作为这样的不可分解的度量的示例。例如,假设标签“1”意指“OK”,且“0”意指“不OK”。精确率(即,真阳性样本和预测阳性样本之间的比率)衡量有多少个“1”-标签实际正确的百分比。精确率为100%的生产线末端检查将导致一个有缺陷产品也不运送。在针对高精确率训练的机器中,也可设想依赖于所有“1”标签并且仅针对被标记为“0”的那些生产的商品实施(潜在地非常昂贵)重新检查。召回率(即,真阳性和实际阳性之间的比率)衡量实际有多少个“OK”例被正确标记的百分比。如果召回率很高,则可设想放弃被标记为“0”的商品的昂贵的重新检查并立即将其丢弃。特异度(即,真阴性和实际阴性之间的比率)衡量有多少个“不OK”例被正确标记为“0”的百分比。如果特异度高,则可设想立即运送被标记为“1”的所有商品。Fβ能够被视为精确率(β=0)与精确率和召回率(β=1)之间的调和平均值之间的平滑插值,以满足高精确率和高召回率两个目标。这些度量对于其他应用也是重要的。例如,在依赖于对例如接收到的视频图像的语义分割的任务(比如例如自动化车辆中的行人检测或视频监控系统中可疑物体的检测)中,F1是重要的优化目标。这是因为对于占据大部分图像的物体而言,召回率通常大于精确率,而对于小物体而言,情况恰好相反。通过同时惩罚不良的召回率和精确率,改善了所得的分割。在使用分类器来解释用户命令的自动化个人助理的情况下,可期望自动化个人助理正确地辨识尽可能多的实际命令,这就是为什么高精确率可以是期望的评估度量的原因。在可依据分类器的输出授予访问权限的访问控制系统的情况下,可期望不向未授权人员授予访问权限。对于这样的系统,可期望高特异度。此外,对于具有不平衡数据集的分类任务,使用Fβ度量是有用的。在医学领域,例如当评估成像系统的图像时,召回率、特异度和信息性是用以确保良好分类性能的优选度量。换句话说,在训练中根据这样的不可分解的度量的优化具有很大的实际价值。然而,用于不可分解的度量的训练算法尚未在实际应用中得到广泛使用,特别是在依赖于深度架构的表象力的现代机器学习应用中,其中训练通常使用基于梯度的方法来完成。代替被训练以优化感兴趣的评估度量,它们可代替地被训练以最小化交叉熵损失,并且希望它将间接地也优化不可分解的度量。具有独立权利要求1的特征的方法具有的优点在于,能够使用基于梯度的学习程序相对于大范围的不可分解的性能度量来优化分类器的性能,这导致这些度量的性能得到改善。从属权利要求中呈现了进一步的改善。本专利技术的公开内容在第一方面,本专利技术涉及一种用于训练分类器(具体地二元分类器)的计算机实施的方法,该分类器用于根据不可分解的度量对输入信号进行分类以优化性能,所述不可分解的度量衡量对应于一组训练数据的输入信号的类别和从所述分类器获得的所述输入信号的对应预测类别之间的对齐(换句话说,该度量衡量类别和对应的预测类别匹配得如何),所述方法包括以下步骤:-提供加权因子,这些加权因子表征所述不可分解的度量如何依据来自所述类别和所述预测类别的混淆矩阵的多个项;-依据提供的所述加权因子来训练所述分类器。本专利技术具有的优点在于,能够依据提供的加权因子针对大范围的不可分解的度量自动地实施分类器的优化。所述不可分解的度量可由以下公式给出:其中具有加权因子aj、bj、fj、gj,其中aj和bj是标量值(scalervalue),且fj和gj是参数化(包括无参数)函数,并且TP、TN、PP、PN、AP和AN是所述混淆矩阵的项,其可被呈现为已发现,能够以这种形式写出的不可分解的度量允许依据所述提供的加权因子来高效地训练所述分类器。注意,对项PN和AN的依赖性是冗余的,且在下文中将被忽略。这样的度量的示例在该表格中示出:优选地,所述优化作为一种对抗性预测方法来实施,即,通过寻找两玩家游戏在第一玩家(player)(预测器)和第二(对手)玩家之间的平衡(更具体地,纳什平衡(Nashequilibrium)),其中,所述第一玩家试图寻找对应于所述数据的(所有)输入值的第一类别,并且所述第二玩家试图寻找对应于所述数据的(所有)输入值的第二类别,并且其中,所述第一玩家试图最大化且所述第二玩家试图最小化所述度量(metric)的预期值,其中基于所述第一类别和所述第二类别来评估所述混淆矩阵,其中,所述第二类别服从于矩匹配约束。用数学术语,能够将所述对抗性预测公式化为: (1)其中是第一玩家的概率预测,且是对手的分布,并且是经验分布。对抗玩家需要通过选择条件概率来近似训练数据,该条件概率的特征预期与经验特征统计匹配。另一方面,预测器自由选择最大化预期度量的任何条件概率。在此,表示所述分类器的特征向量。例如,如果所述分类器由神经网络给出,则是对最终完全连接层的输入,该最终完本文档来自技高网...
【技术保护点】
1.一种用于训练分类器(60)、具体地二元分类器的计算机实施的方法,所述分类器用于根据不可分解的度量对输入信号(
【技术特征摘要】
20191202 EP 19212867.61.一种用于训练分类器(60)、具体地二元分类器的计算机实施的方法,所述分类器用于根据不可分解的度量对输入信号(xi)进行分类以优化性能,所述不可分解的度量衡量对应于一组训练数据的输入信号(xi)的类别(yi)和从所述分类器获得的所述输入信号的对应的预测类别()之间的对齐,所述方法包括以下步骤:
-提供加权因子(aj、bj、fj、gj),所述加权因子表征所述不可分解的度量如何依据来自所述类别(yi)和所述预测类别()的混淆矩阵的多个项(RP、TN、PP、AP、AN);
-依据提供的所述加权因子(aj、bj、fj、gj)来训练所述分类器(60)。
2.根据权利要求1所述的方法,其中所述不可分解的度量由公式给出,其中aj和bj是标量值,且fj和gj是函数,并且TP、TN、PP、PN、AP和AN是所述混淆矩阵的项,即,TP=“真阳性”,TN=“真阴性”,PP=“预测阳性”,PN=“预测阴性”,AP=“实际阳性”,且AN=“实际阴性”。
3.根据权利要求2所述的方法,其中,所述优化通过寻找两玩家游戏在第一玩家()和第二玩家()之间的平衡来实施,其中,所述第一玩家()试图寻找对应于所述训练数据(T)的输入信号(xi)的第一类别(),并且所述第二玩家()试图寻找对应于所述训练数据(T)的输入值(xi)的第二类别(),并且其中,所述第一玩家()试图最大化且所述第二玩家()试图最小化所述度量的预期值,其中基于所述第一类别()和所述第二类别()来评估所述混淆矩阵,其中,所述第二类别()服从于矩匹配约束。
4.根据权利要求3所述的方法,其中,通过寻找对应于所述矩匹配约束的拉格朗日乘子()的最优值来实施所述优化,并且其中,所述二元分类器(60)的完全连接层(64)的训练参数被设置为等于所述拉格朗日乘子()的所述最优值。
5.根据权利要求4所述的方法,其中,基于所述第一类别()和/或所述第二类别()的边缘概率()来计算所述预期值。
6.根据权利要求5所述的方法,其中,所述优化包括通过仅对那两个玩家(、...
【专利技术属性】
技术研发人员:R·法托尼,F·施密特,J·Z·科尔特,
申请(专利权)人:罗伯特·博世有限公司,卡内基梅隆大学,
类型:发明
国别省市:德国;DE
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。