用于管理及预测自动分类器性能的方法和装置制造方法及图纸

技术编号:2930697 阅读:224 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了用于检测时间性过程变化的技术,以及通过使用基于样本的时间排序而获得的性能估计,来管理和预测被应用于这种过程的自动分类器的性能的技术。

【技术实现步骤摘要】

本专利技术涉及用于检测时间性过程变化的技术,以及用于管理和预测自动分类器性能的方法和装置。
技术介绍
很多依赖于物体的模式识别和/或分类的工业应用(诸如自动制造检查或分类系统)都在利用有监督学习技术。如图1所代表的有监督学习系统是一种基于已加注标签的训练数据2的代表性输入集合,利用有监督学习算法4来创建经训练的分类器6的系统。训练数据2的集合中的每个成员都包含特征向量xi以及指示出具体成员所属唯一类别的标签ci。给定特征向量x,经训练的分类器f将返回相应的类别标签f(x)=c^.]]>有监督学习系统4的目标是使分类器6的准确性或相关的量度不仅对于训练数据2最大化,而且对于类似获得的、学习算法4无法获得的测试数据的集合也最大化。如果用于具体应用的类别标签的集合只包含两个条目,则将该应用称为二元(或两类)分类问题。二元分类问题在自动检查中常见,例如其目标通常是判断制成品是好还是坏。例如在将项目分类成一个或多个子类的过程(例如按品种对鱼分类、按速度对计算机存储器分类等等)中,也会遇到多类的问题。在统计模式识别中,已经广泛研究了有监督学习,并且基于不可见的测试数据来训练分类器并且预测经训练的分类器的性能的多种学习算法和方法是公知的。再次参考图1,给定已加注标签的训练数据集合2(D={xi,ci}),有监督学习算法4可被用于产生经训练的分类器6(f(x)=c^).]]>风险或成本αij可能与以下情况相关联,即当样本所属的真正类别为j时将其错误地分类为属于类别i。传统上,正确的分类被指定为零成本αij=0。典型的目标是估计预期损失(即预计分类器6在从相同过程中得到的新样本上引起的成本的加权平均),并使其最小化。损失的概念非常普通。在i和j不同时设置αij=1,并且在i和j相同时设置αij=0(所谓的0/1损失),这种情况下等同于将所有错误看作是相同的,并且致使总的错误分类率最小。更典型地,不同类型的错误将具有不同的相关成本。更复杂的损失公式也是可能的。例如,损失αij可以是函数,而不是常数。但是,在每种情况下,都定义了预测分类器性能的某种量度,并且目标是使性能最大化,或者等同地,使损失最小化。目前存在若干用于预测分类器性能的现有技术。一种这样的技术是使用独立的训练和测试数据集合。使用训练数据来构造经训练的分类器,然后基于独立的测试数据来评估经训练的分类器的性能。但是在很多应用中,收集已加注标签的数据困难而又昂贵,因此希望在训练期间使用所有可获得的数据,从而使所产生分类器的准确性最大化。另一种被称为“传统k次交叉验证”(或简称为“k次交叉验证”)的用于预测分类器性能的现有技术不需要单独的测试数据,因此允许将所有可获得的数据用于训练。如图2A和2B所示,在k次交叉验证中,训练数据{xi,ci}被随机地分割成k个子集Di(1≤i≤k),这k个子集具有大致相等的大小(图2B,步骤11)。对于迭代i=1到k(步骤12-17),通过使用除Di之外的所有可获得的数据而使用有监督学习算法来训练分类器(步骤14)。然后,这个经训练的分类器被用于分类子集Di中的所有样本(步骤15),并且存储分类结果(步骤16)。在很多情况下,也可以(在步骤16处)只保存汇总统计量,而不保存个别的分类。例如在恒定损失的情况下,保存各种类型的错误的总数就足够了。在k次迭代之后,对于全部数据集合,就已经知道了真实(ci)和估计 的类别标签(或相应的足够统计量)。然后可以计算诸如错误分类率、工作特性曲线或预期损失之类的性能估计(步骤18)。如果样本总数为n,那么每个样本的预期损失例如可以被估计为Σαc^ici/n.]]>当k=n-1时,k次交叉验证也被称为“留一法交叉验证”。在某些应用中,被称为“广义交叉验证”的、在计算上更有效的变体方案可能是优选的。这里,我们将这些和类似的现有技术称为“传统交叉验证”,并且不对它们进行区分。在k次交叉验证中,数据样本只在它们不对分类器的训练起作用时,才被用来估计性能,从而得到合理的性能估计。另外,对于足够大的k,在上述每次迭代期间的训练集合大小(大致为 其中n是已加注标签的训练数据样本的数目)只略小于全部数据集合的大小,从而导致对性能只是稍有悲观的估计。很多有监督学习算法致使具有一个或多个可调整参数的分类器控制工作点。为了简单起见,这里将讨论局限于二元分类问题,其中ci是两个不同类别中的一个或另一个类别中的成员。但是,将会意识到,这里所论述的原理可以被扩展到多类分类问题。在二元分类中,假肯定(falsepositive)被定义为在样本实际上属于负(或好)类别时,将其错误地分类为属于正(或缺陷)类别。相似地,真肯定被定义为将样本正确地分类为属于正类别。然后,假肯定率(也被称为假报警率)被定义为假肯定的数目除以负类别的成员数目。相似地,敏感度被定义为真肯定的数目除以正类别的成员数目。根据这些定义,具有可调整工作点的二元分类器的性能可以由图3所示的工作特性曲线(有时被称为接收方工作特性(ROC)曲线)来概括。分类器工作点的变化等同于选择ROC曲线上的点。在每个工作点处,发生任一类型错误分类的比率估计是已知的。如果相关成本αij也已知,则可以计算出任一工作点的预期损失。对于单调的工作特性,可以选择出唯一的工作点以使预期损失最小化。如前所述,k次交叉验证提供了构造二元分类器的估计ROC曲线所需的信息。除了有效地利用所有可获得的数据之外,k次交叉验证还具有允许估计预测性能的可靠性的额外优点。对于将数据划分到k个子集中的不同伪随机划分,可以重复k次交叉验证算法。这种方法例如不仅可用于计算预期损失,而且可用于计算该估计的标准方差。相似地,可以执行非参数假设测试(例如,k次交叉验证可被用于回答诸如“损失超过估计值两倍的可能性有多大?”之类的问题)。用于预测分类器性能的现有技术的方法假设训练数据的集合具有代表性。如果不是这样,并且具体而言,如果产生训练数据样本的过程受时间性变化的影响(例如过程随时间偏移或改变),那么经训练的分类器的性能可能要比预测差得多。这样的性能差异或改变可以在其发生时被用于检测时间性变化,但是优选的做法是在训练阶段的过程中检测时间性变化。有监督的学习通常不能解决这个问题。两种明确地对过程中的时间性变化进行预测的技术是时间序列分析和统计过程控制。时间序列分析试图理解和建模数据集合中的时间性变化,通常这种方法的目标是以一定时期内的行为来预测未来的行为,或者校正季节性或其他变化。统计过程控制(SPC)提供了使过程操作保持在可接受的限度内的技术,并且用于在无法这样做时发出警报。理想地,统计过程控制能够被用来使过程保持在其最佳工作点上或最佳工作点附近,几乎消除了由于基础过程中的时间性变化而引起的恶劣分类器性能。在实际中,由于时间、成本以及相关困难的影响,因此这种理想情况难以达到。因此,即使在被很好控制的过程中,时间性变化也可能存在于预定限度之内,并且这种变化可能足以干扰使用有监督学习所创建的分类器的性能。在出现时间性过程变化时,时间序列分析和统计过程控制都无法提供可直接用于分析和管理这种分类器的工具。当a)生成训练数据集合的基础过程不具有严重的时间性变化本文档来自技高网...

【技术保护点】
一种用于预测分类器性能的方法,该方法包括以下步骤:根据一个或多个第一标准来选择已加注标签的训练数据的一个或多个第一教导子集,并根据一个或多个第二标准来选择相应的已加注标签的训练数据的第一测试子集,其中所述一个或多个第一标准和所述一个 或多个第二标准中的至少一个至少部分基于时间顺序;分别使用相应的一个或多个第一教导子集来训练一个或多个第一分类器;分别使用所述相应的一个或多个第一分类器来分类所述一个或多个第一测试子集的成员;将分配给所述一个或多个第一 测试子集的成员的分类与所述已加注标签的训练数据中的相应成员的相应真实分类进行比较,以基于比较结果而产生一个或多个第一性能估计;根据一个或多个第三标准来选择所述已加注标签的训练数据的一个或多个第二教导子集,并根据一个或多个第四标准来选 择相应的所述已加注标签的训练数据的第二测试子集,其中所述第三标准中的至少一个至少部分不同于所述第一标准,和/或所述第四标准中的至少一个至少部分不同于所述第二标准;分别使用相应的一个或多个第二教导子集来训练一个或多个第二分类器;   分别使用所述相应的一个或多个第二分类器来分类所述一个或多个第二测试子集的成员;将分配给所述一个或多个第二测试子集的成员的分类与所述已加注标签的训练数据中的相应成员的相应真实分类进行比较,以基于比较结果而产生一个或多个第二性能估计; 以及基于所述第一性能估计和所述第二性能估计的统计分析来预测所述分类器的性能。...

【技术特征摘要】
...

【专利技术属性】
技术研发人员:约翰M海曼李强
申请(专利权)人:安捷伦科技有限公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1