当前位置: 首页 > 专利查询>清华大学专利>正文

一种基于K近邻方法的加权收缩方法技术

技术编号:4032705 阅读:270 留言:0更新日期:2012-04-11 18:40
本发明专利技术提出一种基于K近邻方法的加权收缩方法,包括以下步骤:划分样本集中的属于各个分类的训练样本和测试样本;对每个分类中的训练样本分别进行预定次数的样本点收缩以得到各个分类对应的训练集数据,并计算收缩后各个样本点的权重值;和根据距离所述测试样本最近的训练集数据中K个样本点的权重值对所述测试样本进行分类。本发明专利技术在考虑提高计算机运算速度、降低运算复杂度的同时,还能够保证分类的正确率。

【技术实现步骤摘要】

本专利技术涉及图像处理
,特别涉及一种基于K近邻方法的加权收缩方法。
技术介绍
近五十年来,模式识别和机器学习理论与技术得到了迅速的发展。近邻法作为模 式识别的一种典型分类方法,它最初在1968年被提出。这种方法虽然分类结果不是最好 的,但是它的计算复杂度小,便于实现,因此得到了广泛的应用。k近邻法是近邻法的直接拓 展方法,为了减少k近邻法的计算量和存储量,人们进行了不少研究,产生了例如剪辑近邻 法、压缩近邻法等方法。虽然这些方法在一定程度上减少了运算的复杂度,但是也对分类效 果有一定的负面影响。另外,这些方法中各个分类器中的样本点都是同级别的,因此比较重 要的样本在这些方法的分类过程中的作用不能体现出来。通常情况下,在进行模式分类的过程中,需要先将样本集划分为训练样本和测试 样本(有很多方法来进行划分),然后使用训练样本进行分类器的参数设计,再使用测试样 本测试分类器的错误率,以此分析分类算法的优劣。具体到k近邻方法上,就是要确定一组 训练样本,然后对每个测试样本,找到它最近的k个训练样本点,将它分到k个训练样本中 所属最多的那个类内,类似于多数投票的形式。
技术实现思路
本专利技术的目的旨在至少解决上述技术缺陷,提出了一种基于K近邻方法的加权收 缩方法。为达到上述目的,本专利技术一方面提出一种基于K近邻方法的加权收缩方法,包括 以下步骤划分样本集中的属于各个分类的训练样本和测试样本;对每个分类中的训练样 本分别进行预定次数的样本点收缩以得到各个分类对应的训练集数据,并计算收缩后各个 样本点的权重值;和根据距离所述测试样本最近的训练集数据中K个样本点的权重值对所 述测试样本进行分类。其中,本专利技术不仅可用于两类,还可用于多类的分类。本专利技术在考虑提高计算机运算速度、降低运算复杂度的同时,还能够保证分类的 正确率。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变 得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变 得明显和容易理解,其中图1为本专利技术实施例的基于K近邻方法的加权收缩方法的流程图;图2本专利技术实施例的产生训练集数据的流程图;图3为本专利技术实施例的样本集总体的示意图4为本专利技术实施例训练集收缩加权的过程和收缩后的坐标信息;图5为本专利技术实施例的分类过程示意图;图6为本专利技术实施例 中测试样本与训练样本的距离,权重值和分类信息示意图。 具体实施例方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终 相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附 图描述的实施例是示例性的,仅用于解释本专利技术,而不能解释为对本专利技术的限制。如图1所示,为本专利技术实施例的基于K近邻方法的加权收缩方法的流程图,包括以 下步骤步骤S101,划分样本集中的属于各个分类的训练样本和测试样本。具体可参考图 2,为本专利技术实施例的产生训练集数据的流程图。如图3所示,为本专利技术实施例的样本集总 体的示意图,在该实施例中,分为两类分类A类和B类,每个分类各有5个样本点,样本序 号为1到10,其中,使用每类前四个样本点作为训练样本,最后一个样本点作为测试样本。 需要说明的是,本专利技术实施例以两个分类举例描述,但是本专利技术还可采用多个分类,其原理 相同,在此不再赘述。步骤S102,对每个分类中的训练样本分别进行预定次数的样本点收缩以得到各个 分类对应的训练集数据,并计算收缩后各个样本点的权重值。参照图3具体包括,1)分别计算属于一类分类中各个训练样本之间的距离,并排序。其中,在本专利技术的 一个实施例中,各个训练样本之间的距离为欧式空间距离。由于每个样本都是由数据组成 的,因此可以通过计算其欧式空间距离(公式1)的方法得到两个样本点距离远近的度量。 本算法中就是用了欧式空间距离作为两个样本点之间的距离。 2其中,xt、xs分别表示训练集合中的第t、S个样本点,η表示样本数据的分量数,例如对于有两个数据属性的样本点二样,η = 2。2)根据排序结果对距离最近的两个训练样本进行收缩,得到一个新的样本点。其 中,收缩加权是指,对两个样本点进行收缩,就是找一个新的样本点替代这两个样本点,选 择的样本点可以看作这两个样本点的一个收缩,本算法中使用中点作为两样本点的收缩结 果。在加权过程中,最初设定所有训练样本的权重(用w表示)为1,在运算中凡是收缩产 生的新样本点,其权重会增加,增加程度的计算见以下公式。经过这个过程,每个样本点都 会有不同的权值。Wnew = α (Wl+W2),其中,α是一个小于1的非负系数,可以根据数据集进行调整。 W1和W2分别为被收缩两点的权重。3)重复上述步骤,直至达到预定次数,以得到各个分类对应的训练集数据。例如如 图4为本专利技术实施例训练集收缩加权的过程和收缩后的坐标信息,其中,样本点的圆圈内 的数据为样本点的权值。其中,A类进行了点1和2以及点3和4的收缩,得到了点11和 12 ;Β类进行了点6和7以及它们收缩点和8的收缩,得到了点13,假设α =0.8,这样,就 可以得到各点的权值。本专利技术具体实施的步骤是循环进行样本点之间的距离计算和收缩加权,直到循环 次数结束,这样不仅减少了训练集的样本个数,还能够兼顾运算量和准确性。 步骤S103,根据距离所述测试样本最近的训练集数据中K个样本点的权重值对所 述测试样本进行分类。如图5所示,为本专利技术实施例的分类过程示意图。在分类过程中,根 据测试集合中每个样本点的数据找到离它最近的k个训练集中样本,分别计算分类A和分 类B的权重,最后将这个样本点分为权重较重的那一类即可。这样就可以将测试样本一一 分类。具体地,参考图6,为本专利技术实施例中测试样本与训练样本的距离,权重值和分类信 息示意图。例如,选K为3对先前选出的测试样本进行分类。首先对A类的测试样本进行 分类,如图6可知,它周围的三个点中,A类权重为3. 2,B类权重为2. 08,因此它属于A类。 同样地,B类中的测试样本周围三个点中,A类权重1. 6,B类权重3. 08,因此它属于B类。至此就完成了对数据集的分类。如果有更多的测试样本,遵照上面过程可以直接 进行数据分类。同样地,如果要进行多个类的划分,只需要进行多类的加权收缩即可,具体 过程与上面类似,在此不再赘述。本专利技术在考虑提高计算机运算速度、降低运算复杂度的同时,还能够保证分类的 正确率。尽管已经示出和描述了本专利技术的实施例,对于本领域的普通技术人员而言,可以 理解在不脱离本专利技术的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换 和变型,本专利技术的范围由所附权利要求及其等同限定。权利要求一种基于K近邻方法的加权收缩方法,其特征在于,包括以下步骤划分样本集中的属于各个分类的训练样本和测试样本;对每个分类中的训练样本分别进行预定次数的样本点收缩以得到各个分类对应的训练集数据,并计算收缩后各个样本点的权重值;和根据距离所述测试样本最近的训练集数据中K个样本点的权重值对所述测试样本进行分类。2.如权利要求1所述的基于K近邻方法的加权收缩方法,其特征在于,所述方法用于两 类或多类的分类。3.如权利要求1所述的基于K近邻方法的加权收缩方法,其特征在于,所述对每本文档来自技高网...

【技术保护点】
一种基于K近邻方法的加权收缩方法,其特征在于,包括以下步骤:划分样本集中的属于各个分类的训练样本和测试样本;对每个分类中的训练样本分别进行预定次数的样本点收缩以得到各个分类对应的训练集数据,并计算收缩后各个样本点的权重值;和根据距离所述测试样本最近的训练集数据中K个样本点的权重值对所述测试样本进行分类。

【技术特征摘要】

【专利技术属性】
技术研发人员:戴琼海徐琨
申请(专利权)人:清华大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1